迭代器与生成器：Python高效处理数据的基础技巧

为什么需要迭代器和生成器？¶

在Python中处理数据时，我们经常会遇到这样的问题：如果数据量很大（比如几GB的文件、海量的日志记录），或者数据是“无限”的（比如不断接收的传感器数据），直接把所有数据加载到内存中会导致程序崩溃，或者运行得非常缓慢。这时候，迭代器和生成器就能派上用场了——它们可以“按需”生成数据，而不是一次性加载所有内容到内存，从而节省内存并提高效率。

一、迭代器：逐个“吐出”数据的对象¶

什么是迭代器？
迭代器是一个“数据访问接口”，它能让你逐个获取数据集合中的元素，而且只能向前迭代（不能后退）。它必须实现两个核心方法：
- __iter__()：返回迭代器对象本身（让for循环能识别它是可迭代的）。
- __next__()：返回下一个元素，如果没有更多元素，会抛出StopIteration异常。

如何创建和使用迭代器？
Python中，几乎所有可迭代对象（如列表、元组、字符串、字典等）都可以通过iter()函数转换为迭代器。例如：

# 定义一个列表
my_list = [1, 2, 3, 4]

# 将列表转换为迭代器
my_iter = iter(my_list)

# 逐个获取元素
print(next(my_iter))  # 输出：1
print(next(my_iter))  # 输出：2
print(next(my_iter))  # 输出：3
print(next(my_iter))  # 输出：4
print(next(my_iter))  # 报错：StopIteration（所有元素已迭代完毕）

关键点：
- 迭代器只能“往前走”，无法重复迭代。比如第一次迭代完后，迭代器已经“走到头”，再次用next()会直接报错。
- 常见的可迭代对象（列表、元组等）本身不是迭代器，但可以通过iter()转换为迭代器。

二、生成器：更简单的迭代器，用`yield`实现¶

生成器是一种特殊的迭代器，它的语法比手动实现迭代器更简洁，而且内存效率更高。生成器通过两种方式创建：生成器函数（用yield关键字）或生成器表达式（类似列表推导式，但用圆括号）。

1. 生成器函数：用`yield`“暂停”和“恢复”¶

生成器函数和普通函数类似，但使用yield关键字替代return。当函数执行到yield时，会暂停执行并返回一个值；下次调用函数时，会从yield的下一行继续执行。

示例1：生成器函数生成斐波那契数列
斐波那契数列是无限的（0, 1, 1, 2, 3, 5…），如果用列表生成会占用无限内存，而生成器可以“按需”生成：

def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a  # 每次返回一个斐波那契数，暂停函数
        a, b = b, a + b

# 使用生成器
fib = fibonacci(5)  # 生成前5个斐波那契数
for num in fib:
    print(num)  # 输出：0, 1, 1, 2, 3

示例2：生成器函数处理大文件
如果要读取一个10GB的日志文件，用列表一次性读取会崩溃，而生成器可以逐行读取：

def read_large_file(file_path):
    with open(file_path, 'r') as f:
        for line in f:  # 文件对象本身是可迭代的，逐行读取
            yield line.strip()  # 每次返回一行内容

# 使用生成器读取文件
for line in read_large_file('big_log.txt'):
    process(line)  # 处理每一行数据（无需加载整个文件到内存）

2. 生成器表达式：一行实现简单生成器¶

生成器表达式语法与列表推导式类似，但用圆括号()包裹，且不会一次性生成所有元素，而是逐个生成。

示例1：生成1-10的平方数（生成器表达式）

squares = (x**2 for x in range(10))  # 生成器表达式
print(squares)  # 输出：<generator object <genexpr> at 0x...>

for num in squares:
    print(num)  # 逐个输出：0, 1, 4, 9, 16, 25, 36, 49, 64, 81

对比列表推导式：
列表推导式[x**2 for x in range(10)]会一次性生成包含所有10个平方数的列表，占用内存；而生成器表达式(x**2 for x in range(10))只会在每次迭代时生成一个数，内存效率更高。

三、迭代器 vs 生成器：核心区别¶

特性	迭代器	生成器
定义方式	手动实现`__iter__`和`__next__`方法	生成器函数（`yield`）或生成器表达式
内存效率	较高，但需手动实现	极高，无需一次性存储所有元素
适用场景	复杂迭代逻辑（如自定义序列）	简单的“逐个生成”场景（如大数据流）

四、实际应用场景¶

处理大数据流：如读取大文件、处理数据库查询结果（避免一次性加载）。
无限序列：如斐波那契数列、随机数生成（无法用列表存储无限数据）。
节省内存：例如生成100万个数的平方，用生成器表达式比列表推导式节省大量内存。

五、总结¶

迭代器和生成器是Python中处理数据的“轻量级”工具，核心优势是内存高效和按需生成。掌握它们能让你写出更简洁、更高效的代码，尤其在处理大数据或无限序列时。生成器作为特殊的迭代器，语法更简单（yield或生成器表达式），是初学者快速上手的优选。

从“逐个访问元素”到“按需生成数据”，迭代器和生成器让Python处理数据的能力更上一层楼，是每个Python开发者必备的基础技巧。