生成器表达式：Python中比列表推导式更省内存的写法

你有没有遇到过这样的情况：想从大量数据中计算结果，结果列表一创建就“撑爆”了内存？比如生成一个包含100万个元素的列表，Python会把所有元素都存在内存里，这时候如果数据量再大一点，内存可能就不够用了。

今天我们就来聊聊Python中一个更省内存的写法——生成器表达式，它能完美解决列表推导式的内存占用问题。

先说说列表推导式的“内存包袱”¶

列表推导式是Python中很常用的创建列表的方式，语法像这样：

# 列表推导式：计算1到10的平方，返回一个列表
squares = [x**2 for x in range(10)]
print(squares)  # 输出：[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

列表推导式的特点是一次性生成所有结果，把它们都存到一个列表里。但如果我们要处理的数据量很大（比如100万、1000万甚至更多），这个列表就会像一个装满苹果的大箱子，把所有元素都“塞”进内存，导致内存占用飙升。

举个例子：如果我们想计算1到100万的平方，列表推导式会生成一个包含100万个数字的列表，每个数字都占用内存空间。如果数据量继续增大，内存很快就会被“撑爆”。

生成器表达式：只“用”不“存”的小技巧¶

生成器表达式是列表推导式的“轻量化”版本，写法上和列表推导式几乎一样，只是把方括号 [] 换成了圆括号 ()：

# 生成器表达式：计算1到10的平方，返回一个生成器对象
squares_gen = (x**2 for x in range(10))
print(squares_gen)  # 输出：<generator object <genexpr> at 0x...>

生成器表达式的核心优势是惰性计算（也叫“延迟计算”）：它不会一次性把所有结果都算出来存起来，而是需要的时候才生成一个元素，用完就“丢弃”，只保留当前需要处理的元素。

想象一下，列表推导式是“把所有苹果都装在一个大箱子里”，而生成器表达式是“每次只拿一个苹果，用完就放回箱子”——内存里永远只需要存一个苹果（当前元素），而不是一箱子苹果。

生成器表达式怎么用？¶

生成器表达式本身是一个“生成器对象”，它可以直接用在 for 循环中迭代，也可以用 next() 函数手动获取下一个元素。

1. 直接用在for循环中迭代¶

squares_gen = (x**2 for x in range(10))
for num in squares_gen:
    print(num, end=' ')  # 输出：0 1 4 9 16 25 36 49 64 81

每次循环时，生成器会生成下一个元素，循环结束后，生成器就“空了”（没有更多元素了）。

2. 用next()函数手动获取元素¶

如果想手动控制生成器的“进度”，可以用 next() 函数：

squares_gen = (x**2 for x in range(5))
print(next(squares_gen))  # 输出：0
print(next(squares_gen))  # 输出：1
print(next(squares_gen))  # 输出：4
print(next(squares_gen))  # 输出：9
print(next(squares_gen))  # 输出：16
print(next(squares_gen))  # 报错：StopIteration（没有更多元素了）

每次调用 next()，生成器都会“前进”一个元素，直到所有元素都被取出后，再调用 next() 就会抛出 StopIteration 错误。

生成器表达式 vs 列表推导式：谁更省内存？¶

特性	列表推导式（[]）	生成器表达式（()）
内存占用	一次性存储所有元素	只存储当前生成的元素
计算时机	立即生成所有结果	需要时才生成（惰性计算）
生成的数据类型	列表（list）	生成器（generator）
重复使用	可以多次访问列表中的元素	生成器只能迭代一次（用完即空）

核心结论：当处理大数据（比如10万、100万甚至更多元素），或者只需要逐个处理元素（不需要保存所有结果）时，生成器表达式的内存占用会远小于列表推导式。

什么时候用生成器表达式？¶

处理大数据集：比如统计日志文件中的某类数据，不需要把所有行都存起来，逐行处理即可。
只需要迭代一次：比如计算列表中所有偶数的和，处理完一个就丢弃一个，不需要保留所有结果。
模拟无限序列：Python中列表无法表示无限序列（会内存溢出），但生成器可以“生成”无限个元素（比如斐波那契数列），只需要在循环中设置终止条件。

总结¶

生成器表达式是Python中优化内存的利器，它用圆括号 () 代替列表的方括号 []，通过惰性计算避免了一次性存储所有元素，大大节省了内存占用。

如果你需要处理大量数据或只需要逐个迭代元素，生成器表达式会是比列表推导式更高效的选择。记住它的核心：“用一个，算一个，不占内存存所有”。

现在，试着把你常用的列表推导式改成生成器表达式吧，体验一下内存“瘦身”的快乐！