列表推导式vs生成器表达式：Python数据处理效率对比

在Python中处理数据时，我们经常需要生成满足特定条件的序列。列表推导式（List Comprehension）和生成器表达式（Generator Expression）是两种常用工具，但它们的“工作方式”和“效率”却有很大区别。理解两者的差异，能帮你在数据处理时写出更高效的代码。

列表推导式：直接生成完整列表¶

列表推导式是最直观的生成列表的方式，用中括号 [] 包裹，结构类似 [表达式 for 变量 in 可迭代对象 if 条件]。

示例：生成1到10的平方列表

squares_list = [x**2 for x in range(1, 11)]
print(squares_list)  # 输出: [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

特点：
- 立即计算：执行时会直接创建整个列表，所有元素都被加载到内存中。
- 内存占用大：如果数据量很大（比如100万条），列表会占用大量内存。
- 可重复使用：列表生成后可多次遍历（如 for num in squares_list 可以重复执行）。
- 支持随机访问：可以通过索引获取任意元素（如 squares_list[5] 得到第6个元素）。

生成器表达式：惰性计算的“数据流”¶

生成器表达式用小括号 () 包裹，结构与列表推导式类似：(表达式 for 变量 in 可迭代对象 if 条件)。

示例：生成1到10的平方序列（生成器）

squares_generator = (x**2 for x in range(1, 11))
print(squares_generator)  # 输出: <generator object <genexpr> at 0x...>

特点：
- 惰性计算：生成器不会立即创建所有元素，而是“等待”被遍历（迭代）时才逐个生成。
- 内存友好：仅在需要时生成元素，内存中只保留当前处理的元素，适合大数据量。
- 单向迭代：生成器只能遍历一次，遍历结束后无法“回头”（类似文件指针，读完即到末尾）。
- 无法随机访问：不能通过索引获取元素，也无法直接用 len() 获取长度。

核心区别：内存与效率¶

对比维度	列表推导式	生成器表达式
内存占用	一次性加载所有元素，内存占用大	惰性生成，仅存当前元素，内存占用小
遍历次数	可多次遍历（重复迭代）	仅能遍历一次（用完即弃）
随机访问	支持（通过索引）	不支持（无索引）
适用场景	小数据、需多次使用、随机访问	大数据、单次遍历、内存敏感场景

实战对比：大数据量下的效率¶

假设处理100万个数，计算平方并求和：

列表推导式的内存压力¶

import sys

# 生成100万个元素的列表
big_list = [x**2 for x in range(1000000)]
print("列表占用内存:", sys.getsizeof(big_list))  # 输出: ~112字节（仅存储列表结构）
# 实际元素总大小：每个int占28字节，100万约28MB，加上列表结构额外占用，总内存接近30MB

当数据量超过内存时，列表会导致 MemoryError（内存溢出）。

生成器表达式的内存优势¶

big_generator = (x**2 for x in range(1000000))
print("生成器占用内存:", sys.getsizeof(big_generator))  # 输出: ~112字节（固定大小）
# 生成器仅存储迭代状态，无论数据量多大，内存占用几乎不变

# 迭代求和（逐个计算，内存中仅存当前元素）
total = sum(big_generator)
print(total)  # 输出: 333332833333500000

如何选择？看需求！¶

用列表推导式：
需要多次使用结果（如反复遍历或存储）
需要随机访问元素（如 list[5]）
数据量小（内存无压力）
用生成器表达式：
数据量极大（远超内存）
只需逐个处理元素（如管道式数据处理）
无需重复使用结果，仅需“流式”处理

总结¶

列表推导式是“急脾气”，直接把所有结果打包给你；生成器表达式是“慢性子”，按需逐步提供结果。大数据量下，生成器表达式能显著节省内存，避免“内存爆炸”。记住：小数据用列表，大数据用生成器！