MongoDB游标使用：遍历查询结果的正确姿势

MongoDB游标（Cursor）是查询结果的“导航工具”，它让我们可以高效地遍历数据库中的数据。和SQL中一次性返回所有结果不同，MongoDB的游标是惰性执行的，只有在真正需要数据时才会逐步获取，这对处理大量数据非常友好。本文将用最简单的方式，带你掌握游标遍历的正确姿势。

一、什么是MongoDB游标？¶

想象你在MongoDB中执行一条查询，比如 db.collection.find()，这时候数据库不会立刻把所有结果返回给你，而是先给你一个“游标”——一个指向结果集的“指针”。只有当你开始遍历这个游标时（比如逐行读取数据），MongoDB才会真正从数据库中拉取数据，然后逐步返回给你。

核心特点：
- 惰性执行：游标创建时不查询数据库，直到开始遍历才触发实际查询。
- 迭代器特性：每次只返回一条数据，避免一次性加载所有数据到内存，适合大数据量场景。

二、如何获取游标？¶

通过 find() 方法直接获取游标。例如，查询 products 集合中所有文档：

// 在MongoDB Shell中执行
var cursor = db.products.find(); // 此时未执行查询，cursor是游标对象

find() 还可以加查询条件、排序、限制数量等，例如：

// 查询价格大于1000的商品，按价格升序，只返回前10条
var cursor = db.products.find(
  { price: { $gt: 1000 } }, // 查询条件
  { _id: 0, name: 1, price: 1 } // 只返回name和price字段
).sort({ price: 1 }).limit(10);

三、遍历游标：3种常用姿势¶

游标创建后，需要通过遍历获取数据。以下是初学者最常用的3种遍历方式，各有适用场景。

1. `forEach()`：最简单的遍历方式（适合小数据量）¶

forEach() 是MongoDB Shell中最直观的遍历方法，直接传入一个回调函数，每次返回一条文档：

cursor.forEach(function(doc) {
  // doc就是当前遍历到的文档
  print("商品名称：" + doc.name + "，价格：" + doc.price);
});

优势：
- 无需手动处理循环逻辑，代码简洁。
- 自动处理游标遍历的终止条件（无更多数据时停止）。

2. `toArray()`：一次性获取所有数据（仅适合小数据量）¶

toArray() 会将游标中的所有数据一次性加载到内存，转为数组返回。适合数据量极小的场景（比如几百条以内）：

var allDocs = cursor.toArray(); // 直接获取所有数据到数组
allDocs.forEach(function(doc) {
  print(doc.name);
});

⚠️ 注意：
- 禁止用于大数据量！如果数据超过10万条，toArray() 会导致内存溢出（OOM），甚至直接崩溃。
- 如果数据量较大，必须用迭代方式（如 forEach() 或 while 循环）逐步获取。

3. `while` 循环 + `next()`：底层遍历（适合大数据量）¶

游标是可迭代对象，通过 next() 方法可以手动控制每次获取一条数据。结合 while 循环，适合复杂场景：

while (cursor.hasNext()) { // 判断是否还有下一条数据
  var doc = cursor.next(); // 获取下一条文档
  print(doc.name);
}

原理：
- cursor.hasNext()：检查是否有未返回的数据。
- cursor.next()：返回当前文档，并自动移动游标到下一条。
- 当没有更多数据时，next() 返回 null，循环终止。

四、遍历游标必知的“避坑指南”¶

游标遍历看似简单，但实际操作中容易踩坑，以下是关键注意事项：

1. 警惕内存问题：大数据量别用 `toArray()`¶

toArray() 会一次性加载所有数据到内存，若数据量超过百万级，会导致MongoDB服务或客户端内存爆炸。
替代方案：用 forEach() 或 while 循环，每次只处理一条数据，处理完后释放内存。

2. 游标超时：别让遍历“等太久”¶

MongoDB游标默认有超时时间（通常10分钟）。如果遍历过程中超过10分钟未结束，游标会自动失效，再次调用 next() 或 hasNext() 会抛出错误。
解决办法：
- 遍历前设置超时（仅MongoDB 3.4+支持）：

  var cursor = db.products.find().maxTimeMS(300000); // 设置超时5分钟

对超大数据量，建议分批处理（每批1000条，处理完后重新创建游标）。

3. 数据一致性：遍历中数据会变吗？¶

MongoDB游标默认是快照读（Read Concern: local），即遍历过程中返回的数据是“某一时刻的快照”。如果遍历期间原集合数据被修改（插入、更新、删除），不会影响当前游标。
- 例外：若原数据被删除，游标中仍可能返回该文档（取决于操作时机），但MongoDB会保证遍历结果的一致性。

4. 分页别用 `skip()`，效率太低！¶

很多人用 skip() + limit() 做分页，例如：

// 第1页：跳过0条，取10条
db.products.find().skip(0).limit(10); 
// 第2页：跳过10条，取10条
db.products.find().skip(10).limit(10);

问题：skip(n) 会从集合开头开始数n条，大数据量下（如n=10万），每次查询会全表扫描，效率极低！
替代方案：用 _id 作为“锚点”，例如：

// 上一页最后一条的_id是lastId，下一页从lastId之后开始
db.products.find({ _id: { $gt: lastId } }).limit(10);

用 _id 索引快速定位，避免全表扫描，效率提升百倍。

五、大数据量下的遍历最佳实践¶

处理百万级甚至亿级数据时，游标遍历需兼顾效率和内存：
1. 分批迭代：每次取1000-10000条数据，处理完后继续下一批。
2. 避免全局遍历：用 find().batchSize(1000) 控制每次从数据库拉取的数据量（batchSize默认是101），减少网络传输。
3. 异步处理：用Node.js或Python多线程/异步，将大任务拆分为小任务并行处理（MongoDB驱动支持异步游标）。

总结¶

游标是MongoDB处理查询结果的核心工具，它通过“惰性执行”和“迭代器特性”，让我们能高效处理海量数据。关键是：
- 小数据量用 forEach() 快速遍历；
- 大数据量用 while 循环 + next() 逐步获取；
- 绝对别用 toArray() 加载大数据；
- 分页优先用 _id 锚点，避免 skip()；
- 警惕游标超时和内存溢出风险。

掌握这些，你就能像“导航”一样轻松遍历MongoDB数据，既高效又安全！

MongoDB游标使用：遍历查询结果的正确姿势

一、什么是MongoDB游标？¶

二、如何获取游标？¶

三、遍历游标：3种常用姿势¶

1. forEach()：最简单的遍历方式（适合小数据量）¶

2. toArray()：一次性获取所有数据（仅适合小数据量）¶

3. while 循环 + next()：底层遍历（适合大数据量）¶