標籤 "Python數據處理" 下的文章

迭代器与生成器：Python高效处理数据的基础技巧

2025-12-19 0 閱讀 Python语法 Python迭代器生成器 Python數據處理内存高效 yield

Python迭代器和生成器用于处理大数据或无限数据，避免一次性加载内存，提升效率。迭代器是实现`__iter__`和`__next__`方法的对象，只能向前迭代（不可重复），可通过`iter()`从列表等可迭代对象转换，用`next()`获取元素。生成器是特殊迭代器，更简洁高效，分生成器函数（`yield`关键字）和表达式（圆括号）。生成器函数如生成斐波那契数列，表达式如`(x**2 for x in range(10))`，均不一次性生成所有元素，内存效率远高于列表推导式。二者核心区别：迭代器需手动实现迭代逻辑，生成器自动；生成器内存效率更高。适用于大数据流、无限序列等场景。掌握它们可优化内存使用，是Python处理数据的关键技巧。

閱讀全文

pandas數據統計：5個常用函數幫你快速掌握基礎分析

2025-12-09 39 閱讀 pandas教程 pandas數據分析 Python數據處理 pandas統計函數數據基礎分析 pandas入門

pandas是Python處理表格數據的強大工具，文章介紹5個基礎統計函數，助初學者快速掌握數據分析技能。 **sum()**：計算總和，自動忽略缺失值（NaN），`axis=1`可按行求和，用於統計總量（如總分）。 **mean()**：求平均值，反映集中趨勢，但易受極端值影響，適合無極端值場景。 **median()**：計算中位數，抗極端值干擾，更能反映“大多數數據真實水平”。 **max()/min()**：分別返回最大/最小值，用於統計極值（如最高分、最低分）。 **describe()**：一站式統計，輸出count（數量）、mean（均值）、std（標準差）、分位數等，全面瞭解數據分佈與波動。這些函數可回答“總量、平均、中間水平、極值”等基礎問題，是數據分析的“基本功”。後續可進階學習分組統計（groupby）等技能。

閱讀全文

pandas Series入門：從理解到實戰操作，新手也能懂

2025-12-09 53 閱讀 pandas教程 Python pandas Series pandas入門教程 Series數據結構 Python數據處理 pandas實戰

pandas的Series是帶標籤的一維數組，包含數據與索引，是數據處理基礎結構。創建方式多樣：從列表（默認0,1...索引）、字典（鍵爲索引）、標量+長度（重複值），也可自定義索引（如日期、字符串）。核心屬性有values（數據數組）、index（標籤）、name（名稱）、shape（形狀）。索引操作支持標籤訪問（loc）、位置訪問（iloc），切片時標籤切片含結束標籤，位置切片不含。數據操作含sum、mean等統計方法，及布爾條件篩選。實戰中可用於時間序列或標籤化數據（如客流量分析），通過索引快速定位、統計與篩選，掌握索引操作是數據處理的關鍵。

閱讀全文