迭代器与生成器:Python高效处理数据的基础技巧
Python迭代器和生成器用于处理大数据或无限数据,避免一次性加载内存,提升效率。迭代器是实现`__iter__`和`__next__`方法的对象,只能向前迭代(不可重复),可通过`iter()`从列表等可迭代对象转换,用`next()`获取元素。生成器是特殊迭代器,更简洁高效,分生成器函数(`yield`关键字)和表达式(圆括号)。生成器函数如生成斐波那契数列,表达式如`(x**2 for x in range(10))`,均不一次性生成所有元素,内存效率远高于列表推导式。二者核心区别:迭代器需手动实现迭代逻辑,生成器自动;生成器内存效率更高。适用于大数据流、无限序列等场景。掌握它们可优化内存使用,是Python处理数据的关键技巧。
閱讀全文pandas數據統計:5個常用函數幫你快速掌握基礎分析
pandas是Python處理表格數據的強大工具,文章介紹5個基礎統計函數,助初學者快速掌握數據分析技能。 **sum()**:計算總和,自動忽略缺失值(NaN),`axis=1`可按行求和,用於統計總量(如總分)。 **mean()**:求平均值,反映集中趨勢,但易受極端值影響,適合無極端值場景。 **median()**:計算中位數,抗極端值干擾,更能反映“大多數數據真實水平”。 **max()/min()**:分別返回最大/最小值,用於統計極值(如最高分、最低分)。 **describe()**:一站式統計,輸出count(數量)、mean(均值)、std(標準差)、分位數等,全面瞭解數據分佈與波動。 這些函數可回答“總量、平均、中間水平、極值”等基礎問題,是數據分析的“基本功”。後續可進階學習分組統計(groupby)等技能。
閱讀全文pandas Series入門:從理解到實戰操作,新手也能懂
pandas的Series是帶標籤的一維數組,包含數據與索引,是數據處理基礎結構。創建方式多樣:從列表(默認0,1...索引)、字典(鍵爲索引)、標量+長度(重複值),也可自定義索引(如日期、字符串)。核心屬性有values(數據數組)、index(標籤)、name(名稱)、shape(形狀)。索引操作支持標籤訪問(loc)、位置訪問(iloc),切片時標籤切片含結束標籤,位置切片不含。數據操作含sum、mean等統計方法,及布爾條件篩選。實戰中可用於時間序列或標籤化數據(如客流量分析),通過索引快速定位、統計與篩選,掌握索引操作是數據處理的關鍵。
閱讀全文