快速入門#
安裝#
Pandas簡介#
在處理表格數據(如存儲在電子表格或數據庫中的數據)時,Pandas是最適合您的工具。Pandas將幫助你探索、清理和處理你的數據。在Pandas中,數據表被稱為 DataFrame
。
Pandas支持與多種開箱即用的文件格式或數據源(CSV、EXCEL、SQL、JSON、PARQUE、…)集成。從這些數據源中的每個數據源導入數據由帶有前綴的函數提供 read_*
。類似地, to_*
方法用于存儲數據。
Pandas使用Matplotlib的功能,提供開箱即用的數據繪圖功能。您可以選擇繪圖類型(散點圖、條形圖、框圖等)與您的數據相對應。
不需要遍歷數據表的所有行來進行計算。列上的數據操作是以元素為單位工作的。將列添加到 DataFrame
基于其他列中的現有數據是很簡單的。
基本統計(平均值、中位數、最小值、最大值、計數...)是很容易計算的。這些或定制聚合可應用于整個數據集、數據的滑動窗口或按類別分組。后者也稱為拆分-應用-合并方法。
Pandas對時間序列有很好的支持,并且有一套廣泛的工具來處理日期、時間和時間索引數據。
數據集不僅包含數字數據。Pandas提供了廣泛的功能來清理文本數據并從中提取有用的信息。
來自..。#
您熟悉其他處理表格數據的軟件嗎?與你已經知道的軟件相比,學習Pandas的操作:
這個 R programming language 提供了 data.frame
data structure and multiple packages, such as tidyverse 使用和擴展 data.frame
用于方便的數據處理功能,類似于Pandas。
已經熟悉的 SELECT
, GROUP BY
, JOIN
等等?這些SQL操作中的大多數在Pandas身上都有類似的操作。
這個 data set
included in the STATA 統計軟件套裝與Pandas相對應 DataFrame
。從Stata那里了解到的許多操作在Pandas身上都有類似的操作。
用戶 Excel 或者其他電子表格程序會發現,許多概念可以轉移到Pandas身上。
這個 SAS 統計軟件套件還提供了 data set
與Pandas相對應 DataFrame
。此外,SAS的矢量化操作、過濾、字符串處理等操作在Pandas中也具有類似的功能。
教程#
有關Pandas功能的快速概述,請參閱 10 Minutes to pandas 。
你也可以參考Pandas cheat sheet 獲取有關處理Pandas數據的簡明指南。
該社區提供了各種各樣的在線教程。其中一些材料是征募到社區捐獻的 社區教程 。