Python Pandas庫
Pandas是一個開源的Python庫,用於使用其強大的數據結構進行高性能數據處理和數據分析。 Python和Pandas在各種學術和商業領域都有應用,其中包括金融,經濟學,統計學,廣告,網絡分析等等。 使用Pandas,無論數據源如何,我們都可以完成數據處理和分析中的五個典型步驟 - 加載,組織,操作,建模和分析數據。
以下是Pandas的一些重要功能,專門用於數據處理和數據分析工作。
Pandas的主要特點是 -
- 使用默認和自定義索引的快速高效的DataFrame對象。
- 用於將數據從不同文件格式加載到內存數據對象的工具。
- 數據對齊和缺失數據的集成處理。
- 重新設置和旋轉日期集。
- 大數據集的基於標籤的分片,索引和子集。
- 數據結構中的列可以被刪除或插入。
- 按數據分組進行聚合和轉換。
- 高性能的數據合併和連接。
- 時間序列功能。
Pandas處理以下三種數據結構 -
- 維數
- 系列
- 數據幀
這些數據結構建立在Numpy數組之上,使其快速高效。
維數和描述說明
考慮處理這些數據結構的最佳方式是:將高維數據結構化爲較低維數據結構的容器。 例如,DataFrame
是Series
的容器,Panel
是DataFrame
的容器。
數據結構
維數
描述說明
Series
1
1D標記的同質陣列,大小不可變。
DataFrame
2
一般的二維標籤,大小可變的表格結構,具有潛在的非均勻類型列。
DataFrame被廣泛使用,它是最重要的數據結構。
系列
系列(Series
)是一種具有同質數據結構的一維數組。 例如,以下系列是整數:10
,23
,56...
的集合。
例如,
10 23 56 17 52 61 73 90 26 72
系列的要點
- 同質數據
- 大小不可變
- 數據的值可變
數據幀
數據幀(DataFrame
)是一個具有異構數據的二維數組。 例如,
名字
年齡
性別
得分
Steve
32
男
3.45
Lia
28
女
4.6
Vin
45
男
3.9
Katie
38
女
2.78
該表格表示一個組織的銷售團隊的總體績效評級數據。數據以行和列表示。 每列代表一個屬性,每行代表一個人。
數據類型的列
四列的數據類型如下 -
列名
數據類型
名字
字符串
年齡
數字
性別
字符串
得分
浮點數
數據幀的要點 -
- 異構數據
- 大小可變
- 數據可變
在接下來的章節中,我們將看到很多關於在數據科學工作中使用python的pandas
庫的例子。