强基初中数学&学Python——第236课 数字和数学第三方模块Pandas:入门——安装和功能简介


安装通过conda
  pandas 是支持Anaconda的项目,可以通过Anaconda或Miniconda安装:

· 

 conda install pandas

通过pip
  pandas可以通过PyPI的pip安装:

· 

pip install pandas

高级说明  是否安装特定版本?是否从源安装?检查高级安装页面。打开:https://pandas.pydata.org/docs/getting_started/install.html
pandas简介
Pandas处理什么样的数据?  当需要处理表格数据(例如存储在电子表格或数据库中的数据)时,pandas是适合的工具。pandas能用于探索、清理和处理数据。在pandas中,数据表称为DataFrame。DataFrame:https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#min-tut-01-tableoriented到用户指南:https://pandas.pydata.org/docs/user_guide/dsintro.html#dsintro

如何读写表格数据?
  pandas集成支持许多文件形式数据或数据源(csv、excel、sql、json、parquet等)。从每个数据源导入数据都由前缀为read_*的函数(例如read_csv)提供。类似地,to_*的函数(例如to_csv)用于存储数据。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html#min-tut-02-read-write到用户指南:https://pandas.pydata.org/docs/user_guide/io.html#io
如何选择表(table)的子集(subset)?  选择或筛选特定的行和/或列?通过条件过滤数据?pandas提供了切片、选择和提取所需数据的方法。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html#min-tut-03-subset到用户指南:https://pandas.pydata.org/docs/user_guide/indexing.html#indexing
如何在pandas中创建图表?
  pandas利用Matplotlib的强大功能,提供开箱即用的数据绘图功能。您可以选择与数据对应的绘图类型(散点图、条形图、方框图…)。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/04_plotting.html#min-tut-04-plotting到用户指南:https://pandas.pydata.org/docs/user_guide/visualization.html#visualization
如何从现有列派生出新列?  虽然表面上是整列操作,但实际上是按元素进行操作的,所以不需要在数据表的所有行上循环进行计算。这样,基于其他列中的现有数据派生的新列添加到数据帧(DataFrame)很简单直接。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/05_add_columns.html#min-tut-05-columns到用户指南:https://pandas.pydata.org/docs/user_guide/dsintro.html#basics-dataframe-sel-add-del
如何汇总统计?  基本统计(平均值、中值、最小值、最大值、计数…)很容易计算。这些计算或自定义聚合计算可以应用于整个数据集、数据的滑动窗口或按类别分组。后者也称为拆分应用组合方法。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/06_calculate_statistics.html#min-tut-06-stats到用户指南:https://pandas.pydata.org/docs/user_guide/groupby.html#groupby
如何重塑表格的布局?  有多种方式更改数据表的结构。可以将数据表从宽格式合并(melt())为长格式/整洁格式,或从长格式合并为宽格式(pivot())。使用内置聚合方法,只需一个命令即可创建数据透视表。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/07_reshape_table_layout.html#min-tut-07-reshape到用户指南:https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping
如何组合来自多个表的数据?  由于提供了类似于数据库的连接/合并操作来组合多个数据表,因此可以按列和按行连接多个表。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/08_combine_dataframes.html#min-tut-08-combine到用户指南:https://pandas.pydata.org/docs/user_guide/merging.html#merging
如何处理时间序列数据?  pandas很好地支持时间序列,并且有一套广泛的工具来处理日期、时间和时间索引数据。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/09_timeseries.html#min-tut-09-timeseries到用户指南:https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries
如何操作文本数据?  数据集不仅包含数字数据。pandas提供了一系列功能来清理文本数据并从中提取有用的信息。到介绍教程:https://pandas.pydata.org/docs/getting_started/intro_tutorials/10_text_data.html#min-tut-10-text到用户指南:https://pandas.pydata.org/docs/user_guide/text.html#text
拓展······  也许用户已经熟悉其他处理数据表的软件,与这些软件比较,了解pandas的等效操作:  R编程语言提供了data.frame数据结构和多个包,例如tidyverse使用和扩展data.frame,以实现与pandas类似的便捷数据处理功能。
了解更多信息:https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_r.html#compare-with-r  用户已经熟悉SELECT、GROUP BY、JOIN等,这些SQL操作中的大多数在pandas中都有等价的操作。
了解更多信息:https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html#compare-with-sql  STATA统计软件套件中包含的数据集(data set)与pandas DataFrame相类似。STATA已知的许多操作在pandas上都有等效的操作。
了解更多信息:https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_stata.html#compare-with-stata  Excel或其他电子表格程序的用户会发现,许多概念都可以移植到pandas。
了解更多信息:https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_spreadsheets.html#compare-with-spreadsheets  SAS统计软件套件也提供与pandas DataFrame相类似的数据集( data set)。SAS矢量化操作、过滤、字符串处理操作等在pandas中也有类似的函数。
了解更多信息:https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sas.html#compare-with-sas
教程  有关pandas功能的快速概述,请参阅10分钟了解pandas:https://pandas.pydata.org/docs/user_guide/10min.html#min。  获取pandas操作数据的简明指南,参考pandas备忘单:https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf。
  该社区提供了各种各样的在线教程。一些材料被收录在社区提供的社区教程中:https://pandas.pydata.org/docs/getting_started/tutorials.html#communitytutorials。