Python数据分析

Python数据分析 知识量:13 - 56 - 232

1.2 重要的模块><

NumPy- 1.2.1 -

NumPy是Python数值计算的基石。提供了多种数据结构、算法和接口。其主要包括以下内容:

  • 多维数组ndarray。

  • 基于元素的数组计算和数组间数学操作函数。

  • 用于读写硬盘中基于数组的数据集的工具。

  • 线性代数、傅里叶变换、随机数生成等工具。

  • C语言API,可使本地C或C++代码访问NumPy数据结构。

在NumPy中,NumPy数组是最为重要的部分。而且,NumPy适合处理同质型的数值类数组数据,能够比Python内建数据结构更为高效的存储和操作数据。用C等底层语言编写的库,可以直接操作NumPy数组数据,从而实现与NumPy的互操作。因此,NumPy数组可作为基础数据结构,用于算法和库之间数据传递的容器。

需要注意的是,NumPy是目前Python数值计算中最为重要的基础包。大多数计算包都提供了基于NumPy的科学函数功能,将NumPy的数组对象作为数据交换的基础容器。因此,当使用其他模块时,可能需要首先导入NumPy模块。

pandas- 1.2.2 -

pandas模块名称来源于panel data(面板数据),这是计量经济学中针对多维结构化数据集的术语。pandas提供了非常直观的数据结构及强大的数据管理和数据处理功能,是使用Python进行数据分析的主要模块。

总的来说,pandas将表格和关系型数据库的灵活数据操作能力与NumPy的高性能数组计算的理念相结合。它提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。pandas尤其适合用来处理表格型或异质型数据。

matplotlib- 1.2.3 -

matplotlib是Python最为流行的可视化模块,是功能强大的Python制图工具。matplotlib可与 NumPy等模块一起使用,提供优秀的数据可视化解决方案。

导入模块- 1.2.4 -

除内建模块外,在Python中要使用第三方模块首先需要安装。可以使用pip或pip3命令来实现。安装完成后,需要首先导入相应模块才可以使用。例如下面导入NumPy、pandas和matplotlib模块:

import numpy as np
import pandas as pd
import matplotlib as plt

以上代码中,通过as给相应模块起了别名,以便于随后的调用。根据模块的官方建议,这里约定:np代表NumPy;pd代表pandas;plt代表matplotlib。