Python数据分析

Python数据分析知识量：13 - 56 - 232

5.3 处理重复值><

默认删除重复行- 5.3.1 -

drop_duplicates()函数用于删除DataFrame表格对象中的重复值（行）。其默认会对所有重复值进行检测，保留第一行，删除其他重复行。

import pandas as pd
df=pd.read_excel(r"D:\PythonTestFile\exam.xlsx")
print(df,'\n')
print(df.drop_duplicates())

运行结果为：

       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
2      Noah    male       90       50    66
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
5    Sophia  female       90       66    96
6      Liam    male       55       88    69
7  Isabella  female       66       85    55 

       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
5    Sophia  female       90       66    96
7  Isabella  female       66       85    55

每行值作为一组，只有一行中所有的值均重复时，才删除该行。

按列删除重复行- 5.3.2 -

可以只检查某些列，对列中存在重复值的进行删除。需要将列名传给参数subset来实现。当依据多列去重时，多个列名以列表的形式给出。

import pandas as pd
df=pd.read_excel(r"D:\PythonTestFile\exam.xlsx")
print(df,'\n')
print(df.drop_duplicates(subset='Chinese'),'\n')
print(df.drop_duplicates(subset=['Chinese','Math']))

运行结果为：

       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
2      Noah    male       90       50    66
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
5    Sophia  female       90       66    96
6      Liam    male       55       88    69
7  Isabella  female       66       85    55 

       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
7  Isabella  female       66       85    55 

       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
5    Sophia  female       90       66    96
7  Isabella  female       66       85    55

按多列去重时，每行对应列数据将作为一组，全组数据重复时才会删除。

自定义保留行- 5.3.3 -

在删除重复行时，默认保留第一个（行），通过设置参数keep，可以自定义保留最后一个（行）或全不保留。

keep='first' 保留第一行（默认）
keep='last' 保留最后一行
keep=False 不保留重复行（全部删除重复行）

import pandas as pd
df=pd.read_excel(r"D:\PythonTestFile\exam.xlsx")
print('DataFrame:')
print(df,'\n')
print('默认保留第一个重复值：')
print(df.drop_duplicates(subset='Math'),'\n')
print('保留最后一个重复值：')
print(df.drop_duplicates(subset='Math',keep='last'),'\n')
print('不保留重复值：')
print(df.drop_duplicates(subset='Math',keep=False))

运行结果为：

DataFrame:
       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
2      Noah    male       90       50    66
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
5    Sophia  female       90       66    96
6      Liam    male       55       88    69
7  Isabella  female       66       85    55 

默认保留第一个重复值：
     Name     Sex  Chinese  English  Math
0    Noah    male       90       50    66
1    Emma  female       56       56    55
3  Olivia  female       86       87    44
4    Liam    male       55       88    69
5  Sophia  female       90       66    96 

保留最后一个重复值：
       Name     Sex  Chinese  English  Math
2      Noah    male       90       50    66
3    Olivia  female       86       87    44
5    Sophia  female       90       66    96
6      Liam    male       55       88    69
7  Isabella  female       66       85    55 

不保留重复值：
     Name     Sex  Chinese  English  Math
3  Olivia  female       86       87    44
5  Sophia  female       90       66    96

unique()函数- 5.3.4 -

删除重复值或查询唯一值时还可以使用unique()函数，示例如下：

import pandas as pd
df=pd.read_excel(r"D:\PythonTestFile\exam.xlsx")
print(df,'\n')
print(df['Chinese'].unique())  # 获取Chinese列的唯一值

运行结果为：

       Name     Sex  Chinese  English  Math
0      Noah    male       90       50    66
1      Emma  female       56       56    55
2      Noah    male       90       50    66
3    Olivia  female       86       87    44
4      Liam    male       55       88    69
5    Sophia  female       90       66    96
6      Liam    male       55       88    69
7  Isabella  female       66       85    55 

[90 56 86 55 66]

Python数据分析

1.背景知识

1.1 为什么选择Python

1.2 重要的模块

2.NumPy数组

2.1 ndarray多维数组

2.2 创建普通数组

2.3 创建特殊数组

2.4 创建随机数组

2.5 数组的属性

2.6 选取一维数据

2.7 选取多维数组

2.8 数据预处理

2.9 数组重塑

2.10 数组合并

2.11 数据分析函数

3.pandas基础

3.1 Series数据结构

3.2 DataFrame数据结构

4.获取数据

4.1 导入Excel数据

4.2 导入csv文件

4.3 导入txt文件

4.4 导入sql文件

5.预处理数据

5.1 熟悉数据

5.2 处理缺失值

5.3 处理重复值

5.4 处理异常值

5.5 类型转换

5.6 设置索引

6.选择数据

6.1 选择列

6.2 选择行

6.3 选择行列

7.操作数据

7.1 数据替换

7.2 数据排序

7.3 数据排名

7.4 数据删除

7.5 数据计数

7.6 数据查找

7.7 数据切分

7.8 操作行列

7.9 高级数据操作

8.数据计算

8.1 算术运算

8.2 比较运算

8.3 汇总计算

9.分组与透视

9.1 数据分组

9.2 数据透视表

10.表的拼接

10.1 横向拼接

10.2 纵向拼接

11.时间序列

11.1 获取当前时刻

11.2 指定日期时间格式

11.3 时间格式转换

11.4 时间索引

11.5 时间计算

12.保存文件

12.1 保存为Excel文件

12.2 保存为CSV文件

13.数据可视化

13.1 画布和坐标系

13.2 常用图表类型

13.3 设置坐标轴

13.4 设置图表格式

13.5 绘制复杂图表

5.3 处理重复值><

默认删除重复行- 5.3.1 -

按列删除重复行- 5.3.2 -

自定义保留行- 5.3.3 -

unique()函数- 5.3.4 -