Python | Pandas data frame.duplicated()

原文:https://www.geesforgeks.org/python-pandas-data frame-replicated/

Python 是进行数据分析的优秀语言，主要是因为以数据为中心的 python 包的奇妙生态系统。 【熊猫】 就是其中一个包，让导入和分析数据变得容易多了。数据分析的一个重要部分是分析重复值并将其删除。熊猫重复()方法仅帮助分析重复值。它返回一个布尔序列，该序列仅对唯一元素为真。 语法:

DataFrame.duplicated(subset=None, keep='first')

参数:

子集:取列或列标签列表。它的默认值是无。在传递列后，它将只考虑重复的列。 keep: 控制如何考虑重复值。它只有三个不同的值，默认值是“第一”。 –>如果为“第一”，则认为第一个值是唯一的，其余相同的值是重复的。 –>如果为“最后”，则认为最后一个值是唯一的，其余相同的值是重复的。 –>如果为假，则认为所有相同的值都是重复的。

要下载使用的 CSV 文件，点击这里。 示例#1: 返回布尔序列在以下示例中，基于“名字”列中的重复值返回布尔序列。

计算机编程语言

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv("employees.csv")

# sorting by first name
data.sort_values("First Name", inplace = True)

# making a bool series
bool_series = data["First Name"].duplicated()

# displaying data
data.head()

# display data
data[bool_series]

输出: 如输出图像所示，由于 keep 参数默认为“第一”，因此每当出现名称时，第一个被认为是唯一的，而 res 是重复的。

示例#2: 删除重复项在此示例中，keep 参数设置为 False，因此仅获取唯一值，并从数据中删除重复值。

计算机编程语言

# importing pandas package
import pandas as pd

# making data frame from csv file
data = pd.read_csv("employees.csv")

# sorting by first name
data.sort_values("First Name", inplace = True)

# making a bool series
bool_series = data["First Name"].duplicated(keep = False)

# bool series
bool_series

# passing NOT of bool series to see unique values only
data = data[~bool_series]

# displaying data
data.info()
data

输出: 由于 duplicated()方法对于 Duplicates 返回 False，因此取该系列的“非”以查看数据框中的唯一值。

我们一直在努力

apachecn/AiLearning