计算每组熊猫的唯一值
原文:https://www.geesforgeks.org/count-unique-values-with-pands-per-group/
先决条件:T2】熊猫
在这篇文章中,我们发现并计算熊猫组/栏中存在的唯一值。唯一值是指在数据集中仅出现一次的不同值,或者第一次出现的重复值被视为唯一值。
方法:
- 导入熊猫库。
- 使用 dataframe()函数导入或创建 dataframe ,在该函数中,将数据作为参数传递,您要在该参数上创建 DataFrame,将其命名为“df”,或者对于导入数据集,使用 pandas.read_csv()函数,在该函数中传递数据集的路径和名称。
- 选择要在其中检查或计算唯一值的列。
- 为了找到唯一的值,我们使用了 pandas 提供的 unique()函数,并将其存储在一个变量中,名为“unique_values”。
语法:pandas.unique(df(column_name))或 df['column_name']。唯一的()
- 它将给出该组/列中存在的唯一值。
- 为了计算唯一值的数量,我们必须首先将名为“count”的变量 let 初始化为 0,然后必须为“unique_values”运行 For 循环,计算循环运行的次数,并将“count”的值增加 1
- 然后打印“计数”,该存储值是特定组/列中存在的唯一值的数量。
- 为了计算唯一值在特定列中重复的次数,我们使用了 Pandas 提供的 value_counts()函数。
语法:pandas.value_counts(df['column_name']或 df[' column_name ']。value_counts()
- 这将给出每个唯一值在特定列中重复的次数。
为了更好地理解这个话题。让我们举一些例子,实现上面讨论的方法中的功能。
示例 1:使用熊猫库创建数据帧。
计算机编程语言
# importing library
import pandas as pd
# storing the data of cars in the dictionary
car_data = {'Model Name': ['Valiant',
'Duster 360',
'Merc 240D',
'Merc 230',
'Merc 280',
'Merc 280C',
'Merc 450SE',
'Merc 450SL',
'Merc 450SLC',
'Cadillac Fleetwood',
'Lincoln Continental',
'Chrysler Imperial',
'Fiat 128',
'Honda Civic',
'Toyota Corolla'],
'Gear': [3, 3, 4, 4, 5, 4, 3, 3,
3, 3, 3, 3, 4, 4, 4],
'Cylinder': [6, 8, 4, 4, 6, 6, 8,
8, 8, 8, 8, 8, 4, 4, 4]}
# creating DataFrame for the data using
# pandas DataFrame function.
car_df = pd.DataFrame(car_data)
# printing the dataframe
car_df
输出:
示例 2:打印每组中存在的唯一值。
计算机编程语言
# importing libraries
import pandas as pd
# storing the data of cars in the dictionary
car_data = {'Model Name': ['Valiant',
'Duster 360',
'Merc 240D',
'Merc 230',
'Merc 280',
'Merc 280C',
'Merc 450SE',
'Merc 450SL',
'Merc 450SLC',
'Cadillac Fleetwood',
'Lincoln Continental',
'Chrysler Imperial',
'Fiat 128',
'Honda Civic',
'Toyota Corolla'],
'Gear': [3, 3, 4, 4, 5, 4, 3, 3,
3, 3, 3, 3, 4, 4, 4],
'Cylinder': [6, 8, 4, 4, 6, 6, 8,
8, 8, 8, 8, 8, 4, 4, 4]}
# creating DataFrame for the data using pandas
car_df = pd.DataFrame(car_data)
# printing the unique values present in the Gear column
# finding unique values present
# in the Gear column using unique() function
print(f"Unique values present in Gear column are: {car_df['Gear'].unique()}")
# printing the unique values present
# in the Cylinder column
# finding unique values present in the
# Cylinder column using unique() function
print(f"Unique values present in Cylinder column are: {car_df['Cylinder'].unique()}")