熊猫分组和计算中位数
原文:https://www.geeksforgeeks.org/pandas-group by-and-computing-median/
Python 中的熊猫被认为是执行数据分析最流行和最强大的工具。这是因为熊猫功能的美丽,以及在大数据集的集合和子集上工作的能力。因此,在本文中,我们将研究熊猫分组功能是如何工作的,并在处理大型数据集时节省大量精力。此外,我们将使用熊猫分组和中位数功能解决现实世界的问题。
熊猫群 by()
熊猫中的 groupby() 方法将数据集分割成子集,以简化计算。通常,groupby()分割数据,应用功能,然后为我们组合结果。让我们举个例子,如果我们有不同国家的饮酒数据,并且我们想在整个大陆进行数据分析,这个问题可以通过在熊猫中使用 groupby()方法来最小化。它按大陆分割数据,并使用中位数()方法计算中位数。
语法:
data frame.group by(by =无,轴=0,级别=无,as_index =真,排序=真,group_keys =真,挤压=
例 1 :在给定的数据集上,求各洲的酒精消费量中位数。
数据集: 饮酒国家. csv
蟒蛇 3
# import the packages
import pandas as pd
# read Dataset
data = pd.read_csv("drinksbycountry.csv")
data.head()
# perform groupby on continent and find median
# of total_litres_of_pure_alcohol
data.groupby(["continent"])["total_litres_of_pure_alcohol"].median()
# perform groupby on continent and find median
# of wine_serving
data.groupby(["continent"])["wine_servings"].median()
输出:
纯酒精总升数的中位数
葡萄酒供应量的中位数
例 2: 求给定数据集上按年龄划分的总人口组的中位数。
数据集: 世界人口 by ge2020.CSV
蟒蛇 3
# import packages
import pandas as pd
# read Dataset
data = pd.read_csv("WorldPopulationByAge2020.csv")
data.head()
# perform group by AgeGrp and find median
data.groupby(["AgeGrp"])["PopTotal"].median()
输出:
按年龄分组