跳转至

Python | Pandas data frame.sample()

原文:https://www.geesforgeks.org/python-pandas-data frame-sample/

Python 是进行数据分析的优秀语言,主要是因为以数据为中心的 python 包的奇妙生态系统。Pandas 就是其中之一,它让数据的导入和分析变得更加容易。

Pandas **sample()**用于从函数调用方数据帧中生成一个样本随机行或列。

语法:

数据帧样本(n =无,frac =无,替换=假,权重=无,随机状态=无,轴=无)

参数:

n: 整数值,要生成的随机行数。 frac: 浮点值,返回(浮点值数据帧值的长度)。frac 不能与 n. 一起使用。替换:布尔值,如果为真,则返回替换样本。 random_state: int 值或 numpy.random.RandomState,可选。如果设置为特定整数,将在每次迭代中返回与示例相同的行。 轴:* 0 或“行”代表行,1 或“列”代表列。

返回类型:与调用者类型相同的新对象。

要下载使用的 CSV 文件,点击这里

示例#1: 数据帧中的随机行

在此示例中,两个随机行由。sample()方法,稍后进行比较。

# importing pandas package
import pandas as pd

# making data frame from csv file 
data = pd.read_csv("employees.csv")

# generating one row 
row1 = data.sample(n = 1)

# display
row1

# generating another row
row2 = data.sample(n = 1)

# display
row2

输出: 如输出图像所示,生成的两个随机样本行互不相同。

示例#2: 生成数据帧的 25%样本 在本示例中,从数据帧中生成 25%的随机样本数据。

# importing pandas package
import pandas as pd

# making data frame from csv file 
data = pd.read_csv("employees.csv")

# generating one row 
rows = data.sample(frac =.25)

# checking if sample is 0.25 times data or not

if (0.25*(len(data))== len(rows)):
    print( "Cool")
    print(len(data), len(rows))

# display
rows

输出: 如输出图像所示,生成的样本长度为数据帧的 25%。样本也是随机生成的。



回到顶部