将压缩文件作为熊猫数据帧阅读
原文:https://www.geesforgeks.org/read-a-zip-file-as-pands-data frame/
在本文中,我们将尝试找出如何使用 panda 数据框从 zip 文件中读取数据。
为什么我们需要一个 zip 文件?
人们一起使用相关的文件组,并使文件紧凑,因此通过网络共享它们更容易和更快。Zip 文件非常适合归档,因为它们节省了存储空间。而且,它们对于使用加密方法保护数据也很有用。
要求:
zipfile36 模块:该模块用于使用简单的 python 程序对 zip 文件执行各种操作。可以使用以下命令安装:
pip install zipfile36
方法#1: 使用压缩= zip中的熊猫. read_csv() 方法。
通过将 read_csv() 方法中的压缩参数指定为 zip,熊猫将首先解压缩 zip,然后从压缩文件中的 csv 文件创建数据帧。
蟒蛇 3
# import required modules
import zipfile
import pandas as pd
# read the dataset using the compression zip
df = pd.read_csv('test.zip',compression='zip')
# display dataset
print(df.head())
输出:
方法 2: 打开 zip 文件,得到 CSV 文件。
这里,首先打开压缩文件,提取 CSV 文件,然后从提取的 CSV 文件创建数据帧。
蟒蛇 3
# import required modules
import zipfile
import pandas as pd
# open zipped dataset
with zipfile.ZipFile("test.zip") as z:
# open the csv file in the dataset
with z.open("test.csv") as f:
# read the dataset
train = pd.read_csv(f)
# display dataset
print(train.head())
输出: