使用熊猫处理 excel 文件

原文:https://www.geeksforgeeks.org/使用 excel 文件-使用熊猫/

Excel 工作表是信息技术行业中最常见的文件形式之一。每个曾经使用过电脑的人都曾接触过 excel 电子表格。excel 之所以如此受欢迎，是因为它在表格和系统形式的数据存储和操作领域有着广泛的应用。此外，excel 工作表是非常本能和用户友好的，这使得它非常适合操作大型数据集，即使对于技术水平较低的人来说。如果你正在寻找学习使用 Python 操作和自动化 excel 文件的地方，那就不要再找了。你来对地方了。

在本文中，您将学习如何使用 Pandas 来处理 Excel 电子表格。在文章的最后，您将了解:

这需要必要的模块以及如何在您的系统中设置它们。
用 Python 将 excel 文件中的数据读入熊猫。
探索熊猫 excel 文件中的数据。
使用函数操作和重塑熊猫中的数据。

装置

要在 Anaconda 中安装熊猫，我们可以在 Anaconda 终端中使用以下命令:

conda install pandas

要在普通 Python(非 Anaconda)中安装熊猫，我们可以在命令提示符下使用以下命令:

pip install pandas

入门指南

首先，我们需要导入 pandas 模块，这可以通过运行以下命令来完成:

import pandas as pds

输入文件:假设 excel 文件是这样的

表 1: python-pandas

第 2 页:

python-pandas-read-excel

现在我们可以在 pandas 中使用 read_excel 函数导入 excel 文件，如下图所示:

file =('path_of_excel_file')
newData = pds.read_excel(file)
newData

输出: python-pandas-read-excel

第二条语句从 excel 中读取数据，并将其存储到熊猫数据框中，熊猫数据框由变量newData表示。如果 excel 工作簿中有多张工作表，该命令将导入第一张工作表的数据。要制作包含工作簿中所有工作表的数据框，最简单的方法是分别创建不同的数据框，然后将它们连接起来。read_excel 方法采用参数sheet_name和index_col，在这两个参数中，我们可以指定数据框应该由哪张纸组成，index_col指定标题列。

示例:

sheet1 = pds.read_excel(file, 
                        sheet_name = 0, 
                        index_col = 0)

sheet2 = pds.read_excel(file, 
                        sheet_name = 1, 
                        index_col = 0)

newData = pds.concat([sheet1, sheet2])

第三条语句将两个工作表连接起来。现在要检查整个数据帧，我们可以简单地运行以下命令:

newData

输出: python-pandas-read-excel

要从数据框的顶部和底部查看 5 列，我们可以运行以下命令:

newData.head()
newData.tail()

输出:

python-pandas-read-excel

这个head()和tail()方法也把参数作为要显示的列数的数字。可以使用shape()方法查看数据框中的行数和列数，如下所示:

newData.shape

输出:

python-pandas-read-excel

如果任何列包含数字数据，我们可以使用熊猫中的sort_values()方法对该列进行排序，如下所示:

sorted_column = newData.sort_values(['Height'], ascending = False)

现在，假设我们想要排序列的前 5 个值，我们可以在这里使用head()方法:

sorted_column['Height'].head(5)

输出: python-pandas-read-excel

我们可以通过数据框的任意数字列来实现，如下所示:

newData['Weight'].head()

输出: python-pandas-read-excel

现在，假设我们的数据大部分是数字。我们可以得到平均值、最大值、最小值等统计信息。关于数据框使用describe()方法如下所示:

newData.describe()

输出: python-pandas-read-excel

也可以使用以下命令对所有数值列分别执行此操作:

newData['Weight'].mean()

输出:

python-pandas-read-excel

也可以使用相应的方法计算其他统计信息。和 excel 一样，公式也可以应用，计算列可以如下创建:

newData['calculated_column']= newData[“Height”] + newData[“Weight”]
newData['calculated_column'].head()

输出: python-pandas-read-excel

对数据框中的数据进行操作后，我们可以使用to_excel方法将数据导出回 excel 文件。为此，我们需要指定一个输出 excel 文件来写入转换后的数据，如下所示:

newData.to_excel('Output File.xlsx')

输出: python-pandas-read-excel

我们一直在努力

apachecn/AiLearning