蟒蛇–熊猫的竹子库
原文:https://www.geeksforgeeks.org/python-bamboolib-for-pandas/
如果你是一个数据科学爱好者或数据科学家,你知道熊猫是一个不可或缺的库,允许你执行数据争论,在那里你可以读取你的数据,预处理你的数据,处理丢失的数据等。在建立机器学习模型之前。
熊猫确实让很多工作变得非常容易,并且非常强大,但是使用和掌握它是一个巨大的挑战。为了解决这个问题,让熊猫的使用更加方便,我们有一个 python 库,叫做bambo lib 库。
Bubberlib:这是熊猫数据框的图形用户界面扩展,便于数据探索和转换,使任何人都可以在 Jupyter 笔记本或 JupyterLab 中使用 Python。
让我们看看这个库的一些功能以及如何使用它们。
注:bambo lib 仅在 Kaggle 和 Binder 上免费提供,用于开放数据。你也可以在电脑上使用付费版本。
安装 Bamboolib 库: 开始之前我们需要先安装库。按照以下步骤正确安装库。
#install bamboolib on linux or anaconda prompt
pip install bamboolib
- 如果你想在 Kaggle 或 Binder 上使用库,你可以在这一步停止,否则继续-
安装完成后,运行以下命令:
jupyter nbextension enable --py qgrid --sys-prefix
jupyter nbextension enable --py widgetsnbextension --sys-prefix
jupyter nbextension install --py bamboolib --sys-prefix
jupyter nbextension enable --py bamboolib --sys-prefix
如果你想在 Jupyter 笔记本上使用这个,那么你可以在这里停止,但是如果你也想在 JupyterLab 上使用这个,你可以继续按照步骤完成安装。
确保安装了node.js
和npm
。
#install nodejs on anaconda prompt
conda install -c conda-forge nodejs
#install npm on anaconda prompt
pip install npm
Next run these commands:
jupyter labextension install @jupyter-widgets/jupyterlab-manager --no-build
jupyter labextension install @8080labs/qgrid --no-build
jupyter labextension install plotlywidget --no-build
jupyter labextension install jupyterlab-plotly --no-build
jupyter labextension install bamboolib --no-build
jupyter lab build --minimize=False
现在安装完成了。
如何使用 bambo lib: 要了解如何使用这个库,我们将使用 Binder。为此浏览至 github。您也可以按照上面提到的步骤制作自己的活页夹笔记本,或者像我们在这里所做的那样使用已经可用的笔记本。 在你的笔记本打开后运行下面的代码来可视化数据: 现在你可以使用 Show bamboolib UI 按钮来执行各种功能。
您主要可以看到 3 个选项:
- 探索数据框
- 创建绘图
- 搜索转换
1)探索数据框: 您有 4 个选项可用,即:
- 惊鸿一瞥:在这里,您可以获得数据集中各列的信息。您可以知道列的数据类型、唯一值的数量、一列中“n”行中缺少的值,这里 n=891。 T3】
- 列:提供每一列的信息。特定列的概览、类别概览–特定值在该列中出现的次数。 这也提供了两列之间的二元图,以获得关于数据集的更多信息。
- 预测模式:你可以通过点击热图的任意一个单元格来预测数据集的模式,从而得到各列之间的关系。 T3】
- 相关矩阵:可以得到任意一列之间的相关矩阵。 T3】
2)创建图: 您可以创建任何图,如条形图、直方图、散点图等。并且可以添加不同的属性。熊猫开发剧情的代码也是可用的,你也可以复制粘贴得到同样的输出。
3)搜索变换: 可以对数据集进行各种变换。少数几个是:
删除列:因为在使用的数据集中,我们可以看到 Cabin 有大量的缺失值,所以我们可以从数据集中删除/删除该列。选择选择或删除列选项,填充字段,然后按执行。 您会自动获得 pandas 代码,并为您执行的转换执行该代码。新的数据帧显示为输出。 过滤器:使用此选项,您可以创建数据子集,以应用特定条件对其进行分析。这是在数据中获得有意义见解的最常用的技术。在这里,我们过滤了“年龄”列上的数据集,以访问年龄为> 25 的记录。 新数据帧显示为输出。
排序:您可以使用此转换对列上的数据集进行排序。也可以同时对多列进行排序。这里,我们已经按照升序对“名称”列中的数据进行了排序。 注:
- 要撤销或重做对数据帧执行的任何转换,您可以单击历史按钮。
- 要获取上一次转换的代码,请转到导出。如果选中了实时代码导出,那么您将自动获得代码。
bambo lib 提供了许多其他转换选项,如分组和聚合、重命名列、替换值、更改列数据类型等。
使用 Bamboolib 的好处: Bamboolib 是一个非常方便易用的工具。庞大数据框架的转换可以在短时间内完成。这对于组织来说是很棒的,因为几乎没有编程知识的员工也可以使用这个工具,而无需费力或查找语法来完成任务,并且可以在之后获得操作或转换的语法。这对程序员来说也很有帮助,因为他们可以处理数据并研究用户特定问题的语法,而不是查找不同的情况并试图提取所需的结果。
既然你已经学会了这个神奇的动手工具,那就自己试一试,探索一下你的数据所能提供的隐藏信息。如有任何疑问,请在下面留言。