如何将熊猫转换为 PySpark 数据帧？

原文:https://www.geesforgeks.org/如何将熊猫转换为 pyspark-dataframe/

在本文中，我们将学习如何将熊猫转换为 PySpark 数据帧。有时我们会得到 csv、xlsx 等。格式化数据，我们必须将其存储在 PySpark 数据帧中，这可以通过将数据加载到 Pandas 中，然后转换为 PySpark 数据帧来完成。为了进行转换，我们将熊猫数据帧传递给 CreateDataFrame()方法。

语法: spark.createDataframe(数据，架构)

参数:

Data–Create a list of values for the data frame.

Schema-a list of data set structures or column names.

这里的火花就是 SparkSession 对象。

示例 1:创建一个数据帧，然后使用 spark.createDataFrame()方法进行转换

python 3

# import the pandas
import pandas as pd

# from  pyspark library import 
# SparkSession
from pyspark.sql import SparkSession

# Building the SparkSession and name
# it :'pandas to spark'
spark = SparkSession.builder.appName(
  "pandas to spark").getOrCreate()

# Create the DataFrame with the help 
# of pd.DataFrame()
data = pd.DataFrame({'State': ['Alaska', 'California',
                               'Florida', 'Washington'],

                     'city': ["Anchorage", "Los Angeles", 
                              "Miami", "Bellevue"]})

# create DataFrame
df_spark = spark.createDataFrame(data)

df_spark.show()

我们一直在努力

apachecn/AiLearning