跳转至

熊猫数据框中的串珠

原文:https://www.geesforgeks.org/string-munging-in-pandas-data frame/

在这篇文章中,我们将学习熊猫数据框中的字符串蒙宁。芒格被认为是通过改造来清理任何乱七八糟的东西。用技术术语来说,我们可以说将数据库中的数据转换成一种有用的形式。

例:“无人@example.com”,变成“在 example.com 无人”

进场:

第一步:导入库

蟒蛇 3

import pandas as pd
import numpy as np
import re as re

步骤 2:创建数据框

现在创建一个字典并通过 pd。创建数据框。

蟒蛇 3

raw_data = {"first_name": ["Jason", "Molly", "Tina", "Jake", "Amy"],
            "last_name": ["Miller", "Jacobson", "Ali", "Milner", "Cooze"],
            "email": ["jas203@gmail.com", "momomolly@gmail.com", np.NAN,
                      "battler@milner.com", "Ames1234@yahoo.com"]}

df = pd.DataFrame(raw_data, columns=["first_name", "last_name", "email"])
print()
print(df)

第三步:应用不同的定位操作

首先,在功能“电子邮件”中检查哪个字符串包含“Gmail”。

蟒蛇 3

print(df["email"].str.contains("gmail"))

现在我们想把电子邮件分成几部分,这样“@”前面的字符就变成了一个字符串,后面的和前面的。成为一体。最后,剩下的成为一个字符串。

蟒蛇 3

pattern = "([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"
print(df["email"].str.findall(pattern, flags=re.IGNORECASE))

下面是实现:

蟒蛇 3

def ProjectPro_Ex_136():

    print()
    print('**How we can do string munging in Pandas**')

    # loading libraries
    import pandas as pd
    import numpy as np
    import re as re

    # Creating dataframe
    raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
                'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'],
                'email': ['jas203@gmail.com', 'momomolly@gmail.com', np.NAN,
                          'battler@milner.com', 'Ames1234@yahoo.com']}

    df = pd.DataFrame(raw_data, columns=['first_name', 'last_name', 'email'])
    print()
    print(df)

    # Let us find Which string within the 
    # email column contains ‘gmail’
    print()
    print(df['email'].str.contains('gmail'))

    # Create a daily expression pattern that
    # breaks apart emails
    pattern = '([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

    # Find everything in df.email that contains
    # that pattern
    print()
    print(df['email'].str.findall(pattern, flags=re.IGNORECASE))

ProjectPro_Ex_136()

输出:



回到顶部