在熊猫中使用散布矩阵配对图
检查数据集属性之间的共线性是数据预处理中最重要的步骤之一。理解要素之间相关性的一个好方法是为每对属性创建散点图。熊猫有一个功能散点_矩阵(),为此。散点图矩阵()可用于轻松生成所有数值特征对之间的一组散点图。它为每个数字特征与其他数字特征创建一个图,并为每个数字特征创建一个直方图。
语法:熊猫.标绘.散点_矩阵(帧) 参数: 帧:要标绘的数据帧。
在下面的例子中,我们将在数据集上创建散点图。
该数据集包含价格和加州地区房屋的其他统计数据。
import pandas as pd
# loading the dataset
data = pd.read_csv('housing.csv')
# inspecting the data
data.info()
Output :
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 longitude 20640 non-null float64
1 latitude 20640 non-null float64
2 housing_median_age 20640 non-null float64
3 total_rooms 20640 non-null float64
4 total_bedrooms 20433 non-null float64
5 population 20640 non-null float64
6 households 20640 non-null float64
7 median_income 20640 non-null float64
8 median_house_value 20640 non-null float64
9 ocean_proximity 20640 non-null object
dtypes: float64(9), object(1)
memory usage: 1.6+ MB
创建散点图
让我们选择三个数字列;中值_房价、住房_中值_年龄、中值_收入,用于标绘。注意熊猫地块依赖 Matplotlib,需要先导入。
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
# selecting three numerical features
features = ['median_house_value', 'housing_median_age',
'median_income']
# plotting the scatter matrix
# with the features
scatter_matrix(data[features])
plt.show()
矩阵中的每个散点图都有助于我们理解相应属性对之间的相关性。我们可以看到,收入中位数和房价中位数有很强的相关性。主对角线包含每个属性的直方图。