Python中的相关回归分析

时间:2020-02-23 14:36:12  来源:igfitidea点击:

在本文中,我们将专注于相关回归分析,以找到Python中变量之间的相关性。

什么是相关回归分析?

相关回归分析是用于数据集建模的数据预处理过程中的重要步骤。
对于任何数据集,描绘变量之间的关系并了解变量对数据整体预测以及目标/响应变量的影响非常重要。

这是相关回归分析出现的时候。

关联分析可帮助我们分析以下方面的数据

  • 自变量之间的关系,即它们所描述的信息及其相关性。

  • 自变量对因变量的影响。

对于任何开发人员而言,了解独立变量之间的关系都至关重要。

相关范围从0到1。
两个变量之间的高度相关性说明两个变量代表相同的信息。

因此,它引起多重共线性,我们可以删除这些变量中的任何一个。

了解了相关性的概念之后,现在让我们尝试在接下来的部分中实际实现它。

查找变量之间的相关性

让我们首先开始导入数据集。
您可以在此处找到数据集。
我们已使用read_csv()函数将数据集加载到环境中。

此外,我们分离了数据集的所有数字变量并将其存储。
因为,相关仅适用于数字数据。
我们应用了corr()函数通过相关矩阵来描述变量之间的相关性。

import pandas
data = pandas.read_csv("Bank_loan.csv")
#Using Correlation analysis to depict the relationship between the numeric/continuous data variables
numeric_col = ['age',employ','address','income','debtinc','creddebt','othdebt']
corr = data.loc[:,numeric_col].corr()
print(corr)

我们可以使用seaborn.heatmap()函数可视化范围为0到1的相关数据,如下所示

sn.heatmap(corr, annot=True)