Python中的相关回归分析
时间:2020-02-23 14:36:12 来源:igfitidea点击:
在本文中,我们将专注于相关回归分析,以找到Python中变量之间的相关性。
什么是相关回归分析?
相关回归分析是用于数据集建模的数据预处理过程中的重要步骤。
对于任何数据集,描绘变量之间的关系并了解变量对数据整体预测以及目标/响应变量的影响非常重要。
这是相关回归分析出现的时候。
关联分析可帮助我们分析以下方面的数据
自变量之间的关系,即它们所描述的信息及其相关性。
自变量对因变量的影响。
对于任何开发人员而言,了解独立变量之间的关系都至关重要。
相关范围从0到1。
两个变量之间的高度相关性说明两个变量代表相同的信息。
因此,它引起多重共线性,我们可以删除这些变量中的任何一个。
了解了相关性的概念之后,现在让我们尝试在接下来的部分中实际实现它。
查找变量之间的相关性
让我们首先开始导入数据集。
您可以在此处找到数据集。
我们已使用read_csv()函数将数据集加载到环境中。
此外,我们分离了数据集的所有数字变量并将其存储。
因为,相关仅适用于数字数据。
我们应用了corr()函数通过相关矩阵来描述变量之间的相关性。
import pandas data = pandas.read_csv("Bank_loan.csv") #Using Correlation analysis to depict the relationship between the numeric/continuous data variables numeric_col = ['age',employ','address','income','debtinc','creddebt','othdebt'] corr = data.loc[:,numeric_col].corr() print(corr)
我们可以使用seaborn.heatmap()函数可视化范围为0到1的相关数据,如下所示
sn.heatmap(corr, annot=True)