皮尔逊相关系数及代码实现（C语言+MATLAB）

这篇具有很好参考价值的文章主要介绍了皮尔逊相关系数及代码实现（C语言+MATLAB）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

皮尔逊相关系数，常用于度量两个变量X和Y之间的相关性（线性相关）。本文通过介绍其概念定义、数学公式，进而引出其适用场合，并基于MATLAB和C语言对皮尔逊相关系数分别进行了代码实现。

一、皮尔逊相关系数

1. 概念定义

在统计学中，皮尔逊相关系数( Pearson correlation coefficient），又称皮尔逊积矩相关系数（Pearson product-moment correlation coefficient，简称 PPMCC或PCCs），是用于度量两个变量X和Y之间的相关性（线性相关），其值介于-1与1之间。

系数的值为1意味着X和Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且Y随着X的增加而增加；
系数的值为−1意味着所有的数据点都落在直线上，且Y随着X的增加而减少；
系数的值为0意味着两个变量之间没有线性关系。

通常情况下通过以下取值范围判断变量的相关强度：
0.8-1.0 极强相关；
0.6-0.8 强相关；
0.4-0.6 中等程度相关；
0.2-0.4 弱相关；
0.0-0.2 极弱相关或无相关（线性相关）；

2. 数学公式

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商，计算公式如下：
皮尔逊相关系数及代码实现（C语言+MATLAB）
其中， $\overline{X}$ 、 $\overline{Y}$ 为样本平均值；

3. 适用情景

当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：
1）两个变量之间是线性关系，都是连续数据。
2）两个变量的总体是正态分布，或接近正态的单峰分布。
3）两个变量的观测值是成对的，每对观测值之间相互独立。

二、代码实现

1. MATLAB实现

代码如下：

% 该函数用于计算皮尔逊相关系数  
% 输入：X, Y;一维向量(维数相等)
% 输出：coeff 
function coeff = myPearson(X, Y)  

if length(X) ~= length(Y)
   error('两个数值数列的维数不相等');  
   return;  
end  
  
fenzi = sum(X.*Y) - (sum(X)*sum(Y)) / length(X);  
fenmu = sqrt((sum(X.^2) - sum(X)^2 / length(X))*(sum(Y.^2) - sum(Y)^2 / length(X)));  
coeff = fenzi / fenmu;  

end

2. C语言实现

代码如下：

float myPearson(int16_t* X, int16_t* Y, uint16_t len)
{
   uint16_t i;
   float fenzi   = 0;
   float fenmu_X = 0;
   float fenmu_Y = 0;

   float average_X = 0;
   float average_Y = 0;
   
   for (i = 0; i < len; i++)
   {
      average_X += X[i];
      average_Y += Y[i];
   }
   average_X /= len;
   average_Y /= len;
   
   for (i = 0; i < len; i++)
   {
      fenzi   += (*X - average_X)*(*Y - average_Y);
      fenmu_X += (*X - average_X)*(*X - average_X);
      fenmu_Y += (*Y - average_Y)*(*Y - average_Y);
      X++;
      Y++;
   }
   float Pearson = SFAbsData_f32(fenzi/(sqrt(fenmu_X)*sqrt(fenmu_Y)));
   
   return Pearson;
}

总结

1）皮尔逊相关系数，用于度量两个变量X和Y之间的线性相关性，其值介于-1与1之间；
2）通常情况下，将皮尔逊相关系数的绝对值划分为5个范围以判断变量的相关强度；
3）两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商；
4）皮尔逊相关系数有其适用场合，选用时需注意；