熵值法求权重-Toy模板网

这篇具有很好参考价值的文章主要介绍了熵值法求权重。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、熵值法原理分析

（一）选取数据

m个样本，共n个指标， $X_{ij}$ 为为第 $i$ 个样本的第 $j$ 个指标的数值， $i = 1, 2, 3, ... m; j = 1, 2, 3... n .$

（二）数据标准化处理

1、正负相关性处理

各项指标的计量单位以及方向不统一的情况下，需要对对数据进行标准化，为了避免求熵值时对数无意义，可以为每个值加上较小数量级的实数，如0.001

（1）正相关指标

$\frac{X_{ij}- Min(X_{ij})}{Max(X_{ij})-Min(X_{ij})}$

（2）对于负向指标(越小越好的指标)

$\frac{Max(X_{ij})-X_{ij}}{Max(X_{ij})-Min(X_{ij})}$

3、计算第 $j$ 项指标下第 $i$ 个样本占该指标的比重

计算样本权重：
$P_{ij} = \frac{X_{ij}}{\sum_{i=1}^nX_{ij}}$

4、计算第 $j$ 项指标的熵值

计算指标熵值：
$e_j = -\frac{1}{ln(m)}*\sum_{i=1}^m(P_{ij}*ln(P_{ij}))$
，其中m为样本个数。

5、计算第 $j$ 项指标的差异系数

某项指标的信息效用值取决于该指标的信息熵与 1 之间的差值，它的值直接影响权重的大小。信息效用值越大，对评价的重要性就越大，权重也就越大。
$d_j=1-e_j$

6、计算评价指标权重

利用熵值法估算各指标的权重，其本质是利用该指标信息的差异系数来计算，其差异系数越高，对评价的重要性就越大（或称权重越大，对评价结果的贡献就越大）
第j jj项指标的权重：
$w_j=\frac{d_j}{\sum_{j=1}^md_j}$

7、计算各样本综合得分

$z_i=\sum_{j=1}^mw_jx_{ij}$

二、测试案例

1、本案例数据集以2012年全国大学生数学建模A题部分数据为例

样品编号	氨基酸总量	天门冬氨酸	苏氨酸	丝氨酸	谷氨酸	脯氨酸
葡萄样品1	2027.96	101.22	393.42	77.61	266.6	723.88
葡萄样品2	2128.82	64.43	140.62	71.94	39.26	1560.97
葡萄样品3	8397.28	108.07	222.35	173.08	67.54	7472.28
葡萄样品4	2144.68	79.39	133.83	158.74	156.72	1182.23
葡萄样品5	1844	52.28	145.09	164.05	102.43	816.08
葡萄样品6	3434.17	68.01	102.42	75.78	80.6	2932.76
葡萄样品7	2391.16	65.1	267.76	239.2	208.97	1096.28
葡萄样品8	1950.76	72.09	345.87	44.23	176.02	962.01

2、完整代码

import numpy as np
import pandas as pd

## 读取数据
data=pd.read_csv('redputao.csv',encoding='utf-8',index_col=0)
indicator=data.columns.tolist()   ## 指标个数   多少列
project=data.index.tolist()       ## 样本个数   多少行
value=data.values
print(indicator)
print(project)
print(value)



## 定义数据标准化函数。为了避免求熵值时对数无意义，对数据进行平移，对标准化后的数据统一加了常数0.001
def std_data(value,flag):
    for i in range(len(indicator)):
        if flag[i]=='+':
            value[:,i]=(value[:,i]-np.min(value[:,i],axis=0))/(np.max(value[:,i],axis=0)-np.min(value[:,i],axis=0))+0.01
        elif flag[i]=='-':
            value[:,i]=(np.max(value[:,i],axis=0)-value[:,i])/(np.max(value[:,i],axis=0)-np.min(value[:,i],axis=0))+0.01
    return value


# 定义熵值法函数、熵值法计算变量的权重
def cal_weight(indicator, project, value):
    p = np.array([[0.0 for i in range(len(indicator))] for i in range(len(project))])
    # print(p)
    for i in range(len(indicator)):
        p[:, i] = value[:, i] / np.sum(value[:, i], axis=0)

    e = -1 / np.log(len(project)) * sum(p * np.log(p))  # 计算熵值
    g = 1 - e  # 计算一致性程度
    w = g / sum(g)  # 计算权重
    return w

# 表示各项指标为正向指标还是反向指标
flag=["+","+","+","+","+",    "+","+","+","+","+",
      "+","+","+","+","+",    "+","+","+","+","+",
      "+","+","+","+","+",    "+","+","+","+","+",
      "+","+","+","+","+",    "+","+","+","+","+",
      "+","+","+","+","+",    "+","+","+","+","+",
      "+","+","+","+"]

# 调用函数将数据标准化，即为每个数据添加正相关还是负相关标志
std_value=std_data(value, flag)

# 调用函数求权重
w = cal_weight(indicator, project, std_value)
w = pd.DataFrame(w, index=data.columns, columns=['权重'])
print(w)

# 调用函数求得分
score = np.dot(std_value, w).round(4)         # 对应数据与权重相乘得到分数，结果保留四位小数
score = pd.DataFrame(score, index=data.index, columns=['综合得分']).sort_values(by=['综合得分'], ascending=False)
print(score)