从三明治聊聊数据分析中的综合评价模型
上周做的早餐三明治, 特地买了全网最红的早餐机, 准备了材料: 香肠, 鸡蛋, 黄瓜, 鸡胸肉(发现鸡胸肉加玉米生粉以后会再去煎会异常的香), 按照步骤, 煎鸡蛋, 煎香肠, 煎鸡胸肉, 然后上吐司(牛奶口味滴, 异常香甜), 剪了完整的一个视频, 真的很费时间, 在此鸣谢手机和某剪辑软件hhhh, 煎好的时候, 从来没有想过可以这么好吃。
但是因为去评价这个三明治是否是色香味俱全滴, 不能自吹自擂是吧, 我就在想能不能把互联网的一些评价的方法运用起来, 去科学的评价这个三明治做的怎么样。
直观来说, 这个三明治做的怎么样, 是一个综合的评价问题, 因为你得从他做出来的形状颜色好看不好看是吧(卖相), 除了好看不好看, 你还得看他是否好吃是吧(味道), 从了好看, 好吃, 还得看这个三明治的 营养价值, 比如热量不能太高是吧, 脂肪不能太高是吧, 蛋白质又得尽量高一点, 还得包含维生素等等全面的营养价值
所以我们的问题就变成了 从卖相, 味道, 热量, 脂肪, 蛋白质, 维生素等去评价这个三明治是否是色香味俱全的全网最秀的三明治hhhhh, 但是我们不知道这几个评价的因素哪一个更重要一点, 哪一个稍微没那么重要一点, 所以我们得计算每一个因素的权重, 然后计算一个综合的得分, 整体的分析思路如下
权重的计算主要采用熵权法来计算。
二、熵权法基本原理
在信息论中,熵是对不确定性的一种度量。不确定性越大,熵就越大,包含的信息量越大;不确定性越小,熵就越小,包含的信息量就越小。
根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大。比如样本数据在某指标下取值都相等,则该指标对总体评价的影响为0,权值为0.
熵权法是一种客观赋权法,因为它仅依赖于数据本身的离散性, 所以我们可以用熵权法来计算三明治各个评价因素的权重, 然后再计算总得分
三、熵权法步骤
我们假如有一个虚拟的数据如下: 表格中的数字是评分
1. 指标定义:
对 n 个样本, m 个指标,则 Xij 为第 i 个样本的第 j 个指标的数值( i=1;·····;n ; j=1;····; m); 比如这里 x13 表示第一个样本的第三个指标的数据也就是 三明治1 的脂肪数据 也就是8
2. 指标的归一化处理:异质指标同质化
由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要进行标准化处理,即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题。
另外,正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好),因此,对于正向负向指标需要采用不同的算法进行数据标准化处理:
为了方便起见,归一化后的数据X`ij仍记为 Xij ;
3. 计算第 j 项指标下第 i 个样本值占该指标的比重:
拿第三个指标下第一个样本举例: 第三个指标是脂肪第一个样本的值是8, 这就是分子, 分母是第三个指标所在的列求和就是(8+3+5+2+2),
那这个值就是8/20 = 0.4
4. 计算第 j 项指标的熵值:
这里的n 就是样本数 5
5. 计算信息熵冗余度(差异):
6. 计算各项指标的权重:
7. 计算各样本的综合得分:
假如计算出来的权重 分别是 0.5, 0.3, 0.2, 0.3, 0.4
综合得分就变成 三明治1 = 0.5 * 3+ 0.3*6 + 0.2*8 + 0.3*7 + 0.4*2