从三明治聊聊数据分析中的综合评价模型

一、写在前面

    上周做的早餐三明治, 特地买了全网最红的早餐机, 准备了材料: 香肠, 鸡蛋, 黄瓜, 鸡胸肉(发现鸡胸肉加玉米生粉以后会再去煎会异常的香), 按照步骤, 煎鸡蛋, 煎香肠, 煎鸡胸肉, 然后上吐司(牛奶口味滴, 异常香甜), 剪了完整的一个视频, 真的很费时间, 在此鸣谢手机和某剪辑软件hhhh, 煎好的时候, 从来没有想过可以这么好吃从三明治聊聊数据分析中的综合评价模型

    但是因为去评价这个三明治是否是色香味俱全滴, 不能自吹自擂是吧, 我就在想能不能把互联网的一些评价的方法运用起来, 去科学的评价这个三明治做的怎么样。

   直观来说, 这个三明治做的怎么样, 是一个综合的评价问题, 因为你得从他做出来的形状颜色好看不好看是吧(卖相), 除了好看不好看, 你还得看他是否好吃是吧(味道), 从了好看, 好吃, 还得看这个三明治的 营养价值, 比如热量不能太高是吧, 脂肪不能太高是吧, 蛋白质又得尽量高一点, 还得包含维生素等等全面的营养价值

   所以我们的问题就变成了 从卖相, 味道, 热量, 脂肪, 蛋白质, 维生素等去评价这个三明治是否是色香味俱全的全网最秀的三明治hhhhh从三明治聊聊数据分析中的综合评价模型, 但是我们不知道这几个评价的因素哪一个更重要一点, 哪一个稍微没那么重要一点, 所以我们得计算每一个因素的权重, 然后计算一个综合的得分, 整体的分析思路如下

从三明治聊聊数据分析中的综合评价模型

    权重的计算主要采用熵权法来计算。

二、熵权法基本原理

    在信息论中,熵是对不确定性的一种度量。不确定性越大,熵就越大,包含的信息量越大;不确定性越小,熵就越小,包含的信息量就越小。

    根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大。比如样本数据在某指标下取值都相等,则该指标对总体评价的影响为0,权值为0.

    熵权法是一种客观赋权法,因为它仅依赖于数据本身的离散性, 所以我们可以用熵权法来计算三明治各个评价因素的权重, 然后再计算总得分

三、熵权法步骤

  我们假如有一个虚拟的数据如下: 表格中的数字是评分

从三明治聊聊数据分析中的综合评价模型

1. 指标定义:

对 n 个样本, m 个指标,则 Xij 为第 i 个样本的第 j 个指标的数值( i=1;·····;n ; j=1;····; m); 比如这里 x13 表示第一个样本的第三个指标的数据也就是 三明治1 的脂肪数据 也就是8

2. 指标的归一化处理:异质指标同质化

由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要进行标准化处理,即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题。

另外,正向指标和负向指标数值代表的含义不同(正向指标数值越高越好,负向指标数值越低越好),因此,对于正向负向指标需要采用不同的算法进行数据标准化处理:

从三明治聊聊数据分析中的综合评价模型

 

为了方便起见,归一化后的数据X`ij仍记为 Xij ;

3. 计算第 j 项指标下第 i 个样本值占该指标的比重:

拿第三个指标下第一个样本举例: 第三个指标是脂肪第一个样本的值是8, 这就是分子, 分母是第三个指标所在的列求和就是(8+3+5+2+2),

那这个值就是8/20 = 0.4

4. 计算第 j 项指标的熵值:

这里的n 就是样本数 5

5. 计算信息熵冗余度(差异):

6. 计算各项指标的权重:

7. 计算各样本的综合得分:

假如计算出来的权重 分别是 0.5, 0.3, 0.2, 0.3, 0.4

综合得分就变成 三明治1 = 0.5 * 3+ 0.3*6 + 0.2*8 + 0.3*7 + 0.4*2 

从三明治聊聊数据分析中的综合评价模型

阅读剩余
THE END