YouTube留言分析看美国大选
作 者
赵一横 雷诺兹新闻研究院 研究助理
李金璞 统计学专家
王逸清 机器学习工程师
李昨非 密苏里大学新闻学院 研究生
编者按
美国大选即将开票,选情依然扑朔迷离,多位在美国的学者跨学科合作研究,通过数据分析容易被国内忽视的美国社交媒体上的选情,并投稿给中国研究院微信公众号,特此刊发,以供参考。
红色为偏向特朗普的频道,蓝色为偏向拜登的频道,紫色为较两边支持者差不多的频道,灰色为平均观看人数不足一千的频道。
参考文献
注1:2020年第三季度,美国各年龄段网络用户,使用YouTube的比例。
注2:皮尤研究所2019年调研:YouTube用户城乡分布
注3:纽约时报:YouTube成为新极右派的广播中心
For the New Far Right, YouTube Has Become the New Talk Radio(Herrman, 2017)
附录:数据分析方法和分析过程
一.数据集
数据包含27个YouTube频道中,114549 名用户的550217 条实时聊天板发言信息。在研究过程中,所有用户均使用匿名化(De-identified)处理,隐去用户id。仅统计文本信息(text messages),不统计表情符号、图像等发言信息。
二.数据处理
1.大小写
所有文本信息转换为小写
2.标记(Tokenization)
将发言信息分组为信息元组:单词、数字等。使用R数据包 “tidytext” 去除英语非表意连接词,如 the、a等。
3.整合(Arrgegations)
(1)为修正拼写错误,所有起始字符为“trump”或“donald”的,分别记为 “trump”或“donald”。同样,所有起始字符“joe”或“biden”的记为“joe”或“biden”。
(2)“donald”和“joe”替换为“trump”和“biden”,以避免重复计数。
4.情感分析(Sentiment Analysis)
本研究使用情感分析法研究对候选人的负面情绪词。使用R数据包“tidytext”中的“bing”数据库作为负面词字典。此外,高频词中一些明显负向的词、或网络流行的候选人相关负向词也添加进了负面词典。
5.分组(Group Settings)
本次研究的目的是分辨出数据集中的用户,分别支持两位候选人的人数。因此我们将所有用户分为四组:
第一组:支持特朗普
第二组:支持拜登
第三组:反对特朗普
第四组:反对拜登
用户发表了对候选人的负面评价,将被标记为第三、四组:“反对特朗普”和“反对拜登”。用户发表了对候选人的非负面评价,将被标记为第一、二组:“支持特朗普”,“支持拜登”
6.数据校准(Corrections)
考虑到一些无法预计的错误,例如:拼写错误、无法辨识的网络流行词,我们使用随机抽样数据来校准可能产生的偏差。我们在完成分组的四组研究用户中,各随即抽选了50个名用户,审阅其发言并确认其分组是否正确。分组错误率最终计入最后的统计数据用来校准每组最后的人数。
7.最终支持者数据:
特朗普支持者=第一组+第四组;拜登支持者=第二组+第三组。