用Python爬取爱奇艺视频弹幕

2020-10-26

爱奇艺弹幕

1.网页分析

本文以爬取《乐队的夏天第2季》第13期上视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

用Python爬取爱奇艺视频弹幕

分析弹幕真实url，我们发现，参数5981449914376200是视频tvid，参数62是tvid倒数4为的前两位，参数00是tvid的最后两位，.z前的参数1为视频总时长除以300秒向上取整。观察相邻两个弹幕文件包，可以看出爱奇艺每5分钟更新一次弹幕文件。

用Python爬取爱奇艺视频弹幕

由于直接爬取出来的弹幕文件存在乱码，需要进行二进制编码，方可得到最终的弹幕数据。

2.爬虫实战

import zlib
import requests# 1.爬取xml文件
def download_xml(url):
bulletold = requests.get(url).content  # 二进制内容
return zipdecode(bulletold)
def zipdecode(bulletold):
‘对zip压缩的二进制内容解码成文本’
decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode(‘utf-8’)
return decode

for x in range(1,12):
# x是从1到12，12怎么来的，这一集总共57分钟，爱奇艺每5分钟会加载新的弹幕,57除以5向上取整
url = ‘https://cmts.iqiyi.com/bullet/62/00/5981449914376200_300_’ + str(x) + ‘.z’
xml = download_xml(url)
# 把编码好的文件分别写入17个xml文件中（类似于txt文件），方便后边取数据
with open(‘./aiqiyi/iqiyi’ + str(x) + ‘.xml’, ‘a+’, encoding=‘utf-8’) as f:
f.write(xml)

# 2.读取xml文件中的弹幕数据数据
from xml.dom.minidom import parse
import xml.dom.minidom
def xml_parse(file_name):
DOMTree = xml.dom.minidom.parse(file_name)
collection = DOMTree.documentElement
# 在集合中获取所有entry数据
entrys = collection.getElementsByTagName(“entry”)
print(entrys)
result = []
for entry in entrys:
content = entry.getElementsByTagName(‘content’)[0]
print(content.childNodes[0].data)
i = content.childNodes[0].data
result.append(i)
return result

with open(“aiyiqi_danmu.txt”, mode=“w”, encoding=“utf-8”) as f:
for x in range(1,12):
l = xml_parse(“./aiqiyi/iqiyi” + str(x) + “.xml”)
for line in l:
f.write(line)
f.write(“n”

3.数据预览

用Python爬取爱奇艺视频弹幕

-----------------

长按识别下方二维码，并关注公众号

用Python爬取爱奇艺视频弹幕

阅读剩余

THE END

八个常用的数据分析方法论

数据分析的 5 种归纳方法

thumbnail

[干货]利用Python给文章自动化配图

配图，一直是个人站长的痛点，一个是图片版权问题，另一个就是图片的相关度问题。但是作为一个有前途的seo，不应该被配图所难倒。所以今天在这里给大家分享……

2021-10-30 流光啸月

0 0

thumbnail

外贸网站运营必备技能（一）：Python实现英文文案批量伪原创

伪原创，对于大多数展示型的外贸网站而言，意义并不是很大。网站的内容相对比较简单，也不需要大量的发布产品；有限的产品文案，很多公司的外贸业务员也能够……

2021-10-26 流光啸月

0 0

thumbnail

[技能升级]如何对你的网站进行访问压测

为什么要进行压力测试？对于个人站长而言，可能这方面的需求并不大，或者说很多的个人站长都不知道有这么个玩意。在中大型互联网公司，不管是做网站还是A……

2021-06-17 流光啸月

0 0

thumbnail

【自动登录】Python如何实现网站自动登录案例实战

本文为自动登录系列教程的第一篇入门篇，主要讲解一下如何用Python实现简单的自动登录网站。本次案例以zblog为例，主要模拟通过用户和密码实现登录。环境……

2021-06-17 流光啸月

0 0

thumbnail

如何建立业务数据分析指标体系？

你好，我是林骥。有位叫石墨锡的读者，在知识星球提问：如何建立业务数据分析指标体系？我觉得这是一个很好的问题，下面是我的回答，其中有些思想来源于……

2020-11-30 流光啸月

0 0

thumbnail

用Python预测2020年双十一交易额

你好，我是林骥。去年双十一的时候，我曾利用算法预测过阿里巴巴 2019 年双十一交易额，并做了复盘总结（本文结尾处有当时预测和复盘的文章链接）。今年的……

2020-11-10 流光啸月

0 0

thumbnail

用Python自动生成Excel报表

你好，我是林骥。在日常工作中，可能会有一些重复无聊的任务，比如说，从 Excel 或数据库中收集一些数据，设置相应的数据格式并做成报表。类似这种重复无……

2020-11-06 流光啸月

0 0

thumbnail

数据分析的 5 项演绎原则

你好，我是林骥。鲁迅曾经在《论辩的魂灵》中，写过这么一段话：你说甲生疮。甲是中国人，你就是说中国人生疮了。既然中国人生疮，你是中国人，就是你……

2020-11-03 流光啸月

0 0

thumbnail

逆向思维的 5 种方法

你好，我是林骥。逆向思维，是指打破正常的思维习惯，从事物的反面去思考解决问题的方法。我觉得作为数据分析师，更加需要训练和提升逆向思维的能力，从而……

2020-11-02 流光啸月

0 0

thumbnail

YouTube留言分析看美国大选

作者赵一横雷诺兹新闻研究院研究助理李金璞统计学专家王逸清机器学习工程师李昨非密苏里大学新闻学院研究生编者按 ……

2020-11-02 流光啸月

0 0