华为 VS iphone之争谁是赢家？Python带你来分析

流光啸月

2020-10-26

学点编程

如今，关于iPhone12和华为mate40哪个好的争论不断，新浪科技发布一条关于“iPhone12和华为Mate40你选谁？”的投票，结果如下：

通过上图可以看出，选华为的占56%，选苹果的占23.74%，还有11%的人都不选、4%的人看到实物再选、5%的人都想要

为了进一步挖掘数据，我爬了该条微博的评论数据，并制作词云图，看看大家都在说什么

具体步骤如下：

1.分析微博评论数据接口

在微博移动端打开该条微博（因为移动端数据相对好爬），抓包获取数据接口：

华为 VS iphone之争谁是赢家？Python带你来分析

返回的数据接口为json格式

再来看看url规律，第1、2、3页评论数据的url分别为：

1.https://m.weibo.cn/comments/hotflow?id=4559868490418275&mid=4559868490418275&max_id_type=02.https://m.weibo.cn/comments/hotflow?id=4559868490418275&mid=4559868490418275&max_id=140496174237721&max_id_type=03.https://m.weibo.cn/comments/hotflow?id=4559868490418275&mid=4559868490418275&max_id=139259223284570&max_id_type=0

我们可以发现，除了第一页格式唯一，其他的都相对固定，且id和mid的参数值固定，变化的为max_id参数

经过分析，当页的max_id参数在上一页的返回数据中，例如，第二页的max_id在第一页的返回数据中：

华为 VS iphone之争谁是赢家？Python带你来分析

2.写爬虫代码

这里要注意一点，爬虫中药加入登录后的cookie值，否则只能返回第一页数据，具体代码如下：

import requests
import json
import re
import pandas as pd
url='https://m.weibo.cn/comments/hotflow?id=4559868490418275&mid=4559868490418275&max_id_type=0'
headers={'User-Agent':'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'}
cookie={'Cookie':'换成自己的cookie'}
comments=[]
for i in range(50):
    response=requests.get(url,headers=headers,cookies=cookie)
    results=json.loads(response.text)
    max_id=results['data']['max_id']
    datas=results['data']['data']
    patter=re.compile(r'(.*?)<',re.S)
    for data in datas:
        if '<' in data['text']:
            text=re.findall(patter,data['text'])[0]
        else:
            text=data['text']
        comments.append(text)
    url='https://m.weibo.cn/comments/hotflow?id=4559868490418275&mid=4559868490418275&max_id={0}&max_id_type=0'.format(max_id)

结果如下：

华为 VS iphone之争谁是赢家？Python带你来分析

3.将评论数据连成字符

content=''.join(comments)

4.使用jieba分词，去除单个字符和换行符

segment = []
segs = jieba.cut(content)   # 使用jieba分词
for seg in segs:
    if len(seg) > 1 and seg != 'rn':
        segment.append(seg)

5.对文本去躁

words_df = pd.DataFrame({'segment': segment})
words_df.head()
stopwords = pd.read_csv("stopword.txt", index_col=False,
                            quoting=3, sep='t', names=['stopword'], encoding="utf8")
words_df = words_df[~words_df.segment.isin(stopwords.stopword)]

这一步主要是把没用的词语和词语去除掉，‘stop.txt’获取方式在文末

6.对剩下的词语按组计算个数，并按个数大小进行排序

words_stat = words_df.groupby('segment').agg(count=pd.NamedAgg(column='segment', aggfunc='size'))
words_stat = words_stat.reset_index().sort_values(by="count", ascending=False)

7.自定义词云背景，设置字体样式

bimg = imread('mangguo.jpg')
wordcloud = WordCloud(background_color="white", mask=bimg, font_path='AdobeHeitiStd-Regular.otf')
wordcloud = wordcloud.fit_words(dict(words_stat.head(990000).itertuples(index=False)))

这一步若出错，请把font换成电脑中已有的字体

8.从背景图片生成颜色值

bimgColors = ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors))

9.生成词云图

wordcloud.to_file("iphoneVShuawei.png")

10.成果图

华为 VS iphone之争谁是赢家？Python带你来分析

从词云图中可以看出，大家还是比较支持华为的，同时还有不少人表示都太贵、买不起。

-----------------

长按识别下方二维码，并关注公众号

阅读剩余

THE END

我抓取了seowhy 50000条问答，发现seo都在关注这些问题

<<上一篇

八个常用的数据分析方法论

下一篇>>

[干货]利用Python给文章自动化配图

配图，一直是个人站长的痛点，一个是图片版权问题，另一个就是图片的相关度问题。但是作为一个有前途的seo，不应该被配图所难倒。所以今天在这里给大家分享……

2021-10-30 流光啸月

0 0

外贸网站运营必备技能（一）：Python实现英文文案批量伪原创

伪原创，对于大多数展示型的外贸网站而言，意义并不是很大。网站的内容相对比较简单，也不需要大量的发布产品；有限的产品文案，很多公司的外贸业务员也能够……

2021-10-26 流光啸月

0 0

[技能升级]如何对你的网站进行访问压测

为什么要进行压力测试？对于个人站长而言，可能这方面的需求并不大，或者说很多的个人站长都不知道有这么个玩意。在中大型互联网公司，不管是做网站还是A……

2021-06-17 流光啸月

0 0

【自动登录】Python如何实现网站自动登录案例实战

本文为自动登录系列教程的第一篇入门篇，主要讲解一下如何用Python实现简单的自动登录网站。本次案例以zblog为例，主要模拟通过用户和密码实现登录。环境……

2021-06-17 流光啸月

0 0

如何建立业务数据分析指标体系？

你好，我是林骥。有位叫石墨锡的读者，在知识星球提问：如何建立业务数据分析指标体系？我觉得这是一个很好的问题，下面是我的回答，其中有些思想来源于……

2020-11-30 流光啸月

0 0

用Python预测2020年双十一交易额

你好，我是林骥。去年双十一的时候，我曾利用算法预测过阿里巴巴 2019 年双十一交易额，并做了复盘总结（本文结尾处有当时预测和复盘的文章链接）。今年的……

2020-11-10 流光啸月

0 0

用Python自动生成Excel报表

你好，我是林骥。在日常工作中，可能会有一些重复无聊的任务，比如说，从 Excel 或数据库中收集一些数据，设置相应的数据格式并做成报表。类似这种重复无……

2020-11-06 流光啸月

0 0

数据分析的 5 项演绎原则

你好，我是林骥。鲁迅曾经在《论辩的魂灵》中，写过这么一段话：你说甲生疮。甲是中国人，你就是说中国人生疮了。既然中国人生疮，你是中国人，就是你……

2020-11-03 流光啸月

0 0

逆向思维的 5 种方法

你好，我是林骥。逆向思维，是指打破正常的思维习惯，从事物的反面去思考解决问题的方法。我觉得作为数据分析师，更加需要训练和提升逆向思维的能力，从而……

2020-11-02 流光啸月

0 0

YouTube留言分析看美国大选

作者赵一横雷诺兹新闻研究院研究助理李金璞统计学专家王逸清机器学习工程师李昨非密苏里大学新闻学院研究生编者按 ……

2020-11-02 流光啸月

0 0