下午看了社区里的一篇文章《Python 爬虫实践:《战狼2》豆瓣影评分析》,感谢分享。
最近也是在学习爬虫,周末刚好看了词云图,这里就自己也来实现下。
周末的词云图介绍《word_cloud-用Python之作个性化词云图》
豆瓣影评页面分析
我们到豆瓣电影模块,选择《战狼2》,找到下面的短评
页面地址:https://movie.douban.com/subject/26363254/comments?status=P
通过FireBug,观察页面,可以发现,评论信息还是很好拿的
然后,我们看看下一页数据是怎么获取的
这里是直接用参数传的,多点几次观察,就会发现规律
这里有个小疑问,他这个参数start,短评每页20条没有问题,但是这个start,并不是0,20,40开始的,会跳跃,不知道为啥,
而且,这个limit貌似是假的,我改成100都没用,还是显示20条
而且,不登录的话,并不能看完所有的短评,后面会报错,说没有权限。
生成词云图
这里的方法还是和周末的那一篇类似,这里多了一个stopwords的概念,就是剔除了一些没有用的词语,貌似网上可以找到通用的一些,我这里
直接根据测试,手动剔除的。
原文是自己使用pandas统计的词频,我这里直接就传给Wordcloud了,后面再试试
实例代码
刚刚看了下导出的评论文件,发现有重复数据,一定是哪里有问题
刚试了下,这个影评的返回结果有毒啊
|
|