这里参考了论坛里一位同学分享的博客:猫眼电影TOP100爬取练习,感谢分享。
学习要从模仿开始,学习了上面的博客之后,自己做下练习,正好最近看了selenium,就用了这个。
原作者的正则用的太溜了,等后面有时间再研究下,这里就简单的使用CSS Selector来实现了。
原文代码很精彩,我这个代码就粗糙很多了,先来个初始版,后面再慢慢优化。
大体思路和Python基础(7)- Selenium使用 里面的豆瓣读书例子差不多,
代码(2017-08-09版)
这里就简单记录遇到的一些问题和后面需要优化的地方:
- 获取影片信息的时候,数据没有清洗好,像这个“主演”,“上映时间”还没有剔除掉;那个地点也可以拆分出来单独一个字段
csv编码问题,一开始默认使用gbk(在Windows下开发的),会报错,说是有异常的字符无法保存,改为UTF-8后,就可以了,但是使用CSV打开前,先用notepad++转了编码,才用CSV打开
使用正则去获取元素
4.异常问题的处理