基于Python网络爬虫的小说网站数据分

白癜风在哪家医院治疗最好 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/

目录

一、设计目的

二、设计任务完成

三、网络爬虫程序步骤

四、爬虫详细设计

4.1设计环境和目标分析

4.2代码流程详细分析

4.3完整代码

五、效果截图

六、总结

七、参考文献

一、设计目的

1.巩固和加深我们对python知识,以及对爬虫技术进一步加深认识。

2.提高我们编程的能力以及思考能力

二、设计任务完成

1.网络爬虫是从web中发现,下载以及存储其中的内容。并且从首页URL爬取,然后不断从当前网页获取URL加入,来不断深入获取各个URL的内容。

2.抓取小说网站,抓取一系列小说的篇名、作者、出版单位(或首发网站)、出版时间(或网上发布时间)、内容简介、小说封面图画、价格、读者评论或评分等多项信息,并将上述信息组织成表格形式(可以是csv、json、excel等)加以保存。另外,还可以深度抓取某部小说的多个章节或全部章节进行分词和词频统计。

3.抓取的是网站不是网站的首页。抓取的内容一定要分布在整个网站的多个页面和多个链接中。

4.程序中加入了反爬技术(包含模拟人加入了时间间隔访问,以及隐藏爬虫身份)

5.程序使用了正则表达式(通过正则来匹配标签)



转载请注明:http://www.shijichaoguyj.com/wxjs/12148.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: