如何入门 Python 爬虫?
来源:网络整理 网络用户发布,如有版权联系网管删除 2018-08-13
- 翻下 搜索引擎技术基础 (豆瓣) 中百度爬虫的一个基本架构,了解爬虫的构成
- 通过 Python 下的 Scrapy | An open source web scraping framework for Python 框架快速完成简单的爬虫 (可参考我去年对 scrapy 的一个简单封装 flyer103/autospider GitHub)
- 之后有不同的方向:
- 研究 headless browser 技术,自动处理页面中的 js 请求等。可参考我之前的总结的两种实现 github.com 的页面 和效率比较高的 PhantomJS: Headless WebKit with JavaScript API (看文档就会了,一般还需要与 Squid 结合使用。若想与 Python 结合,可参考我在 stackoverflow 上的提问 Is there a way to use PhantomJS in Python?)
- 研究分布式爬虫的实现,主要还是根据 1) 中那本书中提到的架构思想 (个人打算明年一月份时实现一个类似的)
查看评论 回复