分布式爬虫的难点不在于爬虫技术本身,而在于各服务器网络之间的通信
分布式爬虫的两种技术方案:
反爬策略1:通过UA限制或者其他头信息限制
解决方案:构建用户代理池
反爬策略2:通过访问者IP限制
解决方案:构建IP代理池

最近打算同步一下数据,发现了一个口碑还不错的数据同步工具——Syncthing,是一款开源免费的数据同步工具,支持Android、Linux、Windows、Mac OS等系统,可以在任意2台设备之间,实现实时同步。通信使用TLS进行保护,所使用的加密包括完美的前向保密,很适合搭建私有同步网盘
Scrapy模块是一个非常常用的爬虫框架模块,使用Scrapy可以快速创建爬虫项目。
Request模块的基础使用
pip install requests
| 参数 | 含义 | 
|---|---|
| params | get请求的参数 | 
| headers | 伪装浏览器添加头信息 | 
| proxies | 添加代理 | 
| cookies | 添加cookie | 
| data | post请求 | 
| 属性 | 含义 | 
|---|---|
| text | 对应请求响应数据 | 
| content | 二进制类型的相应数据 | 
| encoding | 网页编码 | 
| cookies | 相应cookie | 
| url | 当前请求的url | 
| status | 状态码 | 
世界著名的三大科技文献检索系统
高质量文章标准 High-quality paper criteria