分布式爬虫的难点不在于爬虫技术本身,而在于各服务器网络之间的通信
分布式爬虫的两种技术方案:
反爬策略1:通过UA限制或者其他头信息限制
解决方案:构建用户代理池
反爬策略2:通过访问者IP限制
解决方案:构建IP代理池
最近打算同步一下数据,发现了一个口碑还不错的数据同步工具——Syncthing,是一款开源免费的数据同步工具,支持Android、Linux、Windows、Mac OS等系统,可以在任意2台设备之间,实现实时同步。通信使用TLS进行保护,所使用的加密包括完美的前向保密,很适合搭建私有同步网盘
Scrapy模块是一个非常常用的爬虫框架模块,使用Scrapy可以快速创建爬虫项目。
Request模块的基础使用
pip install requests
参数 | 含义 |
---|---|
params | get请求的参数 |
headers | 伪装浏览器添加头信息 |
proxies | 添加代理 |
cookies | 添加cookie |
data | post请求 |
属性 | 含义 |
---|---|
text | 对应请求响应数据 |
content | 二进制类型的相应数据 |
encoding | 网页编码 |
cookies | 相应cookie |
url | 当前请求的url |
status | 状态码 |
世界著名的三大科技文献检索系统
高质量文章标准 High-quality paper criteria