分布式爬虫的难点不在于爬虫技术本身,而在于各服务器网络之间的通信
分布式爬虫的两种技术方案:
1、自己实现分布式爬虫(Docker+Urllib+mysql+redis)
部署Docker,镜像 mysql 、redis
2、基于Scrapy-redis实现分布式爬虫
settings.py 添加
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
# REDIS_URL = "redis://user:passwd@IP:port"
# REDIS_URL = "redis://@IP:port"
REDIS_URL = "redis://127.0.0.1:6379"
I'm so cute. Please give me money.
- 本文链接:https://wentianhao.github.io/2020/03/13/%E5%88%86%E5%B8%83%E5%BC%8F%E7%88%AC%E8%99%AB%E7%BC%96%E5%86%99/
- 版权声明:本博客所有文章除特别声明外,均默认采用 许可协议。
若没有本文 Issue,您可以使用 Comment 模版新建。