分布式爬虫的难点不在于爬虫技术本身,而在于各服务器网络之间的通信

分布式爬虫的两种技术方案:

1、自己实现分布式爬虫(Docker+Urllib+mysql+redis)

部署Docker,镜像 mysql 、redis

2、基于Scrapy-redis实现分布式爬虫

settings.py 添加

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
# REDIS_URL = "redis://user:passwd@IP:port"
# REDIS_URL = "redis://@IP:port"
REDIS_URL = "redis://127.0.0.1:6379"