vps交流

[疑问] python,go采集要先采集url只入库吗?


在学go的colly采集框架,中文资料很少,都是些基本的东西,连怎么mysql入库都没见提。这里请教下,要先像火车头那样先采集所有网址入库再提取网址采集么?我见一些列子都没提过网址入库,采集太频繁被终止连接不少见吧,如果不采集网址先入库,中断了岂不是从头开始? 谢谢
url入redis,redis做持久化。参考scrapy框架
爬虫推荐用selenium 支持go
像火车头那样先采集所有网址入库再提取网址采集

从来就不是必须这样的。

你说的采集所有网址入库,应该是一种变相的元数据。

先采集元数据,再使用元数据采集剩下的数据,然后组合成一个可用的数据集。

举个例子,爬论坛帖子,先爬目录页,拿到帖子链接/发帖人/发帖时间/标题 等元数据,然后再爬取帖子内容,最后组成一个可用的数据集。

dragonfsky 发表于 2022-4-3 14:29
爬虫推荐用selenium 支持go

Se用来采集的?

http://go-colly.org/docs/examples/redis_backend/

yjsx86 发表于 2022-4-3 14:59
http://go-colly.org/docs/examples/redis_backend/

谢谢, 有mysql的吗?