[疑问] python,go采集要先采集url只入库吗？

moe

3 年前

在学go的colly采集框架，中文资料很少，都是些基本的东西，连怎么mysql入库都没见提。这里请教下，要先像火车头那样先采集所有网址入库再提取网址采集么？我见一些列子都没提过网址入库，采集太频繁被终止连接不少见吧，如果不采集网址先入库，中断了岂不是从头开始？谢谢

url入redis，redis做持久化。参考scrapy框架

爬虫推荐用selenium 支持go

像火车头那样先采集所有网址入库再提取网址采集

从来就不是必须这样的。

你说的采集所有网址入库，应该是一种变相的元数据。

先采集元数据，再使用元数据采集剩下的数据，然后组合成一个可用的数据集。

举个例子，爬论坛帖子，先爬目录页，拿到帖子链接/发帖人/发帖时间/标题等元数据，然后再爬取帖子内容，最后组成一个可用的数据集。

dragonfsky 发表于 2022-4-3 14:29
爬虫推荐用selenium 支持go

Se用来采集的？

http://go-colly.org/docs/examples/redis_backend/

yjsx86 发表于 2022-4-3 14:59
http://go-colly.org/docs/examples/redis_backend/

谢谢，有mysql的吗？