在学go的colly采集框架,中文资料很少,都是些基本的东西,连怎么mysql入库都没见提。这里请教下,要先像火车头那样先采集所有网址入库再提取网址采集么?我见一些列子都没提过网址入库,采集太频繁被终止连接不少见吧,如果不采集网址先入库,中断了岂不是从头开始? 谢谢 |
url入redis,redis做持久化。参考scrapy框架 |
爬虫推荐用selenium 支持go |
像火车头那样先采集所有网址入库再提取网址采集
从来就不是必须这样的。 你说的采集所有网址入库,应该是一种变相的元数据。 先采集元数据,再使用元数据采集剩下的数据,然后组合成一个可用的数据集。 举个例子,爬论坛帖子,先爬目录页,拿到帖子链接/发帖人/发帖时间/标题 等元数据,然后再爬取帖子内容,最后组成一个可用的数据集。 |
Se用来采集的? |
http://go-colly.org/docs/examples/redis_backend/ |
谢谢, 有mysql的吗? |