vps交流

昨天摸索了一天,总算用scrapy把爬虫写好了


本帖最后由 mikasa 于 2021-12-17 11:50 编辑

不得不说框架自带的异步多线程就是快,比自己手撸强多了。要爬的数据量大概在5t-8t的样子,但我没有大盘鸡来装。目前只能靠着40g硬盘的小鸡一边下一边上传一边删昨天摸索了一天,总算用scrapy把爬虫写好了

另外问一下,存储大量(几十万条)格式化信息是用csv好还是json好啊

盲猜用json?
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json是一条 N行代表N篇内容?昨天摸索了一天,总算用scrapy把爬虫写好了

json把
csv似乎相对而言更通用一点,也方便阅读

晴晴晴 发表于 2021-12-17 11:48
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t

你的json是数组 还是一个json …

n行,每行代表一篇

smrik 发表于 2021-12-17 11:51
csv似乎相对而言更通用一点,也方便阅读

不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下昨天摸索了一天,总算用scrapy把爬虫写好了

mikasa 发表于 2021-12-17 11:57
不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下

用mongodb呗,跟csv格式差不多

ttp 发表于 2021-12-17 12:15
用mongodb呗,跟csv格式差不多

嗯,我了解一下,先放到文件是因为数据库我还没系统了解过

赞(0)
版权声明:本贴采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
帖子名称:《昨天摸索了一天,总算用scrapy把爬虫写好了》
帖子链接:https://bbs.toot.su/53237.html

相关推荐