本帖最后由 mikasa 于 2021-12-17 11:50 编辑
不得不说框架自带的异步多线程就是快,比自己手撸强多了。要爬的数据量大概在5t-8t的样子,但我没有大盘鸡来装。目前只能靠着40g硬盘的小鸡一边下一边上传一边删 另外问一下,存储大量(几十万条)格式化信息是用csv好还是json好啊 |
盲猜用json? |
csv吧..不行就把json编码成base64 信息尽可能多点盘不是问题 不够就多加几t
你的json是数组 还是一个json是一条 N行代表N篇内容? |
json把 |
csv似乎相对而言更通用一点,也方便阅读 |
n行,每行代表一篇 |
不打算阅读,后期打算导入到数据库里,目前先用文件暂时存一下 |
用mongodb呗,跟csv格式差不多 |
嗯,我了解一下,先放到文件是因为数据库我还没系统了解过 |