嘟嘟社区

刚那个通用爬虫有感


如果MJJ一起参与到爬虫会怎么样,百度不作为,MJJ一起参与然后超越呢?
利用大家手里的机器一起动起来,用k8s做集群,数据分摊到每台JJ上,然后开放接口给大家,按照贡献度分配调用频次会怎么样,想想都激动哦~
搜索引擎的难点在于爬虫吗?根本不是,在于如何把用户想要的信息呈现给他,在于内容结构的存储管理、如何对输入做分词、如何索引到最相关的信息,爬虫只是最简单的第一步罢了
很刑很可铐吗
做的再好也没人用啊
激动归激动,你别射了就好
用歪了谁负责?出机器的人背锅?
这种规模需要有个专门的团队维护的
爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够