500rmb:python爬虫外包需求

moe

3年前

本帖最后由 ♠♣♥❤ 于 2021-12-26 19:59 编辑

根据txt 给定的关键词（多行）

获取百度，搜狗，google，bing，等的搜索结果的 url（这个url是解析后的url，不能含有搜索引擎编码的url），默认取前10页。
把url输出成 csv 文件，关键词跑完后生成一个 csv 集合（csv 包含2个字段： url, url的标题）

metamask下载
Coinbase下载
Coinbase下载
ETHMM钱包
blockchain下载

比如txt 有这些词。

把这些词在搜索引擎的结果的 url地址取出来。然后获取url的标题就行。循环关键词搜索后，导出结果为csv

可以提供3个S5。
飞机
@axing8341

本帖最后由 Sooele 于 2021-12-26 20:29 编辑

astic 发表于 2021-12-26 20:14
3个代理看起来像个笑话

500块就想去破百度，搜狗，google，bing等花了几百万反爬程序员的成功。
我飘了
而且即使 scrapy 架构去爬也要百度，搜狗，google，bing建4个 spiders。
第一个百度，url跳转就是加密的。有源码再说把

♠♣♥❤ 发表于 2021-12-26 20:59
我对性能要求不高。搜索一次。停2-3s 都能接受的，关键词也不多。就几百个。一晚跑完就行。 …

几百关键词!!!
你代理池准备了几个！

Sooele 发表于 2021-12-26 20:16
500块就想去破百度，搜狗，google，bing等花了几百万反爬程序员的成功。
我飘了
而且即使 scrapy …

我对性能要求不高。搜索一次。停2-3s 都能接受的，关键词也不多。就几百个。一晚跑完就行。

本帖最后由 emptysuns 于 2021-12-26 20:00 编辑

这些都有反爬，单ip过多访问会被标机器，如果你要做批量爬，得自加代理池

接了楼下止步

不接，楼下的快接

好像很简单的样子，插眼试着弄一下

好的，止步了。、
实在接不了这活
* 这个世上有很多事是解释不通的

这么赚钱么爬虫

厉害了

500 这卷得也太厉害了吧

没人接的话可以联系我，看看带不带反爬