[疑问] 求个python脚本，谢谢大佬。。

moe

3年前

想学习爬一个站的图片URL地址，然后保存本地为TXT文件，并且去重。

思路应该就是按页爬，然后提取HTML中的URL链接，再保存为TXT，然后去重
如果是API接口，就不停的访问这个接口，获取文件头的302，获取真实url图片地址，再保存为TXT，然后去重

shell应该做不到，python应该不难，有没有例示相关的代码，想学习一下，请指教，谢谢大佬们！！

我，学生，你们这些傻屌给写老子一个脚本，不要不识好歹

scrapy 一般爬虫模块加scrapy-redis可以自动去除+断点续爬

requests.get
res.text.find
html.xpath
etree.HTML
…

本帖最后由 sRGB 于 2021-11-9 11:20 编辑

google 代码复制粘贴
参考我的 262235.xyz/getmd/

跟大佬们沟通就是牛，

我还是自己google吧。不过还是感谢大佬们。。

这个还是挺简单的，网上有那些爬豆瓣什么的实战，你照着抄就好

这个比较简单，搜一下就会写了