嘟嘟社区

[疑问] 求个python脚本,谢谢大佬。。


想学习爬一个站的图片URL地址,然后保存本地为TXT文件,并且去重。

思路应该就是按页爬,然后提取HTML中的URL链接,再保存为TXT,然后去重
如果是API接口,就不停的访问这个接口,获取文件头的302,获取真实url图片地址,再保存为TXT,然后去重

shell应该做不到,python应该不难 , 有没有例示相关的代码,想学习一下,请指教,谢谢大佬们!!

我,学生,你们这些傻屌给写老子一个脚本,不要不识好歹

https://stackoverflow.com/
scrapy 一般爬虫模块 加scrapy-redis可以自动去除+断点续爬
requests.get
res.text.find
html.xpath
etree.HTML
本帖最后由 sRGB 于 2021-11-9 11:20 编辑

google 代码 复制粘贴
参考我的 262235.xyz/getmd/

跟大佬们沟通 就是牛,  我还是自己google吧。  不过还是感谢大佬们。。
这个还是挺简单的,网上有那些爬豆瓣什么的实战,你照着抄就好
这个比较简单,搜一下就会写了