想学习爬一个站的图片URL地址,然后保存本地为TXT文件,并且去重。
思路应该就是按页爬,然后提取HTML中的URL链接,再保存为TXT,然后去重 shell应该做不到,python应该不难 , 有没有例示相关的代码,想学习一下,请指教,谢谢大佬们!! |
我,学生,你们这些傻屌给写老子一个脚本,不要不识好歹 |
请 https://stackoverflow.com/ |
scrapy 一般爬虫模块 加scrapy-redis可以自动去除+断点续爬 |
requests.get res.text.find html.xpath etree.HTML … |
本帖最后由 sRGB 于 2021-11-9 11:20 编辑
google 代码 复制粘贴
|
跟大佬们沟通 就是牛, 我还是自己google吧。 不过还是感谢大佬们。。 |
这个还是挺简单的,网上有那些爬豆瓣什么的实战,你照着抄就好 |
这个比较简单,搜一下就会写了 |