爬一个网站:
https://www.chunyuyisheng.com/pc/article/149923/ 所有图片都不现实拓展名, 各位大佬,怎么才能知道它的图片扩展名啊? 爬过来的图片怎么给它添加扩展名? |
检查文件pe. https://www.52pojie.cn/thread-1591115-1-1.html <—现成的工具 |
爬过来的图片,一个一个的检查pe,然后给它手动添加扩展名,也不现实啊。。 有没有自动化的方法啊。。 |
本帖最后由 xiao77avi 于 2022-3-3 14:05 编辑
请求响应头信息里有.. 而且,普通爬虫用不到 sendfile() .数据总会在内存里转一圈.. |
jpg png 不是随便加都行吗 |
响应头里有。
其实爬到本地统一加成.png都行 |
不用做判断 用pillow把mode全转成RGB 加上jpg后缀就完事儿了 |
jpeg 的头信息
png 的头信息 你写爬虫的话,判断头信息没你想的那么复杂.而且都算不上计算量.. 爬虫请求获取到 body 的 byte[] 后,固定取前几个 byte 判断一下就完事了.. |