嘟嘟社区

网页中图片不显示扩展名


爬一个网站:

https://www.chunyuyisheng.com/pc/article/149923/

所有图片都不现实拓展名,

各位大佬,怎么才能知道它的图片扩展名啊?

爬过来的图片怎么给它添加扩展名?

检查文件pe.
https://www.52pojie.cn/thread-1591115-1-1.html <—现成的工具

igger 发表于 2022-3-3 13:55
检查文件pe.
https://www.52pojie.cn/thread-1591115-1-1.html

爬过来的图片,一个一个的检查pe,然后给它手动添加扩展名,也不现实啊。。

有没有自动化的方法啊。。

本帖最后由 xiao77avi 于 2022-3-3 14:05 编辑

请求响应头信息里有..
Content-Type: image/jpeg
Content-Type: image/png

而且,普通爬虫用不到 sendfile() .数据总会在内存里转一圈..
简单的读一下前几个 byte 也能直接判断出来..

jpg  png 不是随便加都行吗
响应头里有。

其实爬到本地统一加成.png都行

不用做判断
用pillow把mode全转成RGB
加上jpg后缀就完事儿了

igoogle 发表于 2022-3-3 14:00
爬过来的图片,一个一个的检查pe,然后给它手动添加扩展名,也不现实啊。。

有没有自动化的方法啊。。 …

jpeg 的头信息

png 的头信息

你写爬虫的话,判断头信息没你想的那么复杂.而且都算不上计算量..

爬虫请求获取到 body 的 byte[] 后,固定取前几个 byte 判断一下就完事了..