有没有爬虫大佬讲讲现在的pixiv怎么爬？

moe

3年前

本帖最后由 mikasa 于 2021-12-21 22:21 编辑

reqeusts第一次获取到的只有页面的页首，就像下图这样。body部分好像是由某段js再加载的，我不太懂这个，有大佬能解答一下怎么爬吗？
有没有爬虫大佬讲讲现在的pixiv怎么爬？

mikasa 发表于 2021-12-21 22:28
感谢，我试试。另外抓接口是什么意思啊，能举例说明一下吗

JS 动态加载网页的基本原理就是：
先渲染基本网页框架，
然后通过接口获取主体内容数据（一般是数组或 JSON），
根据获取的数据动态生成相应的元素并插入到网页中。

你 F12 键，选择 Network，然后按 F5 键刷新，把所有链接数据都看一遍，找到那个获取主体内容数据的链接，分析链接组成（GET/POST）以及数据内容。

那当然是模拟加载出来后再爬啦，这个比较简单，要么就是 F12 抓接口~

模拟浏览器加载

本帖最后由 mikasa 于 2021-12-21 22:29 编辑

喵酱暗恋我发表于 2021-12-21 22:20
模拟浏览器加载

G.K.D 发表于 2021-12-21 22:20
那当然是模拟加载出来后再爬啦，这个比较简单，要么就是 F12 抓接口~

感谢，我试试。另外抓接口是什么意思啊，能举例说明一下吗

本帖最后由 Sooele 于 2021-12-21 22:35 编辑

网页内容如果是js动态加载，只能抓js接口，抓页面没用。

G.K.D 发表于 2021-12-21 22:36
JS 动态加载网页的基本原理就是：
先渲染基本网页框架，
然后通过接口获取主体内容数据（一般是数组或 JS …

十分感谢大佬的耐心解答

用 selenium