爬虫求思路! 同花顺网站

moe

3 年前

本帖最后由 sizzlingbun 于 2022-4-27 16:01 编辑

http://basic.10jqka.com.cn/api/stock/export.php?export=main&type=year&code=300033

这个链接，直接从浏览器打开的话可以下载excel文件，但是从postman的话返回的是一块html，里面有window.location.href这样的js，在python里面直接用request下不下来，然后我就试了selenium，竟然好像可以检测到我用自动化了？提示Nginx forbidden.

目前唯一能从代码里面下载的方式就是加上这样的Cookie
reviewJump=nojump; searchGuide=sg; usersurvey=1; v=A8uJBJIXLfqelHEu9ieteFWwXG6wYN8pWXSjlT3Ip4phXOWKxTBvMmlEM_lO
标红部分需要从实际的浏览器中请求，然后从network里面复制过来，但是请求两次就失效了，需要重新从真实浏览器里面请求来获得新的。有mjj有思路吗，想不通啊

更新：
我把真实浏览器的请求参数除了cookie里面那个v之外全部完全复制到selenium中，还是nginx forbidden，只有把v也复制过来才可以请求成功，但是只能请求成功一次，真实浏览器每一次请求这个文件，都会生成一个新的v，好像是前端一个js文件根据时间戳酸的？，

没思路绑定

提示

<h1>Nginx forbidden.</h1> <br/>request info:

复制代码

是因为你没修改Selenium的默认UA

自动化测试原则上和正常访问没区别，带上cookie文件目录

byte[] b = result.ResultByte;
可以直接下载
C#完全没问题,py不玩了

不会，帮顶

论坛大师发表于 2022-4-27 15:33
提示是因为你没修改Selenium的默认UA

修改了还是没效果

sizzlingbun 发表于 2022-4-27 15:53
修改了还是没效果

ths.png (28.05 KB, 下载次数: 0)

下载附件

1 小时前上传

一样没效果

等下班研究下你可以搜下除去selenium特征看行不行

怎么爬金十数据的电报快讯呢？？话说楼主，你搞同花顺网站啥信息呢？