嘟嘟社区

爬虫求思路! 同花顺网站


本帖最后由 sizzlingbun 于 2022-4-27 16:01 编辑

http://basic.10jqka.com.cn/api/stock/export.php?export=main&type=year&code=300033

这个链接,直接从浏览器打开的话可以下载excel文件,但是从postman的话返回的是一块html,里面有window.location.href这样的js,在python里面直接用request下不下来,然后我就试了selenium,竟然好像可以检测到我用自动化了? 提示Nginx forbidden.

目前唯一能从代码里面下载的方式就是加上这样的Cookie
reviewJump=nojump; searchGuide=sg; usersurvey=1; v=A8uJBJIXLfqelHEu9ieteFWwXG6wYN8pWXSjlT3Ip4phXOWKxTBvMmlEM_lO
标红部分需要从实际的浏览器中请求,然后从network里面复制过来,但是请求两次就失效了,需要重新从真实浏览器里面请求来获得新的。有mjj有思路吗 ,想不通啊

更新:
我把真实浏览器的请求参数除了cookie里面那个v之外 全部完全复制到selenium中,还是nginx forbidden,只有把v也复制过来才可以请求成功,但是只能请求成功一次,真实浏览器每一次请求这个文件,都会生成一个新的v,好像是前端一个js文件根据时间戳酸的?,

没思路绑定
提示
  1. <h1>Nginx forbidden.</h1> <br/>request info:

复制代码

是因为你没修改Selenium的默认UA

自动化测试原则上和正常访问没区别,带上cookie文件目录
byte[] b = result.ResultByte;
可以直接下载
C#完全没问题,py不玩了
不会,帮顶

论坛大师 发表于 2022-4-27 15:33
提示是因为你没修改Selenium的默认UA

修改了还是没效果

sizzlingbun 发表于 2022-4-27 15:53
修改了还是没效果

ths.png (28.05 KB, 下载次数: 0)

下载附件

1 小时前 上传


一样没效果

等下班研究下 你可以搜下除去selenium特征看行不行
怎么爬 金十数据的电报快讯呢??   话说楼主,你搞同花顺网站啥信息呢?