本帖最后由 战神赵日天 于 2022-7-2 17:27 编辑
这几天打算采集一些discuz的论坛用户 http://2bcpa.com/home.php?mod=space&uid=1 (以此为例,这个站长兄弟,我只是正好看到你的论坛,以此举例,并非针对) 但是采集后的response.content数据内的中文,全部都是x开头的编码,而符号和英文数据都是正常的 请教下如何采集这个页面获得的中文都是正常的,而不是x编码 额,从今天中午研究到现在了,尝试了网上不同办法,依据没解决,还请了解的大佬写个几句指点下。。。 |
response.encoding="utf-8" |
这个早就试过了,不行,完全没有反应,我甚至都在想,是不是我本地python缺少什么库,或者编码组件 |
建议源码发出来 |
好滴,我源码马上上传,还请大佬帮忙指点 |
你这不用.text而是用.content是为啥呢,.content是未解析的原始内容啊。 |
我试试你说的先,多谢指点 |
大佬你好,刚才已经上传了rar,后来看到6楼大佬解答,我发现测试下,就ok了,因为我的确是属于python界的文盲,所以的确这种基础问题都没搞懂,已经可以打印出中文了,感谢大佬指点。 |
感谢大佬指点,目前已经输出中文了,因为我的确是从未基础性的学习过python,还请见谅,再次感谢。如果后面在遇到问题,再请教大佬你。 |