嘟嘟社区

有没有好点的提取出网页文章正文的python脚本


本帖最后由 宝丽金 于 2021-10-31 00:04 编辑

我提取出来的文本带有太多无关的 文字
大伙有没有啥用得比较顺手的脚本
只需要处理网页得出正文的这段脚本
通用型的

有手就行,自己写一个呗,处理几个字符串的事
这种要根据规则写,通用的没有