vps交流

这种【防采集】字体反爬插件有效吗


https://addon.dismall.com/plugins/tshuz_fontreptile.html

防止论坛帖子、门户文章被采集,大大增加采集难度
插件介绍
插件原理:使用自定义字体编码,让用户查看没有帖子仍然是中文,但实际页面编码已经改为自定义的乱码,增加采集难度;
插件内置一套字体库(基于标准宋体,常用100个中文字,具体见附录)
插件支持门户文章和论坛帖子页面;
插件支持手机版和电脑版(默认手机无门户文章页面,须购买安装手机版门户文章)
论坛支持自定义启用版块;
论坛是否开启门户;
论坛支持自定义启用用户组;
定制字体:需提供字体ttf文件,需要的中文及编码格式,至少100个字起订,每个字0.5元;

附录 – 常见字

万、和、政、我、月、不、过、大、社、发、展、作、会、对、出、是、他、工、个、新、高、合、有、市、们、体、来、人、学、重、的、加、法、机、元、理、全、就、分、品、企、本、济、国、部、同、于、到、一、区、生、用、了、实、制、地、业、者、关、时、开、年、动、主、上、资、以、自、长、定、进、多、后、要、面、民、外、公、等、设、家、经、成、行、方、这、在、中、能、力、下、场、化、产、建、日、报、现、前、为

有用,但是用处不大,而且很伤用户体验(用户复制、粘贴出来的内容不一致)。

因为是静态字体库,所以如果有心的话,只要把你的字体库下载了,然后重新做一下映射就行了。

如果要是想反爬,应该用动态字体库,这样就每个页面都只能用OCR识别了。

过滤掉<span class="dzlabfcnt">*</span> 就好
用在显示手机号和邮件地址上有用
要采集的,就是用时间对抗做套字体映射就可以。
参考大众点评网页版
没啥用,想采集你的换换法就行了
我爬过这种站 无压力这种【防采集】字体反爬插件有效吗