wordpress反爬-内容采集和复制抄袭

NO.1
抄袭站的特征

到现在为止,本站的博客内容仍然被爬取,整理了一些特征:

  • 一天抓取一次,白天不会爬取,凌晨会爬取一次,因为每次文章被爬取,都是凌晨之后
  • 像素级爬取,可以判定不是手动复制,因为连带脚本也被一起爬取了,自制的插件也被静态缓存到对方网站
  • 小概率对方没有太关注盗版网站(可能盗版太多了,自动化的),用一张图片弄过版权声明,很显然,对方没有什么动作,到是推酷把那篇有声明的文章给人工删除了
NO.2
做了哪些操作

看了下发现盗版网站到现在的时间,已经过去6天了

采用了以下操作

  • nginx
  • wordpress/.htaccess
  • wordpress/index.php
  • wordpress/function.php
  • wordpress/wordfence插件
  • wordpress/add_filter(‘the_content’, ‘add_after_post_content’)钩子函数-内容过滤;
  • wordpress/html插入script脚本
  • ……

期间还收到了dos攻击,导致网站瘫痪了一个晚上,加上了防火墙等各种防护措施,才恢复正常运行

NO.3
反爬和打广告

不论有没有什么反爬的方法,折腾这么久没见到什么效果

最终的核心是不让内容被别的网站盗取,不让搜索引擎收录别人网站,不让读者以为别人原创

如果反爬反不了,那就让他爬

  1. 首先把内容给屏蔽掉,加入让盗版网站初始化文章时清空整站的脚本,不给搜索引擎抓取和读者看到原有的内容
  2. 其次是标注原创声明或者配上恶搞效果,让盗版网站和读者本身关注到这是个垃圾站
  3. 屡教不改,那就放上死循环,各种js操作,js挖矿,js炸机,js广告,js等等等….
  4. 最后如果还是不行,那就放上黄暴恐以及菠菜之类的替换内容,手动举报吧,眼不见为净
NO.4
自动化

每次手动往单个文章插入脚本,太耗费时间

制作了一个编辑器插件也显得比较耗时,而且对文章还是侵入式的,不太友好

本篇文章使用钩子函数全局自动插入脚本,看看明天凌晨对盗版网站的操作是否会生效

如果不生效,就得继续找方法

END.