如何用机器学习方法检测「伪原创」文章?,
先离一下题,网易自媒体正如题主所说,「伪原创」是搜索引擎优化(seo)行业的一种方法。
实际上,相异与优化网站的结构,国外自媒体这显然是一条“邪路”。
「伪原创」也不仅仅只有替换同义词这一种方式,也可以是文字或者段落的重排序,修改文章中的数字,或者在此基础上添加新的信息等。爱奇艺自媒体
对于修改文章中的数字并加入信息这种「伪原创」(如将《三种检测「伪原创」文章的方法》改为《五种检测「伪原创」文章的方法》,再在原文后添加相关或是不相关的段落),
仅有该文章原创检测工具显然难以判断。国外自媒体 在搜索引擎层面,各个搜索引擎也有自己的检测「伪原创」算法(例如百度的飓风算法),但必然是用到了已被其添加索引的页面。
回到正题,对于只有同义词替换的「伪原创」检测提出一个想法,SEO优化写出高质量原创文章3大技巧其实题主所描述的情况和病句检测多少是有关联的,近期的一些NLP关于病句检测或是改正的研究(基于CNN,LSTM,注意力机制等)可能会是解决这个问题的一个思路。
评论