行业动态基于网页结构与语言特征的垃圾网页链接检测方法
基于网页构造与说话特点的垃圾网页链接检测办法。检测spam网页仍是一个具有挑衅性的研讨范畴。经由试验与比较,算法已经可以根本解决spam检测的问题,精确率较高,又不会涌现过高的误报率和漏报率。同时,假如用户对误报率和漏报率有所请求时,也可以经由过程修改优势率的阈值来实现。
然则,算法仍有一些须要深刻研讨的问题。后续工作须要更进一步扩展并完美初始数据,从而优化对优势率字典的构建。同时,愿望更进一步地研讨优势率阈值的拔取,从而更精确地对网页进行检测。
最后,网页中,块与块之间是有接洽的,而本算法简化了这一部门,把块看成自力的个别进行处置。所以,在后续研讨中,可以将块与块之间的类似度,如构造类似度、文本内容类似度等参加特点的拔取和盘算、