文档库 最新最全的文档下载
当前位置:文档库 › 主题相似度与链接权重相结合的垃圾网页排序检测

主题相似度与链接权重相结合的垃圾网页排序检测

龙源期刊网 https://www.wendangku.net/doc/061335556.html,

主题相似度与链接权重相结合的垃圾网页排序检测

作者:韦莎朱焱

来源:《计算机应用》2016年第03期

摘要:针对因Web中存在由正常网页指向垃圾网页的链接,导致排序算法(AntiTrustRank等)检测性能降低的问题,提出了一种主题相似度和链接权重相结合,共同

调节网页非信任值传播的排序算法,即主题链接非信任排序(TLDR)。首先,运用隐含狄利克雷分配(LDA)模型得到所有网页的主题分布,并计算相互链接网页间的主题相似度;其次,根据Web图计算链接权重,并与主题相似度结合,得到主题链接权重矩阵;然后,利用主题链接权重调节非信任值传播,改进AntiTrustRank和加权非信任值排序(WATR)算法,使网页得到更合理的非信任值;最后,将所有网页的非信任值进行排序,通过划分阈值检测出垃圾网页。在数据集WEBSPAMUK2007上进行的实验结果表明,与AntiTrustRank和WATR 相比,TLDR的SpamFactor分别提高了45%和23.7%,F1measure(阈值取600)分别提高了3.4个百分点和0.5个百分点, spam比例(前三个桶)分别提高了15个百分点和10个百分点。因此,主题与链接权重相结合的TLDR算法能有效提高垃圾网页检测性能。

关键词:垃圾网页检测;链接作弊;排序算法;主题相似度;非信任值传播

中图分类号: TP181 文献标志码:A

0引言

随着互联网的飞速发展,网络信息数据不断膨胀。搜索引擎已成为人们获取信息的重要途径。然而,网页作弊者利用各种手段欺骗搜索引擎以获得高于其应得的排名,从而获取商业利益,这种行为称为Web spam。研究发现,2011年垃圾网页比例已达到20%[1]。随着Web 2.0的发展,用户能方便地在互联网上添加内容,使得作弊者能更方便地通过添加内容进行网页作弊[2]。Web Spam带来的恶劣影响有:降低搜索结果质量,使用户获取不到有用的信息;影响搜索引擎的信誉,使搜索引擎公司以及合法网站等蒙受巨大的经济损失;传播垃圾内容、恶意软件,甚至进行钓鱼攻击等。

Web spam可分为内容作弊(contentbased spam)、链接作弊(linkbased spam)、隐藏作

弊(cloakedbased spam)以及点击作弊(click spam)。其中,链接作弊是一种常见的作弊手段。由于搜索引擎使用如PageRank,超文本诱导主题搜索(HypertextInduced Topic Search,HITS)等排序算法进行网页重要性排序,因此作弊者常常通过构造链接工厂,在微博、wiki

上张贴链接以及黑客攻击等手段进行链接作弊。为了抵制链接作弊,不少研究致力于反链接作弊技术。其中,Trust和Distrust模型由于其只需要少量的种子集就可以得到高效的检测结果,被广泛认为是一种高效的反链接作弊技术。TrustRank算法的基本假设是认为优质网页通常只

相关文档