哈希游戏- 哈希游戏平台- 哈希游戏官方网站
本发明提供一种基于改进simhash的有害网址检测方法、装置与系统。该方法包括,获取疑似有害网页的HTML文件,从HTML文件中抽取得到网页标题和网页正文并进行分词,计算每个词汇的词汇权重和哈希值,根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到疑似有害网页的网页签名,记作签名A,将签名A分割成若干个相同长度的子签名段,利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集,计算签名A与候选网页签名集中每个签名B之间的相似度,若存在至少一个相似度值大于设定阈值的签名B,则认为签名A对应的疑似有害网页的URL为有害网址。
[0055] 上述的公式(1)是本发明实施例对传统TF‑IDF算法的改进。传统的逆文本频率IDF 认为在多个文本中出现的词汇重要性不如在少数文本中出现的词汇,传统算法是以文档为单位统计的,没有考虑文本长度,因此本发明实施例将文本长度引入,让权重能更准确反映词汇重要性。此外,本发明实施例还考虑到词汇的长度也对其重要性有一定影响,分词后得到的单个词汇,其长度越长,包含的信息量通常也越多,因此还在改进算法中引入了词汇长度。通过引入词汇长度和文本长度,降低了非重要词汇的噪声。
[0077] 网页文本处理单元用于获取目标网页的HTML文件,从所述HTML文件中抽取得到网页标题和网页正文,并对所述网页标题和所述网页正文进行分词,所述目标网页指已知有害网址对应的网页或疑似有害网页。签名生成单元用于计算每个词汇的词汇权重和哈希值,根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到目标网页的网页签名,其中,将疑似有害网页的网页签名记作签名A,将已知有害网址对应的网页的网页签名记作签名B。索引单元用于将目标网页的签名分割成若干个相同长度的子签名段,利用预先构建的分段索引对疑似有害网页的每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集,所述候选网页签名集中包括至少一个签名B。相似度计算单元用于计算签名A与所述候选网页签名集中每个签名B之间的相似度。输出单元,用于当存在至少一个相似度值大于设定阈值的签名B时,将签名A对应的疑似有害网页的URL标记为有害网址。