『科研』赌博网站识别方法研究
背景知识
黑帽SEO
-
概念
黑帽SEO是指通过作弊手段,让站点快速提升排名的一类SEO技术,或者说是黑客技术,比如说:黑链(暗链)、站群、网站劫持、桥页等,黑帽SEO能够快速提升排名,但属于是违规作弊行为。
-
一些黑帽SEO的方法
1)斗篷法(Cloaking)
斗篷法指站长将一个网页用两个不同版本的页面,一个版本给搜索引擎看,一个版本给用户浏览。而搜索引擎只能看到斗篷。
如果用户访问,那返回的可能是一个高大上的页面,如果是搜索引擎访问,返回的可能是一个适合优化的页面。斗篷法基本用在灰色行业或是黑色行业中。桥页也叫:门页、跳页、过渡页,通常是用软件自动生成大量包含关键词的网页,然后从这些网页做自动转向到主页。
目的是希望这些以不同关键词为目标的桥页在搜索引擎中得到好的排名。当用户点击搜索结果的时候,会自动转到主页。有的时候是在桥页上放上一个通往主页的链接,而不自动转向。大部分情况下,这些桥页都是由软件生成的。你可以想象,生成的文字是杂乱无章,没有什么逻辑的。如果是由人写出来的真正包含关键词的文章,就不是桥页了。所谓的桥页也叫过渡页,是指一个页面打开之后会自动(或手动)转向到别的页面。(注意:这种方法在baidu里面可以使用,但不要用在google里!),我们来看一个html格式的桥页的全部代码:
这个页面打开后会在0秒(由content=“0定义时间)内转向到目标网页(由meta标签中的url=”>定义转向的站点),所以大家只要稍加修改,就可以变成你自己的桥页了。我们为我们的所有商品都建立一个这样的页面,每一个页面里都依次按照我们的商品设置不同的关键字,然后依次把这些页面上传到你的目录,比如为上传后的地址为:…那么我们再依次把这些地址一一的提交给搜索引擎,这样,当搜索引擎搜索到这些桥页并被用户打开后,会马上转入到你指定的主页。这样的话你的这些产品被搜索到的机会是不是就大大提高了?
对于桥页的建立,关键是还是关键字要选择好,就拿上面那个手机网站的例子来说,我们要依次为每一个关键字都要做一个单独的桥页,关键字要尽量的全。再有,一个关键字我们也完全可以做多个内容完全相同但名字一定要不相同的桥页,并一一的提交给搜索引擎来增加被搜索到的机率。它针对搜索引擎而作,通过根据特定的搜索词制作一些页面获得较好的排名,引导用户进入主站。有的时候是根据搜索引擎算法制作页面,迎合搜索引擎算法获得好的排名。但不管是那一种,它实际上都属于一种seo作弊行为。
2)桥页跳转方式
-
自动跳转,就像上面讲的,利用自动跳转代码,直接跳转到目标页,优点:用户不知道跳转到了其他页,比较信任。缺点:容易被搜索引擎发现。
-
手动跳转,在桥页上制作蓝色显眼链接,引导用户。优点:不容易被搜索引擎发现,缺点:用户信任度降低。
-
赌博网站识别方法
传统方法
黑名单
维护恶意网站的 IP 地址、域名黑名单,这些信息多是通过人工举报、客户端分析技术所得。可以将获取到的URL先通过黑名单过滤,确认为违法网站之后也加入黑名单中
静态检测
-
原理:基于网站静态数据,如:
-
网站URL:
基于url相似度进行聚类:[基于URL特征检测的违法网站识别方法_凡友荣.pdf](file:///D:/college/技术/网站信息抽取/基于URL特征检测的违法网站识别方法_凡友荣.pdf)
-
网站关键词
-
-
优点:理论完备、技术成熟
-
缺点:数据源限于静态网页数据、对未知违法网站检测不够及时
动态检测
-
方法
-
通过与网站之间的通信,获取网站相关的网络行为并进行分析
-
使用蜜罐系统访问网页并确定网页是否存在恶意行为,同时对攻击者的各种攻击行为进行分析,找到有效的应对方法
-
-
优点:更主动
-
缺点:实施难度大,针对挂马类网站效果明显,但对于常见的赌博、传销类网站效果不佳
新型方法
基于模板检测
参考论文:[基于模板检测的违法网站识别方法_张瀚珑.pdf](file:///D:/college/技术/网站信息抽取/基于模板检测的违法网站识别方法_张瀚珑.pdf)
违法网站运营人员大多采用建站脚本技术自动生成违 法网 站,如 Linux + Apache + Mysql /MariaDB + Perl /PHP /Python( LAMP)。本文将识别 1 个网站是否是违法网站转化为检测其是否使用了违法网站模板,提出了一种基于网站模板检测违法网站的快速有效的识别方法
思路:
( 1 ) HTTP POST 数 据 预 处 理。提 取 HTTP POST 报文中的关键值,通过 MD5 哈希算法计算 该 HTTP POST 的特征值。
( 2) 网站间相似度计算。根据网站之间的特 征值集合,计算出网站间的相似度。
( 3) 违法网站模板提取。网站根据相似度形成 聚类,设定阈值,得到有效聚类,再通过人工干预,确 定违法网站聚类,从中提取违法网站模板特征。
( 4) 违法网站识别。基于步骤( 3) 得到的违 法网站模板特征,计算未知网站与违法网站模板 相似度
基于网站主题的检测
参考论文:[基于PAM概率主题模型的赌博网站检测方法_李国静.pdf](file:///D:/edge downloads/基于PAM概率主题模型的赌博网站检测方法_李国静.pdf)
概率主题模型中,每篇文档均被看作是由若干 隐含主题所构成,而每个主题都由特定单词所体现。 因此,不同单词的分布被看作是不同的隐含主题,而每 个文档则是这些主题在特定比例下的组合。针对赌博 网站检测问题,本文将网站也看作是一个特定的文档, 通过抽取网站的 HTML、脚本语言等信息,形成网站的 文本信息。由于网站所呈现的主题由网站内容所决 定,因此通过抽取网站文本信息的主题,可以有效地对 网站进行主题分类,从而针对“赌博”性质的网站实施 检测
一篇较有代表性的论文导读
Casino Royale: A Deep Exploration of Illegal Online Gambling (researchgate.net)
-
赌博网站存在的特点
-
色彩十分鲜艳
-
搜索、推广:采用了黑帽SEO优化
网站SEO优化的一些措施:Website SEO Checker | Full SEO Analysis On-Page Off-Page
-
大多数赌博网站都是封闭的,即网站的相关链接均指向赌博网站的其他内容或者相关赌博信息;相反,一般正常的网站则相对开放,网站链接会在不同主题的网站之间跳转。 因此,根据这个特性,本文对所需要进行检测的网站随机采样多个页面内容,通过对这些关联页面进行主题提取,若多个页面均是关于“赌博”主题的,则在很大概率上说明此类网站是赌博网站; 相反,不同页面的主题差异较大,则说明此类网站是赌博网站的概率就低。
-
赌博网站的特点之一是善于伪装,为了不容易被识别为赌博网站,有些赌博网站的主页看起来就像网址大全、新闻门户的主页,其中很多链接也会指向正常的服务而非赌博项目,还会有动态更新页面内容的赌博网站,当你浏览时间超过一定时间,其主页内容才会从看似正常的服务一下变更为赌博网站页面。赌博网站还具有一个特点,他们没有自己的转账服务,所以一定会指向电子银行的域名,同理,还可能存在邮箱等通 讯服务的域名
-
-
特征选择
-
支付方式特征提取
-
网站内容检测:赌博类别
- 存储类别
- HTML相似性
-
网站结构特征:
从网站上抽取的 文本信息附上其在 HTML 的标签。例如: HTML 文本 中
< title > 澳门新葡京官网 < /title >
,分词后加入词袋模型的单词为:t 澳门、t 新葡京、t 官网
,其中 “t”表示单词在 HTML 的标签为“title”。为了避免标 签区分得过细,导致词袋模型中的单词在主题上的分 布过于稀疏,本文只选取 HTML 中三个主要的标签,即 “title”“head”“body”,在各个标签下的单词分别附加 上相应的标识,以做区分。通过针对不同标签下的单 词对于网站主题的影响,设置不同的权重,从而实现对 网站结构信息的利用,挖掘网站的主题 -
域名与URL:
实验数据使用域名,而非完整 URL。一方面是因为域名和 URL 存在包含关系,一个域名可以有多个 URL,直接使用域名效率相对更高,制作黑白名单所需要的存储空间更小,另一方面 URL 的命名规则相对容易变化且成本较低,域名注册需要备案,虽然也可以批量注册但成本相对较高,即域名相对稳定不易变化。
-
URL特征:IEEE Xplore Full-Text PDF:
长度、是否包含短网址(短网址是什么 - 诸子流 - 博客园 (cnblogs.com))、是否包含@、是否包含//(第七个字符之后)、“-”、“.”、SSL证书(浏览器地址栏查看站点信息)、域名到期时间(与域名特征合并?)、是否为标准端口号(抓包获得)、favicon/icon是否是从其他域名加载的(查看页面源代码中的rel=”icon”、shortcut icon即可)、是否为https
- 添加:是否url上的链接都指向一个域(闭合)
-
网页源码特征:IEEE Xplore Full-Text PDF:
- specify the percentage of resources from the same domain that is requested by a
single URL(没懂) - 网页中锚点的比例
- 标签中的链接比例(meta、script 和 link)
- 是否包含电子邮件地址
- SFH是否包含一个空字符或’‘about:blank’',域SFH的名称与网页是否相同(SFH不知道是什么)
- specify the percentage of resources from the same domain that is requested by a
-
-
使用的工具