恶意域名检测

恶意域名检测系统

1、产品概述

目前互联网上恶意域名的主要实现方式主要有两种,分别为IP Fast-Flux和Domain-Flux。恒安嘉新恶意域名检测系统中的特征选择包括IP对应多个域名特征分析和提取、域名对应多个IP特征分析和提取、域名字符构成特征分析和提取、TTL特征特征分析和提取、NXDOMIAN、MX特征分析、以及其他特殊特征分析等。

基于对域名名称、域名别名CNAME、访问者IP、域名解析对应的IP、访问次数、IPV4类型、访问时间等数据的采集,经过黑白名单过滤、数据分析、去重等对恶意域名数据进行数据预处理,并通过模型训练模块对恶意域名进行分类训练,然后对已处理过的恶意域名进行可信度和可达性验证,同时系统满足域名备案信息与可信度查询。

系统整体包含六大模块:大数据平台、知识库、数据预处理模块、特征提取模块、模型训练模块、恶意域名检测模块。

2、产品架构

恒安嘉新恶意域名检测系统架构如下:

 

3、产品功能

恒安嘉新恶意域名检测系统,包括如下功能:

  • 大数据平台

分布式文件系统(HDFS模块)适用于高吞吐量的数据访问、存储、查询。

  • 知识库

收集域名白名单库和域名黑名单库,并对已采集的恶意域名进行验证和判断。

  • 数据预处理模块

对已采集的恶意域名数据进行异常值、缺失值处理以及域名数据清洗去重等。

  • 特征提取模块

通过对时间特征、字符特征、IP特征中的特征名称和特征描述进行特征量化提取,依此建立恶意域名特征训练集。

  • 模型训练模块

对已提取的恶意域名特征量化进行分类训练,采用决策树、逻辑回归、朴素贝叶斯、神经网络等分类算法,提取黑白名单内域名的字符特征作为训练参数,使用三种基于不同原理的常用分类器进行训练并评估,选择最优模型进行应用。

  • 恶意域名检测模块

基于恶意域名的时间特征、字符特征、IP特征等特征量化提取,通过机器学习算法和训练集,完成恶意域名的验证和判断。

  • 管理运维

灵活方便的管理系统,支持权限管理、数据备份、资源管理、报表生成、日志告警等。

4、产品特点/优势

产品核心功能如下:

恒安嘉新恶意域名检测系统特有的综合评价算法,通过对恶意域名的时间特征、域名字符特征、IP特征等特征量化提取,采用大数据机器学习算法进行分类训练,综合评价恶意域名的危害程度,对恶意域名进行综合评价打分。如:

  • 时间特征判断

计算待检测域名的时间突发访问量最大值(A_max)与平均访问值(A_avg)的商(A_max/ A_avg),若其超过指定阈值,则得分+1。

  • IP特征判断

计算待检测域名对应的IP数量(IP_num)与对应前16位IP相同的IP域个数(SIP_num),若其超过指定阈值,则得分+1。

  • 字符特征判断

将待检测域名的字符特征输入已经经过训练的随机森林分类器当中,若被判断为恶意域名,则得分+1。