- 1. 加密流量性质
- 2. 加密流量识别方法
- 2.1 多元组熵
- 2.2 累加和检验
- 2.3 C4.5决策树算法
- 2.4 加密流量识别流程与算法
由于加密后的流量数据呈现均匀随机分布的特点,大多研究人员都是采用基于负载随机性检测的识别方法。
2. 加密流量识别方法通常在明文传输的网络流量中,流量数据的分布会根据应用类型而符合相应的规律。而流量数据在加密后,其内容相关的统计特征将会被消除。本节从加密流量的多元组熵、累加和检验值特征等方面进行分析,并简要介绍C4.5决策树模型。
2.1 多元组熵指在以n-gram的形式对报文序列进行切割后,满足不同长度、频率条件的字符组集合的一系列熵值特征。
- n元字符组集合:以大小为n的滑动窗口对报文序列P进行切割后得到的字符串 s i ( 1 ≤ i ≤ L − n + 1 ) s_i(1le ile L-n + 1) si(1≤i≤L−n+1)的集合, L L L表示分析报文序列以字节为单位的长度。
- 从n原字符组集合中个元素出现的频率进行考虑,选择n元字符组集合中出现频数高于k的元素 s n , k ′ s'_{n,k} sn,k′,并统计其在集合中出现的频数 f i , k ′ f'_{i,k} fi,k′,组成k频n元字符组集合。
- 若对长度n,频数阈值k各取不同的值时,则可以得到一系列关于保温序列P的熵值特征,就构成了多元组熵值特征集
H = { H n , k ∣ n ∈ [ N a , N b ] , k ∈ [ K a , K b ] } H={H_{n,k}|nin[N_a,N_b],kin[K_a,K_b]} H={Hn,k∣n∈[Na,Nb],k∈[Ka,Kb]}
累加和检验时NIST随机数检测标准之一,本质是一种假设检验方法。将(0,1)比特序列调整为(-1, +1)序列的形式后,对从0开始的随即又总的最大偏移量进行累加,目的是检验在目标序列中是否存在子序列的累加和对比于随机序列的累加和的期望值过大或过小。
2.3 C4.5决策树算法不同于ID3算法使用信息增益最大的属性作为分支属性,C4.5算法使用信息增益率作为分支依据,提升了数据处理效率。
2.4 加密流量识别流程与算法加密流量识别算法如下所示:
- 报文组流。按五元组(源IP地址、源端口、目的IP、目的端口、传输层协议)对报文进行会话划分。
- 流过滤。由于多元组熵需要有一定数量才能保证其准确率,在本方法中对 L L L的取值为1KB,因此需要对有效负载小于1KB的报文流进行过滤。
- 流特征提取。分为两个部分:选取合适的N、K值,对报文的前1KB内容计算多元字符组熵,生成特征集合;选取合适的分块大小M,进行累加和校验,将最小值和平均值作为特征。
- 决策阶段。将训练阶段得到的决策树用于流量的分类,得到最终的分类结果。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)