KDD2017精选(1)如何筛选特征

KDD2017精选(1)如何筛选特征,第1张

来自: Feature Selection: A Data Perspective

目的:

相对于算法本身的改进,特征工程往往对效果有更直接的提升。特征工程以降维为手段,重点解决以下问题:

1 过拟合;

2 随着特征增加,稀疏性呈指数爆炸。由于大多数算法假设数据特征独立同分布,稀疏性会干扰最终结果;

3 PAC Learning Theory:我们对实际问题的假设在多大程度上背离目标方程;
实际应用中,针对具体问题,我们通常能找到最佳特征数:

1 特征提取:将数据从原始的高位空间投向低维,得到的新特征通常没有物理意义;

11 线性投影:PCA,ICA,LDA等;

12 非线性投影:ISOMAP,LLE等;

2 特征筛选:基于相关性和冗余性,从原始特征择优;

从y值考虑,特征工程可分为有监督,无监督和半监督3类;从x考虑,特征工程可分为wraper,filter,embedder 3类。本文从数据角度,对特征工程做如下分类:
1 Similarity based methods:基于相似性的方法通过保持原始数据相关性的能力评估特征的重要性。好特征不能导致数值大小的随机性,同时好特征可以令邻近的数据数值接近,邻近由相关矩阵定义。假设相关矩阵在实数空间内,为了找到相关性最高的特征,需要最大化效用矩阵,通常需要用最小二乘法得到其最大值。
优点:1 特征得分计算简单,2 选出的的特征可直接用于后续学习任务;

缺点:没有有效解决特征冗余;
11 Laplacian Score [He et al, 2005]

111 首先:这种方法搭建X的对角矩阵(构建多样性)和拉普拉斯矩阵(构建相似性), 不考虑Y;

112 好的特征需要同时保证X的相似性特征(越小越好)和特征的多样性(越大越好);

113 拉普拉斯得分越小越好;
12 Spectral Feature Selection [Zhao and Liu, 2007]

121 相似矩阵的特征向量代表了X的分布;

122 特征的相似性由特征向量的内积衡量,特征值对X在该特征上的赋值由下图灰度表示,邻近的数据赋值相近;

123 谱特征得分越大越好;
13 Fisher Score [Duda et al, 2001]

131 这种方法考虑Y,构建类内和类间拉普拉斯矩阵,该矩阵每个元素越大,对应的x越相似;

132 好特征使不同类的数据相远,使同类数据相近;

133 费舍得分越大越好
14 Trace Ratio Criteria [Nie et al, 2008]

141 费舍得分单独地衡量每个特征,可能陷入局部最优

142 迹比准则还衡量特征子集;

143 迹比得分越大越好,所得特征没有物理意义;
2 Information Theoretical based Methods:使用启发式筛选方法挑特征,以总体最优为目标。找到最好的特征子集是NP-难的问题,通常基于熵,冗余性和信息增益,使用前向和后向搜索找特征。

优点:1 兼顾相关性和冗余性,2 选出的的特征可直接用于后续学习任务;

缺点:1 大部分方法只能用于监督学习,2 只能处理离散数据;
21 Information Gain [Lewis, 1992]

211 信息增益仅通过衡量基于Y的X的相关性来衡量特征重要性;

212 仅考虑单个特征,且不考虑特征间的互信息;

213 信息增益越大越好;
22 Mutual Information Feature Selection [Battiti, 1994]

221 信息增益仅考虑单个特征和Y的相关性;

222 互信息还考虑特征间的信息冗余;

223 互信息越大越好;
23 Minimum Redundancy Maximum Relevance [Peng et al, 2005]

231 直观上,MRMR基于相似矩阵,动态减小信息冗余对特征集的影响;

232 同时,增强特征子集对Y的相关性的影响;

233 MRMR得分越大越好,所得特征没有物理意义;
244 Conditional Infomax Feature Extraction [Lin and Tang, 2006]

241 类内相关性越大于总体类间相关性,相关特征越有用;

242 相关特征不一定冗余;

243 条件信息得分越大越好,所得特征没有物理意义;
3 Sparse Learning based Methods:上述方法不一定适用于某一具体任务。稀疏学习方法通常用于嵌入。该方法通常使用损失项和惩罚项,有极强的理论支撑,适用数据的类型较为广泛,且使用灵活。

优点:1 数据利用充分,2 直观,可解释性好;

缺点:1 泛化性弱,2 非平滑最优,计算量大;
31 Lasso [Tibshirani, 1996]

311 该方法基于特征权重的l1正则化项;

312 该方法通过补偿最小二乘法的损失确定得分大小;

313 Lasso得分越大越好;
32 Multi-Cluster Feature Selection (MCFS) [Cai et al, 2011]

321 该方法寻找X内部聚类的向量,检测其聚类结构;

322 对每个类计算lasso,并组合类的特征系数;

323 MCFS得分越大越好;
333 Nonnegative Unsupervised Feature Selection (NDFS) [Li et al, 2012]

331 该方法同时执行聚类和特征选择;

332 类的权重矩阵由RBF核构造,之后将该矩阵嵌入特征选择;

333 NDFS得分越大越好;
4 Statistical based Methods:基于一系列统计检测,通常用于特征筛选,不考虑冗余性,在离散数据上效果较好。

优点:1 直观,2 选出的特征可直接用于后续学习任务;

缺点:1 没解决特征冗余,2 数据需要离散化,3 在高维空间计算量大;
41 T-Score [Davis and Sampson, 1986]

411 用于二分类;

412 检测特征对样本间均值是否显著;

413 T得分越高越好;
42 Chi-Square Score [Liu and Setiono, 1995]

421 检测特征对Y的独立性;

422 不考虑类间关系;

423 卡方得分越高越好;
5 FS with Structured Features:常见的数据结构有时序,图,群,树等。流行的方法是最小化因结构正则化而受到惩罚的拟合误差

优点:1 提高学习效率,2 提高可解释性;

缺点:1 需要统一的标注规则,2 需要计算非凸优化,计算量大;
51 Group Structure – Group Lasso [Yuan and Lin, 2006]

511 该数据结构常用于脑功能,基因组的编码;

512 需要全选或全不选某个群;

513 以群的损失和惩罚为依据;
52 Sparse Group Lasso [Friedman et al, 2010]

521 用于挑选有代表性的群;

522 同时基于群和特征构建得分;

523 SGL得分越高越好;
53 Granger Causality Score [Granger, 2003]

531 用于计量时序数据,检测过去信息对现在的最小二乘方差;

532 检测前提是通过平稳检测和协整检测;

533 因果性得分越高越好;
54 Tree-Guided Group Lasso [Liu and Ye, 2010]

541 树状结构用于人脸识别,基因表达,部分词向量的编码;

542 子叶节点是单独特征,内部节点是群特征,

543 基于权重检测和每个子树的相关性;
55 Graph Lasso [Ye and Liu, 2012]

551 图结构用于同义反义词,基因的相互制约等场景的编码;

552 如果两个节点特征被连接,则这两个特征可能会被同时选择;

553 节点权重需要加惩罚项;
56 Graph-Guided Fused Lasso (GFLasso) [Kim and Xing, 2009]

561 Graph Lasso假设连接的特征具有相近特征系数,但是该系数可能为负;

562 GFL显示地构造正相关和负相关,两个相关项基于特征矩阵动态调整;

563 GFL得分越高越好;
6 Feature Selection with Heterogeneous Data:传统特征分析单一来源数据,这些数据通常满足独立同分布假设。异构数据来源广泛,比如互联网,物联网,天文观测,基因测序,人际网络等。该方法主要应对如何为关联信息建模,如何融合异构信息,如何在标签缺失的问题。

优点:适应多中来源数据;

缺点:不同来源的数据可能有噪声,甚至相互矛盾;
61 Feature Selection on Networks (FSNet) [Gu and Han, 2011]

611 使用线性分类器分别捕捉X和Y的关系;

612 使用Graph lasso建立不同来源X之间的关系;

613 以FSNet为目标方程获得权重矩阵;
62 Linked Feature Selection (LinkedFS) [Tang and Liu, 2012]

621 以社交网络行为:转发,共同关注,共同被关注,和关注来编码数据;

622 基于统制社交理论,假设这些行为的人具有相同兴趣;

623 以链接强度矩阵构建特征得分,越高越好;
633 Personalized Feature Selection [Li et al, 2017]

631 以社交网络行为的不同来构造特征,关注不同兴趣和相同内同的不同含义‘苹果降价了’;

632 通过鼓励群内特征竞争,抑制群间特征竞争来抑制过拟合;

633 目标方程考虑节点连接的方向,组内群内权重和群间权重;
64 Linked Unsupervised Feature Selection (LUFS) [Tang and Liu, 2012]

641 通过节点链接的权重,应对标注和特征定义不明的场景;

642 通过社交维度的散布矩阵,最大化组内相似性同时最小化组间相似性,相似性由RBF核定义;

643 目标:最小化Y的松弛谱同时对X各阶施加正则化项;
65 Robust Unsupervised on Networks (NetFS) [Li et al, 2016]

651 LUFS对网络构建和特征选择分开处理,NetFS将网络构建嵌入到特征选择中,对噪声链接有更好的鲁棒性;

652 构建潜在表达矩阵,对网络构建和特征选择形成互补;

653 使用Kmeans回溯NetFS和LUFS,前者对干扰的鲁棒性更好;
66 Feature Selection in Signed Networks (SignedFS) [Cheng et al, 2017]

661 上述方法分析了社交网络里正向的用户互动,SignedFS独立地添加负向互动到目标函数中,基于三个假设:1 正向互动的用户具有更高相似性,2 朋友的朋友是朋友,3 敌人的敌人是朋友。

662 同时嵌入正负项的潜在表示到特征选择中;

663 最终得到的特征在T检验下表现良好;
7 Multi-Source and Multi-View Feature Selection:前者选择不同的特征F,后者选择不同的X;

优点:不同来源数据互补,显著提升后续训练任务;

缺点:非凸优化计算量大,且涉及高位空间矩阵;
71 Multi-Source Feature Selection [Zhao and Liu, 2008]

711 基于不同来源的地理信息数据的邻接矩阵,构建总体样本;

722 对独立的数据源构建协方差矩阵来获得相关性;

733 可以通过协方差矩阵的对角矩阵对特征排序,也可以直接用PCA来提取该矩阵的特征;
72 Multi-View Unsupervised Feature Selection (MVFS) [Tang et al, 2013]

721 MVFS兼顾聚类结构,相似性和相关性:

722 对每个view考察其特征权重,同时考察该特征权重矩阵内部的稀疏性;

733 最后使用谱聚类寻找无效标签;
73 Multi-View Clustering and Feature Learning [Wang et al, 2013]

731 每个view的贡献需要区别对待,比如不同摄像头同一时间的数据;

732 同时对view内和view间的稀疏性以实现上述目标;

733 在该任务的稀疏矩阵的惩罚项上,l1比l2效果好;
8 Feature Selection with Streaming Data Instances and Features:主要挑战是数据流的大小和特征数量都未知,对实时性要求高,且难以批处理。特征流选择分两步:1 是否使用新特征,2 是否放弃老特征。

81 Grafting [Perkins and Theiler, 2003]

811 加入新特征时加入新的惩罚项,当loss的下降超过特征矩阵的权重时,目标方程减小,此时加入新特征;

812 如果新特征被加入,通过更新所有权重的共轭梯度下降来更新模型;

813 此时如果有些特征的权重被归零,删掉;
822 Unsupervised Streaming Feature Selection (USFS) [Li et al, 2015]

821 通过关联信息解决标注的缺失;

822 通过在线的特征子集的变化来确定新特征是否被加入;

823 得到的特征通常比较稳定;
83 Online Feature Selection (OFS) [Wang et al, 2014]

831 OFS基于线性分类器,每个特征的数据量设限不超过阈值;

832 如果新数据的特征预测错误,则执行特征权重的梯度下降,

833 在惩罚项下寻找已有的总体的新特征;
84 Feature Selection on Data Streams (FSDS) [Huang et al, 2015]

841 基于matrix sketching [Liberty 2013]获得低阶的特征矩阵;

842 权重更新使用MCFS

843 如果新的X正交,使用l2替换l1;
总结:

国际认证协会 International Certification Association,(英文缩写ICA)是经美国政府批准注册成立的国际性的专业组织(总部设在美国,世界各地设有若干个联络处)从事职业资格颁证机构,也是现今全球化规模庞大的国际评审及资格颁授机构。注册登记证号:9305377 自成立来,为了达到国际职业资格证书的全球化、标准化、系列化, ICA一直致力于推动、促进与职业紧密相关的教育和培训。
今日世界经济战略格局背后的实质就是各国人才数量和质量的角逐。一国要在激烈的竞争中取得优势,人才培养中的理念和内容都要有迅速和深刻的配合。在走向国际化的进程中,本土人才国际化、国际人才本土化都是关键,而我国目前具备国际化和本土化双重能力的人才严重短缺,国际化的人才培养和认证方案亟待出台。在联合国千年发展方针指导下,为贯彻《国家中长期人才发展规划纲要(2010-2020年)》,中国政府正积极引进国际优质教育资源,培养高素质国际化人才,以此来提升中国的国际影响力、竞争力、吸引力,更好地培养适应国内产业发展要求的知识型、发展型技能人才。
国际汉语教师协会(International Chinese Language Teachers Association) (简称ICA)是专业从事国际汉语教师培训、考核和外派的国际权威认证机构,ICA推出的“国际汉语教师职业资格证书”唯一得到156个WTO成员国相关部门的共同认可在国内经过中国外交部、国家人事部等认证认可;欧美,是唯一经过英国大使馆、美国大使馆等100多个国家的领事馆认证认可的国际汉语教师资格证书。

网络安全是确保信息的完整性、保密性和可用性的实践。它代表防御安全事故和从安全事故中恢复的能力。这些安全事故包括硬盘故障或断电,以及来自竞争对手的网络攻击等。后者包括脚本小子、黑客、有能力执行高级持续性威胁(APT)的犯罪团伙,以及其他可对企业构成严重威胁的人。业务连续性和灾难恢复能力对于网络安全(例如应用安全和狭义的网络安全)至关重要。

安全应该成为整个企业的首要考虑因素,且得到高级管理层的授权。我们如今生活的信息世界的脆弱性也需要强大的网络安全控制战略。管理人员应该明白,所有的系统都是按照一定的安全标准建立起来的,且员工都需要经过适当的培训。例如,所有代码都可能存在漏洞,其中一些漏洞还是关键的安全缺陷。毕竟,开发者也只是普通人而已难免出错。

安全培训

人往往是网络安全规划中最薄弱的环节。培训开发人员进行安全编码,培训 *** 作人员优先考虑强大的安全状况,培训最终用户识别网络钓鱼邮件和社会工程攻击——总而言之,网络安全始于意识。

然而,即便是有强大的网络安全控制措施,所有企业还是难逃遭遇某种网络攻击的威胁。攻击者总是利用最薄弱的环节,但是其实只要通过执行一些基本的安全任务——有时被称为“网络卫生”,很多攻击都是可以轻松防护的。外科医生不洗手决不允许进入手术室。同样地,企业也有责任执行维护网络安全的基本要求,例如保持强大的身份验证实践,以及不将敏感数据存储在可以公开访问的地方。

然而,一个好的网络安全战略需要的却不仅仅是这些基本实践。技术精湛的黑客可以规避大多数的防御措施和攻击面——对于大多数企业而言,攻击者入侵系统的方式或“向量”数正在不断扩张。例如,随着信息和现实世界的日益融合,犯罪分子和国家间谍组织正在威胁物理网络系统的ICA,如汽车、发电厂、医疗设备,甚至你的物联网冰箱。同样地,云计算的普及应用趋势,自带设备办公(BYOD)以及物联网(IoT)的蓬勃发展也带来了新的安全挑战。对于这些系统的安全防御工作变得尤为重要。

网络安全进一步复杂化的另一个突出表现是围绕消费者隐私的监管环境。遵守像欧盟《通用数据保护条例》(GDPR)这样严格的监管框架还要求赋予新的角色,以确保组织能够满足GDPR和其他法规对于隐私和安全的合规要求。

如此一来,对于网络安全专业人才的需求开始进一步增长,招聘经理们正在努力挑选合适的候选人来填补职位空缺。但是,对于目前这种供求失衡的现状就需要组织能够把重点放在风险最大的领域中。

网络安全类型

网络安全的范围非常广,但其核心领域主要如下所述,对于这些核心领域任何企业都需要予以高度的重视,将其考虑到自身的网络安全战略之中:

1关键基础设施

关键基础设施包括社会所依赖的物理网络系统,包括电网、净水系统、交通信号灯以及医院系统等。例如,发电厂联网后就会很容易遭受网络攻击。负责关键基础设施的组织的解决方案是执行尽职调查,以确保了解这些漏洞并对其进行防范。其他所有人也都应该对他们所依赖的关键基础设施,在遭遇网络攻击后会对他们自身造成的影响进行评估,然后制定应急计划。

2网络安全(狭义)

网络安全要求能够防范未经授权的入侵行为以及恶意的内部人员。确保网络安全通常需要权衡利弊。例如,访问控制(如额外登录)对于安全而言可能是必要的,但它同时也会降低生产力。

用于监控网络安全的工具会生成大量的数据,但是由于生成的数据量太多导致经常会忽略有效的告警。为了更好地管理网络安全监控,安全团队越来越多地使用机器学习来标记异常流量,并实时生成威胁警告。

3云安全

越来越多的企业将数据迁移到云中也会带来新的安全挑战。例如,2017年几乎每周都会报道由于云实例配置不当而导致的数据泄露事件。云服务提供商正在创建新的安全工具,以帮助企业用户能够更好地保护他们的数据,但是需要提醒大家的是:对于网络安全而言,迁移到云端并不是执行尽职调查的灵丹妙药。

4应用安全

应用程序安全(AppSec),尤其是Web应用程序安全已经成为最薄弱的攻击技术点,但很少有组织能够充分缓解所有的OWASP十大Web漏洞。应用程序安全应该从安全编码实践开始,并通过模糊和渗透测试来增强。

应用程序的快速开发和部署到云端使得DevOps作为一门新兴学科应运而生。DevOps团队通常将业务需求置于安全之上,考虑到威胁的扩散,这个关注点可能会发生变化。

5物联网(IoT)安全

物联网指的是各种关键和非关键的物理网络系统,例如家用电器、传感器、打印机以及安全摄像头等。物联网设备经常处于不安全的状态,且几乎不提供安全补丁,这样一来不仅会威胁到用户,还会威胁到互联网上的其他人,因为这些设备经常会被恶意行为者用来构建僵尸网络。这为家庭用户和社会带来了独特的安全挑战。

网络威胁类型

常见的网络威胁主要包括以下三类:

保密性攻击

很多网络攻击都是从窃取或复制目标的个人信息开始的,包括各种各样的犯罪攻击活动,如xyk欺诈、身份盗窃、或**比特币钱包。国家间谍也将保密性攻击作为其工作的重要部分,试图获取政治、军事或经济利益方面的机密信息。

完整性攻击

一般来说,完整性攻击是为了破坏、损坏、摧毁信息或系统,以及依赖这些信息或系统的人。完整性攻击可以是微妙的——小范围的篡改和破坏,也可以是灾难性的——大规模的对目标进行破坏。攻击者的范围可以从脚本小子到国家间谍组织。

可用性攻击

阻止目标访问数据是如今勒索软件和拒绝服务(DoS)攻击最常见的形式。勒索软件一般会加密目标设备的数据,并索要赎金进行解密。拒绝服务(DoS)攻击(通常以分布式拒绝服务攻击的形式)向目标发送大量的请求占用网络资源,使网络资源不可用。

这些攻击的实现方式:

1社会工程学

如果攻击者能够直接从人类身上找到入口,就不能大费周章地入侵计算机设备了。社会工程恶意软件通常用于传播勒索软件,是排名第一的攻击手段(而不是缓冲区溢出、配置错误或高级漏洞利用)。通过社会工程手段能够诱骗最终用户运行木马程序,这些程序通常来自他们信任的和经常访问的网站。持续的用户安全意识培训是对抗此类攻击的最佳措施。

2网络钓鱼攻击

有时候**别人密码最好的方法就是诱骗他们自己提供,这主要取决于网络钓鱼攻击的成功实践。即便是在安全方面训练有素的聪明用户也可能遭受网络钓鱼攻击。这就是双因素身份认证(2FA)成为最佳防护措施的原因——如果没有第二个因素(如硬件安全令牌或用户手机上的软件令牌认证程序),那么**到的密码对攻击者而言将毫无意义。

3未修复的软件

如果攻击者对你发起零日漏洞攻击,你可能很难去责怪企业,但是,如果企业没有安装补丁就好比其没有执行尽职调查。如果漏洞已经披露了几个月甚至几年的时间,而企业仍旧没有安装安全补丁程序,那么就难免会被指控疏忽。所以,记得补丁、补丁、补丁,重要的事说三遍!

4社交媒体威胁

“Catfishing”一词一般指在网络环境中对自己的情况有所隐瞒,通过精心编造一个优质的网络身份,目的是为了给他人留下深刻印象,尤其是为了吸引某人与其发展恋爱关系。不过,Catfishing可不只适用于约会场景。可信的“马甲”账户能够通过你的LinkedIn网络传播蠕虫。如果有人非常了解你的职业****,并发起与你工作有关的谈话,您会觉得奇怪吗正所谓“口风不严战舰沉”,希望无论是企业还是国家都应该加强重视社会媒体间谍活动。

5高级持续性威胁(APT)

其实国家间谍可不只存在于国家以及政府组织之间,企业中也存在此类攻击者。所以,如果有多个APT攻击在你的公司网络上玩起“捉迷藏”的游戏,请不要感到惊讶。如果贵公司从事的是对任何人或任何地区具有持久利益的业务,那么您就需要考虑自己公司的安全状况,以及如何应对复杂的APT攻击了。在科技领域,这种情况尤为显著,这个充斥着各种宝贵知识产权的行业一直令很多犯罪分子和国家间谍垂涎欲滴。

网络安全职业

执行强大的网络安全战略还需要有合适的人选。对于专业网络安全人员的需求从未像现在这样高过,包括C级管理人员和一线安全工程师。虽然公司对于数据保护意识的提升,安全部门***已经开始跻身C级管理层和董事会。现在,首席安全官(CSO)或首席信息安全官(CISO)已经成为任何正规组织都必须具备的核心管理职位。

此外,角色也变得更加专业化。通用安全分析师的时代正在走向衰落。如今,渗透测试人员可能会将重点放在应用程序安全、网络安全或是强化网络钓鱼用户的安全防范意识等方面。事件响应也开始普及全天制(724小时)。以下是安全团队中的一些基本角色:

1首席信息安全官/首席安全官

首席信息安全官是C级管理人员,负责监督一个组织的IT安全部门和其他相关人员的 *** 作行为。此外,首席信息安全官还负责指导和管理战略、运营以及预算,以确保组织的信息资产安全。

2安全分析师

安全分析师也被称为网络安全分析师、数据安全分析师、信息系统安全分析师或IT安全分析师。这一角色通常具有以下职责:

计划、实施和升级安全措施和控制措施;

保护数字文件和信息系统免受未经授权的访问、修改或破坏;

维护数据和监控安全访问;

执行内/外部安全审计;

管理网络、入侵检测和防护系统;分析安全违规行为以确定其实现原理及根本原因;

定义、实施和维护企业安全策略;

与外部厂商协调安全计划;

3安全架构师

一个好的信息安全架构师需要能够跨越业务和技术领域。虽然该角色在行业细节上会有所不同,但它也是一位高级职位,主要负责计划、分析、设计、配置、测试、实施、维护和支持组织的计算机和网络安全基础设施。这就需要安全架构师能够全面了解企业的业务,及其技术和信息需求。

4安全工程师

安全工程师的工作是保护公司资产免受威胁的第一线。这项工作需要具备强大的技术、组织和沟通能力。IT安全工程师是一个相对较新的职位,其重点在于IT基础设施中的质量控制。这包括设计、构建和防护可扩展的、安全和强大的系统;运营数据中心系统和网络;帮助组织了解先进的网络威胁;并帮助企业制定网络安全战略来保护这些网络。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/dianzi/12991792.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-29
下一篇 2023-05-29

发表评论

登录后才能评论

评论列表(0条)

保存