业务与内容安全的认知

业务与内容安全的认知,第1张

分享一下我对企业安全的一些认知。企业安全是一个特别大的概念,做好企业安全的最终目标是保障企业正常发展,而企业安全整个体系由不同的模块组成,任何一部分没有做好,都会影响企业的发展,这种影响可能是企业的营收利润,可能是是企业的声誉,甚至可能是企业的存亡。

经常接触甲方的几个部门:安全部门、运营部门、审核部门、开发部门等等。每个部门关注的点不同,网络安全的事情基本都由安全部门负责,市场营销策略效果保障的事情由运营部门负责,审核部门负责内容质量和内容违规的事情,开发部门会涉及到安全平台的统一开发建设。  各个部门的工作重要性,也与公司的业务有直接的关系,但是不管哪个部门的工作出问题,企业都会受到影响。

举个直观的例子,对于一个游戏公司来说,可能会遭受到DDOS攻击影响业务的稳定运行,可能会有数据泄露问题影响企业的声誉,可能会有内容违规的问题,会让整个游戏下架整改,最常见的还是外挂问题,直接的后果就是用户流失以及收入的损失。

比如出现各种黄赌毒的信息。19年的6月份,网信办针对语音进行严查,下架了一大批的应用。  在行业内主要的解决方案,将业务相关的文本、、视频、音频对接到机器审核平台,目前主要是第三方的服务商saas检测平台,或是企业自建的检测平台,主要用来提高效率和降低审核时间,同时结合人工审核来保障效果,降低漏判和误判率。

尤其在游戏APP上,在游戏破解方面,大家有兴趣的可以搜一下淘宝店铺,输入关键词游戏破解,会有非常多的店铺和游戏可以选择。游戏破解的除了去掉游戏里面正常的收费,还会增加一些比较变态的功能,比如加倍攻击等等来吸引玩家。有的店铺按照会员制度收费,月付150元,已经超过了很多原版游戏的单用户收入。对于原版游戏来说是非常致命的。对于这类问题的解决,拿移动段游戏来说,针对破解的问题可以采用加固的方式防止被逆向破解,外挂的问题可以通过游戏反外挂技术对模拟器、多开器、云真机、模拟点击等进行检查,并且结合运营手段,增强对外挂的威慑力,

18年末的时候星巴克做的一次新人注册送咖啡券活动。当时的用户验证做的比较简单,填写比较少的信息就可以拿到咖啡券,上线一天半的时间,被羊毛党刷走了差不多400W张券,按照中杯价格估值,大概要1000W人民币左右。  在羊毛党这个圈子中,分分钟几十万还是有可能的。 对于羊毛党的防护,以威胁情报库为支撑,比如手机号、IP、邮箱号这些信息的黑名单,再通过收集活动过程中的用户的相关信息进行数据分析和行为分析。  在这个黑灰产行业里,利益驱动力非常强大,对抗很激烈。

数据泄露的事情比较有意思的地方在于,基本上百分之60以上数据泄露,都有内鬼的原因。最近刚发生的某招聘网站泄露16W份简历信息就是内外勾结典型事件。    50元一份简历,被非法卖给商贩后,在淘宝上1-2元一份的价格卖出。所以数据防泄漏,不仅仅是使用一些数据防泄漏的产品就可以解决,还需要完善制度,注意权限划分,加强审计活动,对内部人员进行安全意识培训,增加法制意识。

DDoS攻击也算是最古老但是最有效的一种网络攻击方式了,得益于网络通信和互联网技术的发展,DDoS攻击愈演愈烈。 比如现在的物联网设备,很多都可以用来进行DDos攻击。 对于用户来说很难解决攻击源,只能被动防护。 在国内,现在动辄几十GB的攻击已经非常常见了。通常都是夹杂着流量和CC混合型攻击,本地化部署防护设备很难应对,大多采用云清洗的方式来解决。我们可以看到国内的很多安全厂商,从硬件开始转型到云服务,也是安全服务云化的一个趋势。

本次分享上,还是做一些聚焦,在这个UGC内容爆发增长,国家监管力度日渐增强的背景下,如何解决企业面临的内容安全问题。

内容治理现状。从三个角度来看,首先是监管角度几个特点:监管部门多、法规要求多、专项整治多。

监管部门包含有:网信办、原广电总局现在拆分为广播电视总局、国家新闻出版署、国家局,文化部、公安部、工信部。

各个监管部门的监管内容是各有侧重的,但是也会有重合的地方。  比如新闻出版署主要是新闻出本内容进行监管,广播电视总局对广播电视内容进行审核,比如各种网剧电视剧。

对于一个企业来讲,作为一个监管对象,会同时受到注册地的公安部门、网信办等多个部门的监管。监管的方式,一般是通过用户举报,以及专项检查活动来落实。尤其是用户举报是一个非常重要的渠道,比如说网信办,提供了一个中央网信办违法和不良信息举报中心,光是今年6月份,就受理了1170万件举报事件。监管机构不单自己建立举报平台,也会要求各大内容平台要建设有举报渠道,所以我们可以看到比如是各大视频网站都是有举报反馈入口的。

// 我们大家在今后的工作生活中,可以讲遇到的不良网站或内容,通过举报的方式提交给网信办。

监管的第二个特点,是法规要求比较多。有兴趣的可以查看下各个监管部门官方网站上的法规要求,目前已经非常详细;

这里想强调一下责任主体的问题,这里面主体一个是用户,一个是平台。

1、拿一个场景来举例,一个用户在内容平台发表了色情广告信息。用户这种行为是违法的,内容平台如果发布了这个内容也是违法的。客观来说应该对于两者都进行处罚,但是实际情况来看,对于用户追责成本非常之高,所以在各类的内容违规事件上,我们可以看到的大多是对平台的处理。

并且从2017年6月1日开始,正式实行了网络安全法,监管部门又多了一个法律依据。再拿一个场景举例:

一个恶意用户,通过网络攻击的方式篡改网站发布带有色情信息的内容,那运营平台不光是违反了内容发布的要求,同时根据网络安全法,运营方没有落实好信息系统保护的工作,将会依据网络安全法给与一定的处罚。

监管的第三个特点:治理活动多

以网信办的检查来说,从2018年12月份,到19年6月份,先后发起的内容治理活动就多大4次。

18年12月份进行的是针对APP的专项检测,主要是涉黄涉毒、违规游戏、不良学习等应用进行检查,下架了33W款应用

19月1月份,对教育类APP进行专项整治,查实了“作业狗”、“口袋老师”等20多款APP非法传播秽色情内容,进行下架处理

19年1月份-6月份,进行的为期半年的“全网整改行动”,

6月份进行了语音专项整治活动。

可以看出来国家对于建设绿色网络空间环境决心和力度。

即使是在这么强的监管力度之下,违规内容还是层出不穷的。

违规内容的特点:覆盖场景多、数据变种多、对抗性强。

(1)覆盖场景来说,已经到了无孔不入的地步。  新闻内容、用户评论、用户头像、昵称、看网剧d幕,没有任何一个有内容发表的场景可以躲得过违规内容的骚扰。

(2)在各种场景里,出现的违规数据种类和变种也非常之多。    从最初的文本敏感词,到现在的字体查分、特殊符号混淆、已经内嵌入违规内容等多种形式,最近一两年在语音方面有多了一个ASMR的内容类型会夹杂着很多色情内容。

(3)对抗性强体现在违规内容的发不上有一定的组织性和对抗性,以内容形式的变换和账号的变化来对抗检测或运营策略。这个部分会在后面的纵深防御体积建设的必要性进行详细说明。

那么在国家的强监管背景下,做好内容安全其实是一个比较困难的问题。 

对管理者来说,最终要看的一般包含两个指标:检测的效果,以及对业务的影响度。  这里面检测效果一般看正确率、召回率。业务的影响主要是看检测的用时,尽量不要影响用户体验。比如在IM聊天中检测,如果一条文本检测时间超过1s,就属于对用户体验造成严重影响。

那么要实现这些目标,从0到1自建检测系统,存在比较多的难点。

首先是成本的投入,最主要的的两种成本:人力成本和设备成本。    人力成本方面,在互联网招人成本还是很高的,光是一个成熟的算法专家,年薪一般要50W上下。而且整个体系需要的不仅是算法人员,还有相关的运营和审核人员。光是是在人力方面投入,就会需要百万的级别。  在设备方面,现在图像处理所需要用到的GPU节点是比较大的开销。比如一块英伟达的P40显卡,是在16年上市的,现在要5W左右一个,一个P40能够做的检测并发在30QPS左右。此外还需要有GPU节点来做模型训练。 也是比较高的开销

除了考虑成本,还有数据积累和审核经验的壁垒。拿训练来说,一个检测模型,需要的样本数据需要再几万甚至大几十万。没有一定的时间和渠道是做不到这种样本数据积累的。

另外审核人员的经验和审核流程及制度,也是效果的重要保障,人员的审核经验,决定了主观上的审核效果和审核效率,完善的流程和制度是对效果客观上的保障。  人员的经验要靠不断的学习和培训,流程和制度需要时间去制定和完善。都需要有一个过程。
接下来这我来介绍下建设检测团队和技术体系

首先是团队的建设,这里我拿公司的的团队来举例;

整个大的团队细分成几个小的团队,算法团队,系统开发团队,运营团队、人工审核团队;

核心技术由算法团队来实现,团队内又细分为不同的小组,比如做文本机器学期的小组,机器学习的小组;

系统开发团队负责业务平台的搭建;

运营团队负责直接和业务部门对接,明确检测标准需求,并实时的调整一些检测策略来进行效果调优;

审核团队人员最多,目前也是以轮班轮岗的工作模型完成全天候的审核工作。

制定检测标准,要考虑两个原则,一个是全面性原则,一个是可落地性原则。

从全面性来讲,需要考虑是两个需要主体,一个是国家,一个是运营平台。  对于国家来说,色情、暴恐、违禁品这些都属于违禁内容,会有相关的法律及法规条文明禁止出现的。这些标准基本上是所有内容平台要做到的检测。

对于运营平台来说,比如针对谩骂、灌水、竞品广告信息这些内容是不希望出现。

这里强调一个实时性,从要求提出到标准的落实,需要尽快完成,以减少检测的真空期。 

从可落地性来看,需要做到数据可收集,和模型可训练这两点。数据可收集是对于人来说,标准可以是描述性的,但是数据收集和打标签必须是细化的。例如,在色情分类下,对于“性行为”的检测要求,要求的文字本身是描述了性行为的范畴和概念,落实到数据打标签就需要更为细节,比如对漏臀进行,需要说明,根据拍摄的角度,是否有漏点,以及是否是儿童照片等因素,分到不同类别的说明。最终会被标记为色情、低俗、性感或是正常的照片。

制定标准之后,依据场景检测需要应用不同的标准。  性感在新闻内容中发布没有什么问题,但是在儿童教育IM中出现就不太正常了。

最重要的三个平台:

检测平台(服务的核心),预置了已经训练好的各类模型。

人工审核平台(效果及能力补充,提高效率),里面的功能包括数据的抽检、审核快捷 *** 作等功能。

模型训练平台(效果保障),主要有GPU集群组成,

业务系统与检测系统对接,对于文本和类的检测结果可以实时反馈。  需要人工审核部分的数据,由检测平台和审核平台对接,最终由审核平台将结果返回给业务系统。

机器训练平台,主要是基于各个渠道的badcase,进行模型训练调优,最终输入训练结果供检测平台使用。

这样这几个平台形成一个闭环,达到业务可快速接入,效果可持续调优的目标。

以上的三个部分,团队、标准、平台,形成了比较完善的检测系统。可以应对常规的内容检测需求。

但实际情况是,内容治理不光是对内容进行处理,还需要有一个纵深的检测防御体系。

客观事实表明:大多数的违规内容是非正常用户发布的,内容治理是企业和黑灰产的直接较量,只做内容检测手段过于单一,或落入疲于应对的局面。

为什么说内容治理是企业和黑灰产的直接较量,我们先来看一个黑灰产的业务流程:

从角色上看,有发单人,有业务分包,有内容平台。发单人有几种,比如各种黄赌毒的网站,为了吸引流量需要发布网站相关信息,也会有人处于恶意竞争的目的在同行业平台发布违规内容。发单人会找到业务分包的角色来实现违规内容发布,这个业务分包就会涉及到非常多的角色,有专门写自动化工具的人员,有倒卖账号的人员,有执行内容发布的平台比如各种群控平台。最终有发单人在各大平台进行灌水式的发布

现在的黑灰产是非常成熟的,各个环节分工不同,就如PPT所示,有专门的手机卡商,账号商人,打码平台,各种云控平台等等。

大家知道现在的手机卡都是实名制的。所以手机卡商是如何实现大批量申请卡的,有一种 *** 作方式,注册公司,就可以用公司的名义来申请到大批量的物联网卡。这些物联网卡没有语音功能,但是可以接发短信。就可以用来注册和登陆账号。  所以当你回拨一个注册号码的手机号,语音提示:你所拨打的号码未开通语音功能的时候,大概率就是一张物联网卡了。

这里面的利益驱动力非常之强,举个例子,一个新号价值几元,但是通过不定期发表正常内容等手段,所以的养好,最终可以价值几十元甚至百元。

在各大内容平台进行发布,现在的对抗尤其的激烈,比如微博举例,大家可以观察到,以往的色情账号会直接在各个热点时间下发表色情言论,比如色情网站,或者加。  这种比较容易被检测和封号,现在已经转变为账号头像会换成比较性感单不属于色情的,发表的内容多是正常的评论,但是个人主人都是色情引流的信息。以此来增强对抗性。

在这种强对抗的背景下,仅做内容检测手段过于单一,纵深防护是关键

内容治理,不仅仅在于发表内容的检测,还需要从源头进行整治。  需要建立一个纵身的的防御体系,从账号注册、到账号登陆,再到用户行为,最终再到发表内容,进行全方位的检测,才能达到更好的效果。也就是从内容检测延伸到用户行为检测,具有用户画像的能力,才能更好的对抗黑灰产的攻击。

在注册阶段,会有批量注册、虚假注册的问题,可以考虑用验证码、号码认证、实人认证来解决在登陆阶段,会有批量登陆,暴力破解的问题,可以用验证码和反作弊的技术手段。然后对发布行为和发布内容进行检测,比如对同一个账号在短时间内发表大量相似内容的行为进行处理。

这里提到的技术手段,拿验证码和反作弊简单说明一下

先手下验证码,主要用来做人机识别,目的是提高攻击者的攻击成本。早期的验证码比如字符型的验证码是非常容易被破解,破解主要使用的还是OCR的识别技术,很轻松就把中的字符识别出来目前大多采用的验证码,还是智能型验证码,是对用户的一些行为信息和设备信息进行分析来判断的。现在比较主流比如拼图滑动式的验证码,文字点选的验证码,增强了对抗能力。

反作弊这里会用到的技术,比如IP画像,会检测用户的IP地理位置,是不是代理IP等等,对设备环境的检测,会检测设备是不是模拟器,是否有root或者越狱,对用户行为的分析,根据各个维多之间的信息,通过规则设定正常的行为基线。一般多由于注册、登陆、和关键业务 *** 作的事件入口,比如发帖 *** 作。
以上为典型安全问题,已经重点在内容安全建设的一些分享。     ——卡卡橙汁,一名内容及业务安全从业者

千锋培训机构师资力量雄厚,老师认真负责,是一家靠谱的教育培训机构。
北京千锋互联科技有限公司(下面简称“千锋教育”),成立于2011年1月,立足于职业教育培训领域,公司现有教育培训、高校服务、企业服务三大业务板块。
教育培训业务分为大学生技能培训和职后技能培训;高校服务业务主要提供校企合作全解决方案与定制服务;企业服务业务主要为企业提供专业化综合服务。
公司总部位于北京,目前已在18个城市成立分公司,现有教研讲师团队300余人。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/13514726.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-23
下一篇 2023-08-23

发表评论

登录后才能评论

评论列表(0条)

保存