序言
本文试图用通俗的语言详细介绍人工智能是如何完成对“黄图”的识别的。全篇没有复杂的公式计算和晦涩难懂的专业术语,适合初、中级专业技术人员和求知欲明显的读者。如果有兴趣分析人工智能的一些基本定义(神经网络、梯度下降、卷积和等。)文中提到,网上资料已经很多了,可以独立查看。(注:因为试镜是必须的,所以文中很可能包含了一些有限的图片。)
情色作为人的冲动最基本的反映之一,随着人类社会的发展趋势,已经以不同的方式呈现出来。互联网时代的到来,也为情色的表达带来了巨大的机会。有些文章说,互联网技术总流量的50%与色情有关。我无法确认这个数据的真实性和有效性,但读者可以在日常生活中独立感受。
今天自然不讨论情色产业链的合理化问题,只从技术角度致力于互联网技术中如何识别这类数据内容的科学研究。接下来我结合网易游戏网络信息安全单位的社会经验,来表达一下如何保障这件事。
黄建的历史时间
在电子计算机的“古代”,其实十几年前,识别黄图的方法简单直接:人工审核。不要小看这个方法。其实对于当时的网络空房(网络带宽小,商品少,图片资料少),实际效果还是很不错的。一天几万张图,分配几个人的眼睛看,发现有差图要手动删除。
之后互联网项目覆盖率高,互联网数据量猛增。一个商品一天有几百万张图片是很正常的。这个时候,依靠人力资源来审计基本上是不可能的。(再说说,有多少商品能支撑几十万审计人员的成本?).好在人工智能算法的相对技术性也有所发展。大家用肤色区分优化算法过滤掉一部分“浅黄”内容较少的图片,剩下的去人工审核,可以大大节省审核量。据调查,只有20%左右的图片在经过设备的肤色识别后,还要进行人工审核。
直到移动互联网普及,各类互联网数据量猛增,甚至有20%的数据无法由人工审核承担。再加上视频、直播间等业务流程和数据的爆炸式增长,我们迫切需要解决一个更合理的方案来应对审计问题。当然,大家都是跟着人工智能的技术潮流走,刚开始产品研发,成绩斐然。
人工智能黄色识别的基本原理
判断一张图片是不是黄图,从深度学习的角度来看,本质上是一个分类问题:给一张图片,让设备辨别是不是“黄图”。我们要做的是为产品开发一个“支持向量机”,它可以计算出键入的图片属于“黄图”类型的概率,然后根据这个概率值输出一个“是”或“否”的结果。众所周知,计算机擅长数学运算,所以我们要先把这个“支持向量机”抽象成某种数学分析模型,才有可能用计算机进行计算。
为了方便理解,我们将数学分析模型定义为:y=f(x)。也就是给定图片X,我们需要找到一个函数F,根据f(x)的计算,就可以得到这张图片的黄图概率Y。很简单!理论上,这个数学分析模型可以处理所有的分类问题。那么,这个看似简单的工作应该怎么做呢?让我们慢慢来,按以下过程:
第一步:获取定义。即使需要教装备分类,当然也要有既定的分类规范。如果没有规范,设备计算出来的值就没有意义。当然,我们先把漏点的图片归类到黄图,然后确定是男的露出下体,女的露出乳房或者下体的图片。但是多年的社会经验告诉我们,仅仅通过是否漏看来区分图片的类型是不够的。比如这张图:
[已经接近图片极限了,不能发表了。大家可以想象一张裸照XXOO但没有漏分的侧卧图]
(图1:
它没有任何缺失点,但很明显不能算是正常画面。(不考虑目前的政策调控因素,仅从科研角度来看,此图应归为黄图之一)。相反,没有必要所有漏点的图片都是黄图,例如图2:
(图2:独特但有效)
众所周知,意识到这只是定义工作的开始,在现实世界的数据形态和法律法规的控制下,必须对大量图片进行分类,如图3和图4:
(图三:在这里想象一个俗不可耐却从未错过的画面)
(图16:泳衣
根据上面的例子,为了让大家更好地理解,像“黄图”这样模糊的定义是不能满足具体情况的。我们必须将一个“二分类问题”转化为一个更复杂的“多分类问题”,并使定义和规范尽可能清晰。显然,这是一项巨大而复杂的任务。我们组建了专业的运营团队,对数据和法律法规进行科学研究,根据具体情况积累了大量的分类定义和规范。
第二步:收集样品板。有了定义之后,大家需要根据定义收集样本数据。幸运的是,我们在多年的前期审核工作中积累了大量的图片数据,其中有很多是通过人工审核确认来自黄图的,所以我们从中选取了一些图片作为训练数据。因为有这么多定义好的分类,我们别无选择,只能开发设计专业的分类标注系统,并额外成立人工阅卷精英团队,进一步筛选训练数据。训练数据的好坏对实际效果的伤害很大,一定要有耐心,提前投入训练数据的准备。这项工作需要大量的时间和人力成本,并且一直在进行。因为都是非法图片,为了更好的防止二次传播,我们不能按照ImageNet这样的众包平台来做。
第三步:训练实体模型。返回初始数学分析模型y=f(x)。训练实体模型的目的是为了更好的得到F。按照前面两步,我们得到了标记的样本图片集,将标记的结果定义为y*,图片定义为x,现在要想办法找到一个F,这个F可以集中样本的所有图片,测量得到的Y最接近y*,也就是|y-y*|值最低的F。我们可以将|y-y*|定义为损失函数。如何求一个函数的最小值,早已是数学领域中一个完美的优化算法。一般梯度下降法用于寻找合适的f。
虽然所有的图片数据在电脑上都是0和1的二进制数据,比如下图就是上图1的二进制形状的亮点。但是,立即计算0和1的数据是非常容易的,图像svm算法的高效性和准确性无法得到保证。
(图5:图片的二进制值
如何有效地获取表示图像X的特征数据是非常重要的一步。技术上叫svm算法。幸运的是,许多老生物学家已经做了大量的科学研究。近年来,基于深度神经网络的神经网络实体模型在各种图像识别技术竞赛中取得了开创性的进展。因此,我们采用了CNN(卷积和神经网络)、GoogLeNet和ResNet(残差网络)作为科学研究的基础。根据这个实体模型,我们可以更高效的将图片数据转换成可以计算的数学分析模型,从而更快更好的得到F。
在自然情况下,f是一个复杂的函数。为了更好的简化计算,我们把f拆分成fn(fn-1(fn-2(f…(f2(f0))…)。每个f可以称为神经网络的一层,n个f是n层。这种递进式的联想,就是以优化算法为名的“深层”的由来。理论上,我们可以构建任意深度(层次)的神经网络实体模型。在f被拆分后,我们可以通过向后的方法得到每一层的f。
以每个人的图像4为例,通过不同级别的F计算得到的结果如下图6所示:
(图6:
每一级的f很可能会得到很多特征结果,有些是实体模型匹配特征的响应(有些在匹配图上高亮显示),有些初始化失败(有些在图上灰黑色)。最后通过Sigmoid函数将个人成绩经过各级F计算后投影到0-1的中间,得到Y值。y越接近1,越有可能命中类型。说到多分类的问题,Y是多级数。理论上每一级都可以得到0-1之前的一个值。可以根据某种优化算法选择某一级别的Y作为结果输出(一般Y的值较大)。
第四步:认证。经过前面三步,大家都得到了f,(实际上是N层神经网络的主要参数,也就是说,朴素的“黄图”实体模型)。F数据的可视化结果如图7所示(以GoogLeNet为例)。图7显示了10幅224*224的RGB图像作为输入。在第二个卷积层的情况下,F的主要参数必须是64*3*64=36864。自然,这是估算一个相对简单的图例的数据量。特定情况下的类型化数据和互联网的深度一定远远超过图中所示。人们常说的优化算法的参数调整,是指这个f的几万甚至上百万个主要参数的调整。
(图7:神经网络结构模型
接下来大家一定要有一个经过认证的照片集来测试F的实际效果,因为F是根据训练集进行转换的,那么马上使用训练集并不能体现其在真实自然环境下的实际效果。感谢你的许多历史时间样本数据集,你专业地选择一些图片作为认证应用。根据自动化技术的一个测试平台,迭代更新的F被连续认证。精度达到更高级别后再升级发布。
人工智能黄色识别现状
经过不断的迭代更新,我们得到了越来越精确的F(实体模型),认证标准图谱的准确率在99.8%以上。所以,大家可以无忧无虑吗?可能不太好。
首先考虑一下现实世界的情况:虽然有各种各样的互联网项目,但黄图在商品中的比例通常很小,一般是百万分之一甚至十万分之一(无良色情商品在中国活不长)。假设10k图像中有一张是黄图,我们系统软件的准确率是99.9%,也就是1k图像会被判断为错误。那么,我们来计算一下假阳性率,即非法图像组合中所有正常样本的比例为:
也就是说,判断为黄图的11个结果中有10个是错误的!但是,客户不需要太担心。统计分析是一个误判的图像,大部分情况属于一些边界,实际应用效果会更好。
其次,深度神经网络的物理模型中会出现一些奇怪的行为,比如毕业论文中描述的情况([1]GoodFellow,IanJ.,黄邦贤·施伦斯,克里斯蒂安·塞格迪。“解释和利用先进的例子。”arxiv预印本arxiv:1412.6572(2014)。)(图8
(图8)
一张本来可以正确识别的熊猫宝宝图像,在加入了人眼基本无法分辨的细微变化后,居然以99.3%的置信度被识别为长臂猿。
神经网络结构有什么问题?不,这个实验是基于GoogLeNet,它获得了ILSVRC冠军。
训练数据有问题吗?不是,互联网是根据目前的大型物体识别分类数据集ImageNet进行训练的。
换句话说,对于一个卷积和神经网络来说,所有无法表达的正常图像误判都是常见的。即使是在具体应用或竞赛中取得令人满意的实际效果和优异成绩的优化算法,也会犯下人性“低下”的错误判断。
基于上述原因,在实际情况下,人们通常采用设备审核和人工审核的方法来确保双保险。
摘要
根据最简单的描述,说明网易云音乐安全(易盾)反垃圾邮件系统软件在识别黄图方面是勤勉有效的。但也提到了很多挑战,比如对人类灭绝的判断误判率低,对初始条件的图片识别准确性等。技术的发展是无止境的,网易云音乐安全(易盾)实验室的数据工程师一直在努力。目前,网易云音乐安全(易盾)已经面向公司市场销售。人们每天都会担心1亿条关于中国互联网技术的不良信息。除了色情内容的智能识别,网易云音乐安全(艺盾)还对外开放了包括广告过滤、恐怖袭击识别、谣言排查等内容安全,短信验证码、营销推广防挂等业务流程安全,应用加固,DDoS安全防护、SSL资质证书管理办法等网络信息安全服务项目。(文|网易云音乐安全CTO朱)据
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)