内容审核逻辑｜从入门到被门槛绊倒_软件运维

文章开始之前，给大家两条建议：

“ 儿童送养 ”这个话题在大多平台都是极为罕见的，但知乎最近就因此爆发了一场危及平台声誉的危机。

内容审核就是这样一种职业，违法违规信息覆盖范围极广，新的违规信息层出不穷。无论你多么有经验、无论审核系统多么先进，只要发生问题，看起来都是很基础甚至很愚蠢的问题。

知乎这样一个有很强的技术实力和内容审核经验的平台，也会在这个问题上摔跟头，并且可以预料的是，不知道在多久的以后，知乎一定还会发生一次又一次因为存在违规内容带来的危机事件，这事情无可避免。有人说，对于内容审核人员来说这是从入门到被门槛绊倒，一点都不夸张。

读完这篇文章，你可以详细了解 文字类内容审核的逻辑 ，还会了解一些 图片和短视频审核的技术 ，足以补充一个运营或产品在这方面的知识储备了。

在不同公司，对审核类职位的划分标准不同，比如有 内容安全审核、内容推荐审核、内容质量审核 等类似职位。虽然在侧重点和具体 *** 作上有所不同，但有许多逻辑都是共通的。为了避免文章过于复杂，我们在这里侧重最常见的 内容安全审核 。

不管是什么内容的审核，都应该包含以下 四个基础模块 ：机器审核、人工审核、用户投诉审核、结果复审。

机器审核 ，是按照制定好的规则或机器学习算法对内容进行审核，通常，成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除，难以判断是否有问题的会被标注，进入人工审核程序。

人工审核 ，虽然用户投诉审核和结果复审大多时候也是人工审核，但这里所说的人工审核，特指审核机器无法判别的内容，通常占平台内容数量的比例不超过5%，但对于一些大型的内容平台，绝对数量已经很多了。在内容爆炸的时代，我们看到许多平台在全国都有多个审核中心，每个审核中心的员工数量都成千甚至上万。

用户投诉审核 ，是前两者的弥补，有很多违规内容以前没有出现过，所以不在规则可以过滤的范围内，或者非常隐蔽，规则难以严格过滤。用户的投诉是发现新问题的重要渠道。通过知乎的危机事件，我们更应该重视对投诉的审核，并及时据此对机器审核做出补充。

结果复审 ，通常采取抽查方式，比如通过复审机器删除的内容，看规则或算法是否过于严格；比如通过查看人工删除和通过的内容，看员工的工作是否按要求执行；比如通过内容的整体巡查，看是否存在新的问题未被注意到。

在文字类内容平台，比如知乎、、豆瓣以及各类论坛网站，机器审核主要是基于关键词过滤的逻辑，逻辑比较简单，但也没有想象的那么简单。

一篇文章发布到平台后，需要至少经历以下环节：

词语过滤的环节，关键词主要分为三类：

禁止关键词 ，只要匹配到这个词，内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词，比如明确的色情、邪教以及广告的专属关键词。

审核关键词 ，这是最常见的关键词种类，只要匹配到就会自动进入后台进行审核，文章中的关键词会被高亮并罗列出来，有助于审核人员快速判断。审核关键词也应该尽量是专属关键词，以防止太多内容被拦截到后台。

替换关键词 ，在许多平台，我们会在文中看到莫名的号或字母缩写 *，这可能不是文章作者写的，而是这个词被系统自动替换。平台不希望出现这个关键词，但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语，都有可能被自动替换。

当然，管理员在添加关键词时，很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤，比如在关键词内加一个空格，系统就难以匹配到。

所以，一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字，x 是忽略的字节数。在Discuz!网站后台有明确说明，如 "a{1}s{2}s"(不含引号) 可以过滤 " ass" 也可过滤 " axsxs " 和 " axsxxs " 等等。对于中文字符，若使用 GBK、Big-5 版本，每个中文字符相当于 2 个字节；若使用 UTF-8 版本，每个中文字符相当于 3 个字节。

另外，关键词还可以支持 正则表达式 ，来匹配具有一定模式的关键词，比如" /1\d{10}([^\d]+|$)/ "（不包括引号）用来匹配手机号码。正则表达式的内容过多，大家有兴趣可以搜索学习一下。

以上讲述的，主要是文字类内容的审核和规则，逻辑简单，但应用最为广泛。近年随着短视频类产品的兴起，内容审核的逻辑需要更加深层的技术支持。

技术上的东西，对大多人来说如同天书，而且也没有必要深入了解。我们挑选几个容易理解的点，来窥探几分内容审核背后的技术。

OCR（文本识别技术） ，主要用来识别图片中存在的文字。许多违规内容，包括联系方式、色情信息、广告信息等为了规避审核，都会以图片的方式呈现。

人脸识别技术 ，通常用来识别政治、宗教类人物，识别到后可以直接删除或者进行风险标记。

语音识别技术， 语音识别的应用场景比较多，但在内容审核领域仍然不是刚需，所以使用的较少。但也有些直播或音频平台比较重视音频对比、声纹识别技术，可以轻易识别到一些固定模式的违法违规声音。

视频识别≈图片识别 ，视频是画面与音频组成的以帧为单位的画面，通常采取截帧上传与服务器数据对比来识别。审核模式和图片审核相同，比如通过画面皮肤裸露状态来判断是否过于性感、是否是色情内容。

上下文语义识别技术 ，这种技术用来判断一句话是否能跟上下文结合，是否是一段垃圾文本。比如说，在评论区随便输入一串奇怪的文本，如果系统认为和上下文不相关，就有理由将内容放入审核区。

技术是很酷，用好了可以大量减少我们的工作，但内容审核技术的实施是一件很难一劳永逸的事情，其中的尺度和参数都需要人来不断维护，而且人工审核仍然是非常有必要的，并且需要的人工可能越来越多。内容审核技术的应用，仍然任重道远。

1.替代关键词不能太简单

我曾经在一款APP上看管理类文章，整篇文章多处说到给员工定绩效要遵循“ ART原则”，我迟疑了好几秒才明白，原来是" SMART原则**"。

SM这个词只有两个字母，无论是作为禁止、审核还是替换关键词都不合适，都容易拦截或替换大量不应该处理的内容，一般的方法很难处理。

这时候，我们可以总结一下模式，如果sm这两个字母前面是英文字母，或者后面是英文字母，一般来说就是另一个英文单词，就不会有问题。我们就可以用正则表达式把这一规则写出来，再设置审核或替换就会好很多。

2.审核时间与用户体验的权衡

去知乎和微博搜一下“审核”，被抱怨最多的问题就是 审核时间长 。用户提交内容到内容审核通过，这期间心情会剧烈波动，如果用户等了一两天时间，最后内容被莫名其妙地拒绝，而且不给任何明确的拒绝理由，用户的心情就会由期待变为焦虑，进而变成愤怒，这就是B站被up主抱怨最多的地方。

我们可以从以下角度优化用户体验：

3.理解内容审核的保守倾向

越是体量很大的平台，内容审核越是有保守倾向，这不只是因为盘子大了更加在意风险管理，还有一些现实的原因。内容数量太多，平台就不得不采用规则和算法去审核，这些规则和算法需要最终做出决策，就难免拿着标准一刀切，即使这把刀很小也会有误伤，这种标准对很多内容就显得过于严格。

比如 皮肤裸露面积 达到多少会有问题、裸露哪些位置会有问题，无论标准多么的细化，都会存在误判，被误判的内容比例可能很小，但绝对数量很大。据说很多图片和视频中如果存在 加菲猫 ，都会被过滤掉，因为它黄色面积太大而且和人的皮肤很像。

在被审核的用户看来这些标准有点保守，有点不近人情，甚至可笑。平台的管理人员也知道问题，但他们很难做到很细致，为了快速把违规的内容剔除，只能牺牲掉一部分人的用户体验，毕竟违规内容一旦出现，对平台来说就是大问题。所以说，内容审核技术的应用还非常任重道远。

以上的内容，对于一个运营或产品工作者来说，已经足够了。但如果你真的需要对一款产品的内容审核规范负责，就需要去学习更多知识，需要有更加专业的精神和更谨慎的态度，未来还会有无数难以预料的坎坷等着你。

审计程序是围绕着审计目标设计的，审计目标是审计程序的宗旨。审计程序是通过收集审计证据来实现的，审计证据是审计程序的基础。管理当局认定为，存在或发生，完整性，权利与义务估价与分摊表达与披露。审计目标可以以管理当局认定为基础开展工作

审计证据是为审计目标服务的，而审计程序又依赖于需要满足特定审计目标的审计证据的性质与数量。因此审计程序的计划与执行在本质上也应该服从于审计目标，审计程序和审计目标并不需要一一对应，有时一项审计程序可以满足多项审计目标，而有时为了满足一个特定的审计目标，也许需要一系列的审计程序。

与各类交易和事项相关的审计目标

1、发生：由发生认定推导的审计目标是已记录的交易是真实的。例如，如果没有发生销售交易，但在销售日记账中记录了一笔销售，则违反了该目标。

发生认定所要解决的问题是管理层是否把那些不曾发生的项目记入财务报表，它主要与财务报表组成要素的高估有关。

2、完整性：由完整性认定推导的审计目标是已发生的交易确实已经记录。例如，如果发生了销售交易，但没有在销售日记账和总账中记录，则违反了该目标。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12207899.html

内容审核逻辑｜从入门到被门槛绊倒

发表评论

评论列表（0条）