请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

百度云是如何识别出色情电影的?

百度云里面大部分的XX影片都不能看了(不要问我是怎样知道的)百度云是如何识别出这类电影的。
回复

使用道具 举报

大神点评20

orinio 2018-12-5 09:37:07 显示全部楼层
这个只看重召回率(宁可错杀一万不要放过一个)的话,图像识别的技术已经可以做到不错了。根据每一帧里面的图像抽取特征,然后跑个分类器就好了。
Porn这种模式单一,重点突出,机位固定,然后人体各个部位pattern又那么明显,相信只要有足够的训练数据,并不是一个特别难的机器学习问题。
当然你硬要拍两个奥特曼高达穿着盔甲干啥啥,估计不太好识别= = 但是人观众也是为了简单的刺激,你硬搞这么深奥的想必市场不怎么样吧?
误杀一般都是加菲猫之类的....毕竟全身都是黄的。

具体百度网盘是怎么做的,我猜是机器学习+MD5识别。如果我来干这个的话,先按照经典的方法做一个模型出来,特征就是视频图像识别的特征+文件名文本特征+文件格式,大小等特征。模型拿个常见分类器就行了。
估计音频特征也可以,porn的音频特点也很明确(日语 or 英语那些词太明显了),一抓一个准。

继续丧心病狂的话就加视频特征。连续多帧里面人数量的变化啦(人数量相对固定,大都是一到两个,三四个也有,再多就不是那么常见了);人物移动的pattern啦(很少大范围的移动,而更多是小范围的往复运动);发生的场景啦(大都是室内小空间,并连续很多分钟都是一个场景啦,偶尔有一些外景)。

不过我觉得完全不需要这么复杂就可以做到很高的准确率了......

有模型之后,每隔一天或者几天,具体根据模型效率和机器的负载来决定,在网盘的图片和视频数据上跑一遍,把不该有的东西干掉,然后记录下MD5码。
这些MD5码就是黑名单了,往后每次用户新上传的时候就用这个MD5码做一次判断,不该有的就不让你传了。就是一次哈希查找,效率很快,根据百度网盘本身极速上传功能推断,百度已经有了很成熟的MD5操作的模块了。

这两个加起来就既满足了效果(靠机器学习模型每隔一段时间的精确判断),也满足了效率(MD5实时校验)。
所以呢,你们不要以为改了MD5码就可以逃得过去了,过一段时间人家重跑自动识别算法时还是会被干掉的...这种内容我党管的那么严,搞不好部门领导就要被喊去喝茶的,不可能不好好做的...


---------------------------------------闲扯的分割线--------------------------------


色情内容识别是一个很认真的研究领域好咩。不过...
干这个确实需要大量的训练数据。当年中科院计算所有一个组在做这方面的国家项目,黄色+反动内容识别。人家都是带着条子和公款去国外采购影片和轮子的东东回来做训练数据的......

我不懂事的时候有个女朋友花钱太厉害,逼的没办法去一家前著名论坛网站打零工做过类似项目,不过是自动识别黄色/反动的文本......
他们有积累了很久的人工识别的数据。招了不少人做类似鉴黄师的工作,三班倒每班连干八小时,拿一个简单的搜索引擎对用户发布的内容不停地用各种关键词搜,看到不该看的就删帖+搜集起来。然后这些人工识别的数据拿来给我们训练自动识别模型。

当时为了提高识别效果我被迫看了好多训练数据。。。。。。
我只能说......太刺激了....太暴力了....太有想象力了......
我原先只知道有黄色的,有反动的,没想到还有黄色+反动的........
你能想象拿四人帮做主角的XX小说么........看起来真是一种复杂的感受....类似比利时啤酒,无数种强烈风味的混合,造成了独特的饮用体验...

总之,这对于纯洁的我实在是太下流了....
一张白纸的我就这么被污染了...
再也回不去了......

喂,你们不要误会,我那个工作是做模型自动识别来着,不是人工看好么。。。
而且也只是那半年工作很小的一部分。。。大部分时间还是在给他们做站内搜索和开发公司自己的基础C++库来着。

人工谁要干啊,估计时薪只有十块钱,还要看那么多好恶心的东西...黄瓜茄子一看就会想呕怎么办......
回复

使用道具 举报

chaam 2018-12-5 09:37:22 显示全部楼层
没错,就是根据md5值,因为我改掉md5值之后还没有一部被温馨提示。
改完md5值后上传的视频不会温馨提示,具体方法看这个链接。
http://zhidao.baidu.com/link?url=jzCNVa5LT-DzxIIxn5wOZNLAXGze_vEGlVcAvIz9rqFObZ_9U2ZzT93fOCGQ_DqbiLvDvI60yoEYyvAcrQjwXVf_wuTzOK3LcZ3Rpn7hE83
直接把要修改的文件拖到下载的批处理文件上就行。

评论里有好多问各种问题的,其实我也是外行。
如果已经温馨提示了,那应该就没救了。我用软件打开看过,除了那8秒温馨提示,其他部分的二进制数据基本都是0了,也就是说真的没东西了(刚开始和谐的时候,温馨提示的文件里内容还在,现在真没了)。这个问题我觉得没法解决了,要是有办法大神可以教我。
修改md5值之后上传肯定不能秒传,目前我还没发现被和谐,以后不好说,但是应该不会太严重。
评论还有说转格式的、压缩文件,应该都是可以的,因为md5也变了;单纯改后缀应该不行。

貌似说了多余的话,被建议修改了。
所以求分享的你们别闹了,我这么纯洁,根本听不懂你们在说啥。。
回复

使用道具 举报

sx1vs7610 2018-12-5 09:37:29 显示全部楼层
如何识别色情内容是一个国际性知名问题,而且根据产品形态的不同有不同的变种。像百度云这种储存静态资源的算是问题的简单版本,毕竟可以对文件做翻来覆去的算法分析,实在不行人工复核下。
那问题的困难版本是啥?
直播
直播发车,猝不及防。且UGC(用户生产内容)比PGC(专业生产内容)的内容多样性高出不止两个维度,想要通过对视频内容提取特征来鉴别比较困难。更别说对实时性的要求,总不能直播都结束两小时了你模型才出结果说人家发车了吧,黄瓜菜都凉了。
那怎么办?
我在Facebook听说过一个邪路:点赞/评论比
正常来说一个直播,点赞数和评论数是正相关的,且大体成一个固定比例。好内容点赞和评论都多,差内容两者都少。
色情内容是一个特例,点赞/评论比异常的高。靠这个实时抓出色情直播,十拿九稳。

不过,为什么色情直播的点赞/评论比会超乎寻常得高呢?
可能对那时候看直播的人来说,单手点赞比双手打字要方便得多吧。
回复

使用道具 举报

毛利哥 2018-12-5 09:37:35 显示全部楼层
我来提一套可能的半自动方案,当然现实中是怎么运作的我就不清楚了。

--------------------------------------------------步骤1:数学筛选--------------------------------------------------------


首先把百度云上的视频采样分析。例如每个片子截取100张图片,然后自动分析图片内容。
值得注意的是,自动分析黄片内容不是不可能的,例如:
百度云是如何识别出色情电影的?-1.jpg
使用颜色特征分析来测量图片中皮肤的面积。。。然后确定是不是黄片。
我听说黄片中的人物一般都不穿衣服,所以整部片子中皮肤面积会占屏幕比重比较大,特征明显。
不过我是好孩子所以也不清楚到底是不是真的。
百度云是如何识别出色情电影的?-2.jpg

然后用一些算法进行评分处理。。

例如:
百度云是如何识别出色情电影的?-3.jpg

通过皮肤的位置和分布分析是不是黄片儿:
百度云是如何识别出色情电影的?-4.jpg


这些数学算法能把图片特征量化,通过这些量化的数据进一步分析做到黄片的筛选。



--------------------------------------------------步骤2:玄学筛选--------------------------------------------------------


光通过数据分析不可能做到完美筛选全部黄片,但是本着宁可错杀一千不能放过一部的原则,我们可以通过实践(改变通过的变量)肯定找到一个能筛选出所有黄片的算法。这个算法可能误杀大量正(绅)常(士)视频,但是也能排除绝大多数非黄片。

剩下来的糟粕可以进一步用机器学习来筛选。。
例如某同学的硕士毕业论文:
百度云是如何识别出色情电影的?-5.jpg


当然,也可以跳过第一步直接上第二部,如果计算能力和精确度都不是问题的话。


--------------------------------------------------步骤3:人工筛选--------------------------------------------------------

最后剩下的交给他审核一下。。。
百度云是如何识别出色情电影的?-6.jpg



------------------------------------------------步骤4:举报机制--------------------------------------------------------

人人都是小小鉴黄师
比如这类AV。。。
就需要各位小鉴黄师们的努力了。
百度云是如何识别出色情电影的?-7.jpg
回复

使用道具 举报

beijingrennr 2018-12-5 09:37:42 显示全部楼层
Md5是必杀技,但是对于百度这家广告公司来说,行为统计分析才是拿手好戏,下载量时间分布,在线播放快进频率,文件命名规则,跳转到网盘之前的搜索行为,再对接网友举报,av数据库,离线下载来源分析,根本就不需要人工审核,可疑概率小于一定值的百度直接放过。(乱猜的)
回复

使用道具 举报

yulong1 2018-12-5 09:37:52 显示全部楼层
在知乎回答不多,这个问题恰好涉及到最近处理大批网盘资源的问题,顺便讲讲。
作为男人,没看过几个AV,确实枉赴尘世一趟(被强帖了标签的哥们,请无视吧。。)

看过AV,难免就有要收藏的欲望,藏在硬盘?保密性、快捷性当然无话可说,随点随开,安全无忧,但毕竟真正用电脑点开看av的概率并不非常高,而手机内存又存不了几部av,那么相对来说网盘就恰好解决了这个问题,只要有wifi随时随地戴着耳机倾情观赏磨练。

较早的时候,百度云是不管你放什么资源的,即便是你分享av在外面的链接,也是不会删你的。
后来随着国家政策影响,严打一步步深入,百度开始利用自身技术发尽威风。
不得不说,百度云视频识别技术的确很牛。刚开始改个名,就能免和谐,后来流行什么种子洗白器,稍狠一点的时候在线观看是8秒和谐视频,下载下来还能看,其实那时候是百度云的一个暗示,被和谐的下一步,警惕性高的网友可能会将网盘下下来。
果不然,后来下载下来的视频也成了8秒和谐,这就代表网盘存储的av,已经彻底歇菜,表明百度云将服务器里的所有av视频源文件都给替换了,找回是不可能的,除非。。。除非李彦宏也是av热爱者,悄悄的备份了这些海量av。。。。咳,还是不要异想天开了。

--言归真正--

那么这时候怎么办呢?

av还是要看的,网盘还是要传的,如何避免和谐?

改md5?非长久之道,后续应该还是可以和谐。

我的应对之策是,将新的av用快速视频截取工具,批量截掉视频头尾的10秒钟(这些内容应该不会影响主要观感。。),如此方法,是防止百度云开发出类似音频文件的音频指纹技术出来,将av源文件的“指纹”跟改到md5的视频比对,进而和谐,这个技术开发出来理论上应该不难。 截掉视频的头尾片段,可以规避掉这个和谐手段。为了长治久安,避免全军覆没的惨剧重演,只有下这狠招了。

其次方法,打包压缩加密av,密码可以设置成一样数字加大小字母加特殊符号的,这是最保险的方法,百度云就算再牛逼的服务器,要破解这个文件,cpu全跑,也得8年以上。。。

还有略简单的保险手段,用万能文件分割器,将av作为普通文件分割成两个,再这两个文件上传到网盘里,由于无法识别出新的文件格式,在服务器里就像一堆垃圾它们不会动你的,也打不开(要合并分割的文件也用文件分割器合并)。

后面两个方法最保险但是也是最繁琐的,当然缺陷也很大,就是不能在线观看。 个人认为第一个方法是最好的。
================================================
以上是从思路上进行探讨,讨论视频云识别技术和为了改进该技术提出的对抗策略,而非讨论如何防止涉黄内容被查,纯技术讨论,纯技术。。。纯技。。。纯。。。大家看av还是要瞧瞧的看,一个人看,不要传播。
最后的告诫:小撸怡情,大撸伤身,强撸灰飞烟灭,各位,悠着点~


---------------------------------------------------------------


更新:以第一种解决方案在今年5月上传的视频,到目前为止依然正常,可点播可下载




----------------------
更新:时隔一年,截止2016.5.22,第一种方法依然可以在线播放。


-----------------------
更新:时隔一年半,截止2016.12.05,第一种方法依然可以在线播放!并且源源不断在上传新片,依然可以在线播放!
有人问截取工具,Gilisoft
就是这个软件,网上有系列号,很容易搜到,也有免系列号的版本,很容易下载,安装进去后点击简单截取,几秒钟即可无损截取视频! 不重新编码,速度非常块!
回复

使用道具 举报

smilehd 2018-12-5 09:38:32 显示全部楼层
呵呵,这个问题有意思,我稍稍研究了一下。
看了几个回答,有说是MD5检测的,有说是视频帧抽取,然后检测图片的,还有把怎么检测图片的算法说明的,什么皮肤比例多少,皮肤在什么位置。
百度现在对色情电影的识别不是什么皮肤面积,而是人工智能深度学习以后对影像和音频的识别。百度现在有现成的人工智能产品,百度云官网对怎么识别说的很清楚。(参考官网:
https://cloud.baidu.com/product/imagecensoring/antiporn
黄反识别:
https://cloud.baidu.com/doc/ANTIPORN/Antiporn-API/24.5C.E8.89.B2.E6.83.85.E8.AF.86.E5.88.AB.html
我说一下我的理解。色情内容识别是典型的人工智能应用场景,也是用途相当大的一块,核心是图像识别。
百度的图像识别,人脸识别技术在国际上都可以算一流水准。
在色情图片的识别上,它对图片的暴露程度和色情情况进行分类,基本上分为色情、性感、正常3个置信度分值。
如果是简单的什么皮肤面积识别,那么婴儿图片都是黄图,部位识别也不靠谱,维纳斯雕塑的照片和《自由引导人民》的油画被识别成色情图片就搞笑了。
百度的色情、性感、正常置信度是通过大量的图片训练,通过神经网络深度学习出来的
百度甚至把色情图片的内容分了类型。 男,女,SM,卡通,特殊,色情,一般色情,性玩具都有专门的分类,估计这是针对不同的内容,进行深度学习出来的。
百度的人工智能在色情图像识别中有优势,一是深度学习算法领先,百度以前自己搞过深度学习的函数,百度开源了的Warp-CTC的代码,可以把机器深度学习的运算量降低数倍,速度提升数倍,一样的算力,百度深度学习计算的效率更高,同样时间内审核的水平就更高。
二是算力的优势,百度硬件上早在数年前就搞了GPU异构计算的超级计算机,百度也是国内第一个搭建深度神经网络的。百度的超级计算机相当于两个天河一号,数据处理技术更是业界顶尖。
三是数据量和神经网络层数的优势,神经网络的感知机的隐含层层数多少,对最终的输出结果有决定性影响(层数多也有层数多的问题,还需要消除局部最优解,这个属于算法。)同时,深度学习学习的数据量越大,学习的效果越好,而百度是做搜索引擎的,掌握的数据本来就是海量。
综合下来,百度的人工智能做色情图片的识别准确率就很高,而且响应速度很快,是毫秒级响应。


至于色情视频,这个图像色情识别做基础,视频先解码再取里面的帧(应该不是全部帧)判别色情视频,只有截取的帧里面有色情内容,那么这个视频的色情鉴别的轻而易举了。


而且,百度的视频识别,还不止是截图,百度同时对音频分离,也进行检测。百度语音识别都到了同声传译的水平,检测视频里面几句“雅蠛碟”、”一库”,做个关键识别也好,深度学习样本判别色情相关的语音内容也好,都没有任何压力。


其他回答里面说到MD5码,这个应该也是有的,而且不止MD5码,百度有视频指纹,有黑库,而且这个库是动态的,人工智能深度学习识别出来的违规文件信息直接记录到数据库中,一次人工智能深度识别,之后这个文件就不用再算了。
大数据用上,违禁视频第一步就灭了,连解码所需的人工智能计算都省了,这样速度更快,更加节省计算资源,更省电。


百度人工智能识别违禁不仅是色情的问题,恐怖暴力,政治敏感,广告,违禁品都可以识别。原理相同,只是深度学习的内容不同罢了。


这个技术也是对外开放的,就是开头提到的那个网址,你可以上传图片或者网址当场验证,给你分类是正常还是色情,哪一类色情,非常准。


百度云的人工智能审核,其实用来检测文件有些大材小用,因为文件可以不以图片或者视频的方式放上去。百度云的这个检测,更适合信息流的违禁检测。
百度有全套的文本、图片、视频检测,而且对外出售服务,直接报价检测一张多少钱,检测一个视频多少钱,速度快,效果好,可以节约大量人工劳动。
最近很多短视频平台都出现了低俗、色情之类的内容问题,本质上考验的还是内容审核的能力。招募人工审核员确有必要,但其实机器审核的能力还远远没有充分释放。
扎克伯格前几天在国会听证上也再三提人工智能是未来内容审核的主力,但他认为要未来5-10年才能让AI比较有效地识别有害言论,这种预测放在中国可能就太保守了。近几年的速度,国内可能每半年技术、产品、行业格局都会洗牌。
回复

使用道具 举报

delverfeng 2018-12-5 09:38:37 显示全部楼层
快进次数和每次播放时长吧
回复

使用道具 举报

sinray 2018-12-5 09:39:22 显示全部楼层
我猜测是爬各大色情网站或种子网站里 porn 分类里 A 片的磁力链接,然后保存 hash 值到一个数据库。
回复

使用道具 举报

*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册