AI鉴黄揭秘:大尺度开放直播平台及色情女主播天敌

雷锋网   2016-11-10 11:11

  鉴黄存在哪些难点?

  云从科技高级算法工程师周翔:

  实时视频影像分析大致通过三大方面进行鉴定:

  是否有人物(有:色情概率增加)

  人形轮廓的肤色比例(大:色情概率增加)

  姿态分析(性行为姿势:色情概率增加)

  人类对于色情的定义较为广泛,多种情况下对于色情的鉴定标准也会有不同。在这基础上其实对于黄色和非黄色图片的区分,有时候不是特别明显,很难判断。举个通俗的例子,赤裸上身的男子照片(属于肤色比例大),这种图片本质上属于非黄色图片,但很多时候,因为训练数据里有类似图片被判定为黄色图像,存在判错的问题。因此需要利用大量样本去不断地训练它,让机器不断纠正,学习更多特征避免这种“低级错误”。

  这也正是上面提到部分CV公司不涉入鉴黄业务的原因,因为一直需要大量样本去不断训练、纠正,工程量挺大。

  鉴黄的数据训练过程是什么样的?

  图普科技工程师:

  通俗讲,可以把深度学习理解为一个空白的大脑,海量数据就是灌输进来的经验。当我们把大量的色情、性感、正常的样本的属性告诉深度学习的引擎, 让引擎不断学习,然后把他们做对的进行奖励,做错的就惩罚,当然这些奖励和惩罚都是数学上的,最后空白的脑袋就会学成了一种连接的模型,这种模型就是为了鉴别色情与非色情而生的。

  综合上述内容,AI科技评论把人工智能鉴黄总结为以下几点:

  实时视频影像分析大致要从三个方向鉴定:是否有人物、人形轮廓的肤色比例、姿态分析。

  直播/视频和图片鉴黄区别不大,把动态视频解码为图片帧就与图片没差了。视频鉴黄不会对每一帧进行识别,一般是从固定时间段里抽取几帧进行识别。

  黄色的图片和视频帧最好达到十万的量级,深度学习才能跑起来。而训练小批量数据一般采用传统的特征分析加分类器算法来做,但效果和精度不如深度学习。

  屏蔽、删除或者禁播等方面的处理,主要是看业务方,可以选择由机器自动处理或者人工介入。

  最后,鉴黄的棘手之处主要是难以掌握色情和非色情的临界点,机器容易把正常图片(如男生上身半裸图片)误判为色情图片,因此需要大量的数据不断去训练和纠正,是个慢熬的苦差事,这也是部分CV公司不涉入鉴黄业务的一大原因。

新闻推荐

加载更多...
频道推荐
  • 每日475.52元!最高检公布最新侵犯公民人身
  • 广州一女子家被12台空调外机包围:白天热浪
  • 深圳千万豪宅两次遭水淹 积水深度超过20厘
  • 24小时新闻排行榜