七牛云邵杰:视觉智能——视频云新时代

8 月 11 日,在以「AI+Cloud 赋能行业新未来」为主题的 NIUDAY 成都站中,七牛云人工智能实验室算法架构师,复旦大学博士邵杰为大家带来了关于「视觉智能——视频云新时代」的分享,帮助大家了解七牛云在 AI 方面的创新内容。

邵杰博士曾就职于公安部第三研究所并带领「搜神」团队,参加国际顶级的计算机视觉领域大赛 ImageNet、COCO 等,多次获得第一、第二名。他研发的人证合验闸机部署在新疆所有区县。




(图为七牛云人工智能实验室算法架构师邵杰博士)

本文是对分享内容的实录整理。



首先我们先来认识几个人。吉尔伯特是最早研究电磁现象的英国科学家。法拉第是真正的电磁专家,推动了电动机的发展和后面的工业革命甚至社会变革。其实真正让电力进入千家万户还有一个人,是贝尔德,他发明了电视机。有了电视机之后,千家万户都离不开电了。电力这个技术进入千家万户给我们带来巨大的变革,这与人工智能有什么关系呢?很多人可能听到斯坦福大学吴恩达教授有一个著名的论断就是人工智能就是新的电能。我很赞同他的说法,人工智能未来会充满生活每个角落,给我们带来巨大的变革。

七牛云最早做图片存储,后来还有 CDN、直播,把用户端采集的图像视频数据存储、管理、分发,整个我们叫做基础连接,都包括在里面了。这是前面一个阶段。后面一个阶段我们想做的是,有了数据管理后,通过智能技术知道里面的内容,理解里面的内容,让它产生更大的价值,这是 AI 对我们更大的意义。



视觉感知方式的巨大变化,左边的图是世界上第一台照相机,我想说照相机产生到现在已经将近 200 年的时间,人们感知世界的方式发生了一些变化。当然照相机有和没有之前有巨大的变化,之前人靠自己的大脑记录这个世界,看到什么东西可以大脑记录。有了照相机就可以拍照,再后来有了摄像机,这个根本上没有改变内容,还是记录下来,只不过有更好的记录方式,可以记录视频、可以电子化、可以存的更多更持久,但是要理解你这些多媒体数据的内容还是要靠人脑自己分析,自己识别、理解。

但是,最近这些年人工智能技术带来特别突出的变化,就是说现在的技术让我们在某些条件下可以让机器理解这个世界,这一点非常重要。国外媒体有一个论断,我们如果把人工智能技术大爆发归结于某个单一事件,就是 2012 年 ImageNet 竞赛冠军宣布那一刻,当年 Hinton 和 Alex 做出来的那套系统对计算机视觉方向产生了巨大的影响。直到现在我们用的很多技术都是在这个技术上的衍生和进化,这个技术后来又扩展到强化学习领域,给整个人工智能技术带来非常大的推动和变化。 


七牛云人工智能实验室创新体系



上图最下面有三块内容,构成我们的 AI Video OS。AI 视频操作系统有三块内容,分别是DORA、AVA、LEGO,七牛云最开始不但有存储还有图像处理,虽然是一些简单的编解码操作,但是正是因为简单的操作给我们带来了巨大的用户。很多用户有非常多的富媒体数据,自己存不现实,自己处理也不现实,当时我们就有 DORA 系统。现在我们扩展到智能多媒体 API,除了处理外还增加了识别和检索。因为 DORA 有非常好的扩展性和非常大的请求承载能力。AVA 是深度学习平台,是效率工具;LEGO 是富媒体知识库,让我们更好管理多媒体数据。

创新计划是针对高校学生和老师提出的创新计划。内容安全、城市大脑、智能媒资,下面我想展开说一下。 


内容安全


这是我们特别关注的领域,尤其是互联网上内容安全变得越来越重要。这里遇到几个比较多的就是色情内容、爆恐内容,以及敏感事件的内容,面向的群体可能是互联网上的,还有广电新媒体,是多媒体内容里的相关类别。所以这是我们特别关注的一个方向,我们在这个方向已经深耕了很长时间。



现在针对这个专门推出内容审核的产品,你可以一键快通,管理起来非常方便,而且最重要的是有可视化展示和操作界面。现在很多互联网的公司只要涉及大量的多媒体内容的话,都有自我审查的需求。建这么一个团队是很不容易的,不管你是建高标准、高效率的人工审核团队,以及积累技术对接到自己平台都是很复杂的事。我们把可视化界面做好后,大家看到上面包括整个内容,还有结果,客户可以确认是违规删掉还是正常,覆盖了我刚才说的三个方面,色情、爆恐和政治敏感。

这个产品也是符合七牛云的理念「简单可信赖」,客户可以一键开通、方便操作,后面有很复杂的算法,我们都封装起来。依托七牛云强大的云存储资源,对模型不断的迭代更新,审核内容一直保持业内领先。 


城市大脑


这是继互联网内容后又一重要的多媒体内容产生源头。最重要就是监控视频流,可以很清晰分析车、行人,现在的技术做到这个并不难。



上图是我们帮上海迪士尼度假区做的人流密度和人流走向的一个系统,是跟上海城市运营管理部门合作做的。可以实时监控迪士尼乐园出入口处人流的密度,达到他们设定的要求时就会做一些告警,通知管理人员进行疏导等等。





这是七牛云上海公司拍的,展示的人群光流,技术跟迪士尼类似,只不过这个看得更直观,可以实时对人流方向做预测,方便做管理和预警。



最后是帮上海城市管理部门做的智能交通,除了有前面的技术外,还有更多的展示和统计的结果。


智能媒资


原来广电行业,比如电视台积累了大量的视频多媒体数据。现在这些数据可能都是静静躺在那里,旧数据很难发挥价值,技术到现在这个阶段我们可以做一些事情。



这是一个视频,我们可以对视频里的内容进行分析,把里面出现的人,出现不同的目标,镜头做一下分隔,每一个场景等都识别出来。



除了识别各种场景和物体之外,其实特别重要的就是人的识别。针对人我们又专门做了一个系统。比如是这里是一个新闻内容,这里出现很多人物,我们系统对内容进行分析之后,可以把同一个人出现在视频里不同片断检索出来,根据相似度比对出来,这样可以方便的做一些查询,以及做进一步处理。




智能媒资还有很多应用,比如我们和上海一家知名企业世界杯期间做的交互娱乐的案例。足球比赛中系统会实时对画面进行分析,点球发生之前会做预测,左边是点球发生概率,快要发点球前数据发生变化。这样我可以把是否产生点球预测出来,然后跟观众做各种各样的互动就比较方便,比如说做一些竞猜等等。 


七牛云自主研发的 AI Video OS


下面是一些基础的识别,可以是场景、物体、人脸各种属性的识别,还可以通过视频、光流、时间序列,甚至语义、文字做各种特征的识别。有了这些基础的识别之后,在上面一层结构化平台,其实是更高层的语义理解,比如说对事件的描述以及精确分割、知识图谱。像点球预测我们做了世界知名球员的知识图谱,除了可以把人识别出来,相关的历史数据,以及原来在哪儿踢球等关系都列出来。最上层是智能应用层,是直接解决用户需求,比如说对视频进行分类,对内容进行审核、检索推荐等等。这四个部分构成了 AI Video OS。

DORA 现在媒体有上百亿的请求,场景识别等上面都有,客户可以直接用。AVA 深度学习平台是我们的效率工具,我们在七牛对象存储基础上,结合容器技术搭建的 AVA 深度学习平台,可以在上面方便部署运行调试你的模型,并且可以直接对接海量的云存储,快速迭代这个产品。



用户无感知情况下可以把七牛云存储功能当做用户目录访问,也不用关心速度问题。再往上是分布式技术和容器技术支撑,再往上图计算,也就是现在主流的深度学习平台框架,以及我们自己研发的 Data Flow 数据处理的操作,上面是应用层,可以做各种各样的数据模型,右边是整个的管理流程。



我把这个图单列出来,这对我们来说还蛮重要,AI 平台有一个视频标注系统,可以很方便在云端对视频进行每一帧标注,以及事件每一帧的标注都很清晰,而且是云端,操作人员有一台电脑就可以操作。有了 AVA 平台就可以做了一些事情,像去年 ACM MM 会议上我们参加一个视频分类竞赛,拿了第二名。

今年 CVPR 2018 我们参加了 ActivityNet 竞赛。ImageNet 竞赛一个重要的维度升级版就是视频,之前视频数据只有几万、十几万量级,真正达到百万量级视频竞赛就是今年我们做的 Moments in time,这是第一个百万级的视频分类数据集,很特殊只有 3 秒,而且类别很抽象,里面有一个类别 open,你去开门、打开一个盒子、开柜子,只要 open 都放到一类里,很抽象,对人来说有很多经验很容易,但是对机器识别很难,解决这个事情要多个维度,要从 RGB 视觉维度做,光流维度做,目标检测维度抽特征,甚至还要做序列上的。我们决定参加这个的时候竞赛已经快结束,大概花一周时间做了七个模型,不同维度做七个模型。因为我们有一个 AVA 平台,可以分布式高效处理视频,可以分布式计算,所以七天完成这个任务,最后做到 63.7% 的准确率,拿到第三名。这展现了 AVA 平台的强大能力。

接下来提一下 LEGO,它是富媒体知识库,可以做三件事情,视频结构化描述,另外的知识图谱,有了这些之后就可以做大规模的数据检索。



三个系统怎么结合在一起的?和用户交互的出入口是 DORA,用户数据和用户反馈都走这里,DORA 是百亿级请求的多媒体 API,LEGO 是底层的支撑,可以对整个多媒体做很好的结构化存储和检索。AVA 平台是效率工具,有了这些数据,用户有一些需求让我们在 AVA 平台上快速转成用户需要的模型,并且直接部署在 DORA 上面,DORA 就可以给用户直接提供服务。这三个形成一个闭环,我们叫做可自我进化的视频AI生态系统。



这张图是我们经常在各种科幻电影里看到的未来的样子。要实现这个场景,可能今天提到的很多技术必不可少,比如说它是一个很复杂很立体的交通系统,这里各种自动驾驶系统必不可少,这种情况一旦发生什么事故,对于应急处理和预警要求非常高,城市大脑里面能不能做到预警和识别,以及各种联动的处理。随着世界技术的发展,我们相信未来肯定城市会更安全,人们生活也会更美好。