对话邵杰:关于计算机视觉,正在悄然发生的一场大变革……

本期话题:
近年来计算机视觉快速发展,同时也带给了我们一系列的疑问,到底计算机视觉和自然语言处理技术有何差异,现在是否是深度学习一统天下的时代,未来计算机视觉将在哪些领域爆发,如何才能进一步提高自己的技术水平等。为此,我们特地邀请到计算机视觉的专家——邵杰做客 NewTech 观察圈,和我们一起聊聊计算机视觉的相关问题,以下是相关对话的内容整理。


邵杰
七牛云人工智能实验室算法架构师
复旦大学博士,在深度学习和计算机视觉领域有超过 5 年研究经验。曾在公安部第三研究任算法研究员,创建并带领「搜神」团队,参加 ImageNet、COCO 等国际评测并数次取得第一、第二名。研究领域包括图像目标检测识别、视频理解、人脸识别等。

计算机视觉是什么?

Q
邵杰,我知道你曾经在公安部第三研究所任算法研究员。刚好最近有部公安剧特别火,叫《白夜追凶》。其中有个片段我印象特别深刻,就是男主在某一个案件的侦破过程中,通过犯罪现场的一个脚印,就判断出了嫌疑人的身高、体重、进出犯罪现场的方式等等犯罪细节,看得我是特别激动,也很崇拜。那么以后,通过计算机视觉是否也可以到达这一步?

虽然长期在公安部工作,可是刑事侦查方面我完全是外行,但我们可以大概猜测一下,为什么脚印可以反映出那么多的信息。

首先脚长和身高是有相对固定的比例范围,根据脚长可以推测身高。另外结合脚印深浅程度再结合地面材质或许可以推测体重。进出现场的方式可能需要根据脚印的方向,甚至脚的哪一侧先着地等细微变化来判断。

如果是上面这样一个推理过程的话,中间环节计算机视觉技术能发挥作用的,比如对脚印做准确的尺寸估计,而尺寸如何反映到嫌疑人的各种信息,则需要刑事侦查专家积累大量的经验和知识。但是从更广的机器学习技术的角度讲,普通人或者专家通过大量实践经验积累而获得的技能,都有可能让计算机学习并掌握,甚至比人做的更好。

Q
我们知道,人们日常接触到的信息主要是文本、图片、视频、音频等。在人工智能领域,是将它们分成视觉信息、语言信息两个类别。而计算机视觉和自然语言处理正是分别对这两类信息进行处理的技术。在本质上,这两个技术的差异大么?怎么理解这两个技术?

计算机视觉是研究如何使机器「看」的,或者说是用计算机代替人眼对目标进行识别、跟踪和测量等等,当然也可以拓展到突破人眼物理极限的一些任务,比如红外线图像。自然语言处理是研究如何让计算机懂人的语言。这两个都是人工智能研究的重要领域。技术方面有差异,毕竟面向的问题不同,但也有不少共通的技术,比如目前主流的技术都是基于统计机器学习的大框架。

另外从「人」的角度看,视觉和自然语言有着密切的联系,结合这两个方向是很自然的选择。举个例子,人可以理解他看到的图像,是因为他大脑中建立了很多物体概念以及物体之间的关系,不是单单靠眼睛看,而概念和关系都需要用自然语言组织和表达。计算机视觉和自然语言处理已经有很多结合的案例,相信以后会越来越多。

计算机视觉的发展是大势所趋!

Q
邵杰,我们发现计算机视觉快速发展其实就是在近几年,要不给我们分析一下发生这一现象的原因吧?

计算机视觉的正式诞生应该追溯到 1966 年,MIT AI lab 的 Summer Vision Project,当时有教授让学生用一个暑假的时间解决计算机视觉问题。后来的情况我们都知道了,直到 50 多年后的今天,我们也仅仅可以说,部分计算机视觉的问题解决达到了可用的程度。

而近几年的快速发展得益于海量数据获取、计算能力提升,以及在这两点推动下,深度学习技术的发展。

Q
其实近年来深度学习的发展,不仅对计算机视觉的发展起了很大的作用,也对很多其它的技术都起了促进作用。那么反过来,现在是深度学习一统天下的时代吗,计算机视觉技术的多样性是不是受到了限制?

说说我个人的理解。很多人对深度学习的理解就是深层神经网络,其实深度学习技术发展到现在,更多地是一种方法论,区别于传统的基于手工设计特征的技术,采用端到端、层次化的模型,让计算机自主学习的一种框架。深层神经网络恰好是目前最方便实现这些特性的一种模型。

从这个意义上讲,深度学习技术是开放的,也不会限制计算机视觉技术的多样性。

计算机视觉会变成什么样?

Q
我知道前不久,由你带队的三人组,在大规模视频分类挑战赛 LSVC 中斩获全球第二名的好成绩,而这个比赛隶属多媒体领域的顶级学术会议 ACM Multimedia 旗下。素有国际「计算机视觉奥林匹克」之称的 ImageNet 挑战赛今年已是最后一期,我是不是可以理解在计算机视觉领域,静态图片的分类、物体检测等技术日趋成熟。接下来,学术界的研究热点会是视频内容分析领域?

ImageNet 挑战赛对于推动近年来人工智能技术的大爆发起到了极其重要的作用,现在它完成了历史使命,完美落幕,同时静态图片的分类、物体检测等技术日趋成熟,落地应用上呈爆发趋势。

针对本次挑战赛任务的复杂情况,我们团队为海量视频数据设计的流式数据处理系统(Elastic Streaming Sequential Data Processing System)及七牛云存储系统提供了重要支撑。ESSP 系统基于微服务搭建,充分考虑了视频分析处理中空间和时序特征的存取需求,系统支持任务自动调度,多节点机器学习组件自动并行,主节点和工作节点均采用 Kubernetes 进行容器管理,可以灵活地进行服务部署、维护及扩展。

除此之外,我们团队还研究了一种紧凑高效的视频帧特征表示方法,利用该方法可以减小模型规模、并极大地提升模型训练速度。最终取得了 87.05% 的准确率。

LSVC 使用的数据集是在复旦-哥伦比亚视频数据集(FCVID)基础上扩充而来,它包含来自 YouTube 和 Flicker 的超过 8000 小时的视频,标注为 500 种分类。包括社交事件、动作、物体、场景等多种类型。最终测试集为 78,000 多个视频。

但是任何数据集都有其局限性,而视频内容分析领域,正如你所说,是学术界新的研究热点,目前算法仍不尽人意,需要研究人员继续深入探索。

Q
那么,计算机资源会是影响未来计算机视觉发展的一个重要因素吗?

会。

大家都注意到,在这波人工智能浪潮中,企业成为创新的中坚力量,一个重要原因正是企业拥有更多的计算资源。另外,计算资源的影响不仅仅是指服务器端,各种移动端设备上的计算资源,也是影响计算机视觉技术发展和落地的重要因素。

Q
现在计算机视觉应用比较火的场景主要是,人脸识别、车牌识别、物体识别等,那么接下来,计算机视觉在哪些领域可能会爆发,会对人们的生活创造巨大的价值呢?

近期来看计算机视觉的应用落地还有一些约束条件。

公共安全领域仍然是计算机视觉技术应用最迫切的场景,中长期看,结合了计算机视觉和激光雷达等技术的自动驾驶技术终将获得突破,极大地影响人们的出行及生活模式。

如何入门计算机视觉?

Q
这两年人工智能越来越火,人工智能相关的活动差不多都是场场爆满。平常,逛知乎等平台时我也发现,其实很多人都对计算机视觉识别有很大的兴趣,包括已经在这个领域的小伙伴们也会十分好奇。那么作为福利,您看您是否可以从过来人的角度给大家一些建议,如何才能成为向您一样的大牛?

我想对于想进入这个领域的新人而言,最重要的要保持一份好奇心,静心打好基础,不断地学习和实践。

毕竟目前大学里这方面的系统课程还很匮乏。推荐书的话,周志华老师的西瓜书《机器学习》和 Bengio 的花书《Deep learning》都值得认真研读,吴恩达教授的在线课程也是很好的学习资源。切记对于基础知识的学习,始终磨刀不误砍柴工。

当然还有一个捷径就是加入七牛人工智能实验室,这里有发表国际顶级会议的大牛,也有参加视觉评测的好手,更有工程经验丰富的开发人员,最重要的是可以在参与项目的实践中快速成长。真诚地欢迎大家。