主页 > U北生活 >更人性化的电脑视觉系统 >


更人性化的电脑视觉系统

更人性化的電腦視覺系統

月黑风高的夜晚。水面波光粼粼。一只手拿着船桨滑着。连续三个不相干的镜头,却能让观众清楚知道:有一个人正在夜里滑着船。电影蒙太奇的手法将人类视觉认知的优势发挥到极致:除了辨识,还有辨识后透过联想、诠释,而后逐步拼凑出影像全貌的能力。而这样的能力,在现有多数电脑视觉系统中仍付之阙如。

生物图像辨识

关于人类视觉认知系统的理论主要有六种:「模板符合」(Template matching)、「特徵分析」(Feature analysis)、「原型符合」(Prototype matching)、「多重判别标度」(Multiple discrimination scaling)、「元件辨识理论」(Recognition by components theory)与「自下而上和自上而下处理」(Top-down and bottom-up processing)。某些理论其实或多或少受到电脑视觉的启发,而与一般影像辨识技术的开发原理不谋而合。

例如:「模板符合理论」认为当我们在学习,例如英文字母时,会记住符号的样式与意义,并将所接收的外界资讯与内部记忆中的样态比对,搜寻完全一模一样的图样,于是符号A是字母A、符号B是字母B。「特徵分析理论」则认为神经系统透过频繁接触以及分析视觉资讯中的特徵,以达到图像辨识的目的。然而在现实生活中,人类的视觉认知远不止此。

其一,我们的视觉认知十分灵活,即使只有有限的视角、只能看到物件的一小部分,仍能推断物体的全貌与种类,甚至能清楚知道所看到的是整体物件的哪一部位,不受观看(或拍照)角度、时间与光线的限制。这种能力部分归功于年幼时的「脉络学习」(contextual learning):曾经在不同的场景下,重複接触相同的目标物件,以及经常伴随目标物件出现的其他物件。

再者,现有多数电脑视觉系统皆有其特殊目的,所以儘管海关的人脸辨识、手机的指纹辨识或虹膜辨识技术纯熟且準确率高,但受限于编程与训练资料集,应用範围十分狭隘。

Viewlet

为了打破这些局限,加州大学洛杉矶分校的Samueli工程学院的团队打造了新的电脑视觉系统,其採用沉浸式学习法(immersive learning),让系统能有足够的发展空间,而不受训练方式与资料的侷限。新系统的运作可以大致区分为三部分:

研究共使用9,000张不同人物但包含其他物件入镜的图像对系统进行测试。这些图像主要来自网际网路,不仅物件的种类多样,还有由各个角度、多种环境下的画面,甚至那些模糊、倒置一般认为「拍坏了」的影像,让系统在无监督、没有外界指引的情况下,学习如何辨认人体各部位以及彼此间的相对位置,自行构筑出详尽的人体模型。

更人性化的电脑视觉系统

图二、彩色的点代表系统推估各viewlet在人体的相对位置。这样的相对位置不会因人的姿态或动作而改变。(来源:L. Chen et al., 2019.)

此外,研究团队也以摩托车、汽车和飞机的图像作测试,相较于已开发多年的传统电脑视觉系统,新系统的表现有过之而无不及:不论是模糊影像,抑或不同角度、不同部位的视角,大都能模拟出该部位在完整物件中的所在位置,并且準确识别图像类别,料将在电脑视觉领域引领一波新革命。

编译来源

UCLA Samueli Newsroom, ” New AI computer vision system mimics how humans visualize and identify objects “, UCLA Samueli School of Engineering, 2018.

参考资料

L. Chen, S. Singh, T. Kailath, and V. Roychowdhury, “Brain-inspired automated visual object discovery and detection “, PNAS, 2019.

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)

上一篇: 下一篇:

相关推荐