近一两年来,人工智能领域得到了媒体界、产业界和学术界等前所未有的关注,机器正在越来越多的取代人类特有的优势和技能,这其中最为重要的可能就是图像识别技术。本文将从图像识别技术的原理阐述出发,介绍这一技术在安防行业的具体应用,并且阐述其在当前安防应用上碰到的困难。当然,面对这些困难,图像识别技术将以此为契机,与安防技术实现更大范围的融合与发展。
图像识别技术与人工智能
说起图像识别,人类的这一能力非常突出。图形刺激作用于感觉器官,人们辨认出它是经验过的某一图形,甚至能感知到与图像距离或者形状的改变,这一过程叫做图像再认。在图像识别中,既要有当时进入感官的信息,也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程,才能实现对图像的再认。
计算机图像识别技术,则是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。图像识别所研究的问题,是如何用计算机代替人类去自动处理大量的物理信息,解决人类所无法识别或者识别过于耗费资源的问题,从而很大程度上解放人类的劳动力。
图像识别技术是人工智能的一个重要领域。图像识别技术是以图像的主要特征为基础的。每个图像都有它的特征,对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。
为了编制模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型。例如模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫模板。当前的刺激如果能与大脑中的模板相匹配,这个图像也就被识别了。但这种模型强调图像必须与脑中的模板完全符合才能加以识别,有一定的局限性。格式塔心理学家又据此提出了一个原型匹配模型。这种模型认为,在长时记忆中存储的并不是所要识别的无数个模板,而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型,拿它来检验所要识别的图像。如果能找到一个相似的原型,这个图像也就被识别了。但是,这种模型没有说明人是怎样对相似的刺 激进行辨别和加工的,它也难以在计算机程序中得到实现。因此又有人提出了一个更复杂的模型,即“泛魔”识别模型。
随着计算机技术及人工智能技术的发展,图像识别技术越来越成为人工智能的基础技术,它将是未来科技领域几大关键产业的核心技术之一。微软、谷歌、Facebook、亚马逊、百度、腾讯等巨头都在倾注大量资源推动这项功能进步。比如微软的图像识别应用“我看起来有多大”(How Old Do I Look?),成为网络上红极一时的话题。在去年举行的第六届ImageNet图像识别技术比赛中,微软凭借“图像识别的深度残差学习”(Deep Residual Learning for Image Recognition)系统获得第一名。科技公司如此热衷于图像识别技术的应用和创新,这种进步显然会大大方便互联网、传媒行业及科研领域的相关工作。