目前,图像识别已经成为主流,数以千计的公司和数以百万计的消费者正在使用这种技术。深度学习为图像识别提供了动力,尤其是卷积神经网络(CNN),它可以模拟视觉皮层如何分解和分析图像数据。CNN与神经网络图像识别是计算机视觉深度学习的核心内容,其应用领域包括电子商务、游戏、汽车、制造业和教育。
一、图像识别利用神经网络进行图像预测的建模。
在训练完图片之后,需要一个系统来处理这些图片,并用他们预测新的未知图像。本系统为人工神经网络。基于神经网络的图像识别算法几乎可以将任何内容分为文本、图像、音频文件和视频。
神经网络是相互连接的神经元或感知节点的集合。每一个神经元获得一份输入数据,通常为一张图片的像素,然后用一种叫做激活函数的运算产生结果。每一个神经元都有数字权影响其结果。
这些结果将被反馈给其它神经层,直到这个过程结束,神经网络为每一个输入或每一像素产生一个预测。多级感知器这一过程是针对大量的图像重复进行的,网络为每个神经元在反向传播过程中学习最合适的权重,从而提供精确的预测。通过对模型进行训练,对一组未参加训练的新图像(测试或验证集)进行了精度测试。经过一定的调整后,该模型可以用于实际图像的分类。
二、传统神经网络对图像识别的局限性。
常规的神经网络采用了完全连接的架构,如下所示:一层中的每一个神经元与下一层的所有神经元相连接。当处理图像数据时,完全连接的神经网络架构的效率非常低:
对有几百个像素、三个通道的普通图像,传统的神经网络将产生数百万个参数,从而导致过拟合。
这种模式需要大量的计算。
很难解释这些结果,调试和调整模型以改善其性能。
卷积神经网络及其在图像识别中的作用。
不同于完全联接的神经网络,卷积神经网络(CNN)中,一层中的神经元并不连接到下一层的所有神经元。与此相反,卷积神经网络采用三维结构,在这种结构中,每一组神经元分析图像的特定区域或“特征”。CNN通过对连接进行过滤(只对附近的像素进行分析),从而通过计算实现训练过程。
在CNN中,每一组神经元集中于图像的一部分。举例来说,在猫的图像中,一组神经元可以识别出头部,另一组可以识别身体,比如尾巴。在分割的几个阶段,神经网络图像识别算法会对一些小的图像进行分析,例如头部、猫的鼻子、胡须、耳朵等。最后的输出是一个概率向量,它根据图像中的每一个特征,预测它属于某一类的可能性。
三、图像识别卷积神经网络的有效性及局限性。
CNN体系结构使得利用行业基准数据来预测图像中的物体和面孔的可能性达到95%,而人类能力则达到94%。即使如此,卷积神经网络也有它的局限性:需要高处理能力。模型一般都是在带有专用的图形处理单元(GPU)的机器上训练。
如果图片旋转或倾斜,或者图像具有期望对象的特征,但是顺序或位置不正确,就可能失败,例如,鼻子和嘴张开的脸。一种新架构已经出现,它可以解决这个局限性。