如果你经常看人工智能相关的文章,相信对“计算机视觉”一词并不陌生。
作为人工智能的一项关键能力,计算机视觉总是和人工智能相伴出现。计算机视觉技术目前已有很多应用。
比如你手机相册里的分类功能。手机根据相机拍摄的人物、物体、场景帮你分门别类。
正如我们用眼睛和大脑来感知世界,计算机视觉的目标之一,就是通过机器以类似的方式来“观察”和处理图像。计算机可以通过多种渠道“看到”我们无法感知到的世界。
计算机视觉并不简单
HBO 电视剧《硅谷》中曾出现过一个“不是热狗”(Not Hot Dog)的应用。剧中主角们打造了一个人工智能应用,该应用只能识别热狗,其他的食物都被简单粗暴地鉴定为“不是热狗”。
这个应用场景说明,构建一个真正实用的分类器绝非易事。
电视剧之外,片方还真的开发了这样一个 App。“不是热狗”应用的创作者表示,尽管他只花了一个周末,用一台配备一颗 GPU 的笔记本电脑就完成应用的开发,但却花了大量时间去打磨用户界面,又花了数周来改善应用的整体准确性。
通过机器学习实现对象识别的计算机视觉,本质上是训练模型以便对图像中的对象进行识别和分类,实现起来并不简单。
它需要成千上万的图像作为训练数据,开发人员也需要花费大量时间、精力和耐心去训练模型。 “不是热狗”应用表明,虽然计算机视觉技术具有巨大的潜力,但充分的训练数据对于实现这一目标至关重要。
计算机视觉也会出错
就像一个正在学习香蕉和方块之间区别的小孩子一样,经过大量数据训练的分类器仍然会犯错误。
辨别不同物体是图像分类器的基本能力。我们来看人工智能公司 Clarifai 的分类器如何识别图像。它取得了惊人的准确率:区分吉娃娃和松饼的准确率高达 95.8%。
但在识别图像中其他种类物品时,却表现不佳。 比如,在识别鸭子时,它不仅没有识别出鸭子,还把鸭子周围的水域识别为汽车!
同样的,当测试人员向微软的 CaptionBot AI 展示张牙舞爪的虫子图片时,它竟然将它识别为一只狗。
识别出错在一定程度上是数据量的问题。分类器拥有的训练数据越多,识别的准确率就越高。所以,如果我们给这些分类器提供更多的鸭子和虫子图片,理论上它们应该能够更好地正确识别图像。
我们不得不承认,一个显而易见的事实是:计算机视觉和人类视觉不是一回事。
来源:Qualcomm中国
两分钟,了解人工智能、机器学习和深度学习的区别
补充一下
机器视觉(Machine Vision),计算机视觉(Computer Vision) ,还有图像处理的 区别。
机器视觉和计算机视觉都算是人工智能下的科目,
我们普遍说到机器视觉时,会偏重与自动化生产/控制相关的,涉及到激光,摄像头获得的图像信号,工业应用偏多。
而计算机视觉对图像信号本身更为关注,比如各种医疗图像分析...
一个偏重应用。一个是基础性研究。
然后我还看到这样的解释,希望对有同样疑惑的你有帮助。
图像过程大致包括图像采集、图像特征提取、图像数据分析。图像处理主要偏向于图像在采集完了以后进行的一系列降噪、傅里叶、小波等算法的处理,偏向于图像特征提取以及特征数据处理、分析,重点在过程及算法。
计算机视觉和机器视觉架构基本一样,都用工业相机搭建的,带有自己的图像处理器,工作平台。只不过细分的话,计算机视觉是基于高性能电脑的,一般处理图像很大,数据量很大,需要用多核高速计算;机器视觉处理的图像不大,用一般的DSP、ARM芯片或者FPGA就能搞定的。要按整个图像过程说的话,计算机视觉偏重于采集后的图像特征提取阶段;机器视觉偏向于图像采集阶段,也可以进行低数据流的处理;图像处理基本上可以涵盖所有阶段,但偏重于其中的算法研究。(via:muchong.com /weigo1987)