640.gif
如果你经常看人工智能相关的文章,相信对“计算机视觉”一词并不陌生。

作为人工智能的一项关键能力,计算机视觉总是和人工智能相伴出现。计算机视觉技术目前已有很多应用。

比如你手机相册里的分类功能。手机根据相机拍摄的人物、物体、场景帮你分门别类。

正如我们用眼睛和大脑来感知世界,计算机视觉的目标之一,就是通过机器以类似的方式来“观察”和处理图像。计算机可以通过多种渠道“看到”我们无法感知到的世界。

计算机视觉并不简单

HBO 电视剧《硅谷》中曾出现过一个“不是热狗”(Not Hot Dog)的应用。剧中主角们打造了一个人工智能应用,该应用只能识别热狗,其他的食物都被简单粗暴地鉴定为“不是热狗”。

这个应用场景说明,构建一个真正实用的分类器绝非易事。

电视剧之外,片方还真的开发了这样一个 App。“不是热狗”应用的创作者表示,尽管他只花了一个周末,用一台配备一颗 GPU 的笔记本电脑就完成应用的开发,但却花了大量时间去打磨用户界面,又花了数周来改善应用的整体准确性。

通过机器学习实现对象识别的计算机视觉,本质上是训练模型以便对图像中的对象进行识别和分类,实现起来并不简单。
640.gif
它需要成千上万的图像作为训练数据,开发人员也需要花费大量时间、精力和耐心去训练模型。 “不是热狗”应用表明,虽然计算机视觉技术具有巨大的潜力,但充分的训练数据对于实现这一目标至关重要。

计算机视觉也会出错

就像一个正在学习香蕉和方块之间区别的小孩子一样,经过大量数据训练的分类器仍然会犯错误。
640.gif
辨别不同物体是图像分类器的基本能力。我们来看人工智能公司 Clarifai 的分类器如何识别图像。它取得了惊人的准确率:区分吉娃娃和松饼的准确率高达 95.8%。

但在识别图像中其他种类物品时,却表现不佳。 比如,在识别鸭子时,它不仅没有识别出鸭子,还把鸭子周围的水域识别为汽车!

同样的,当测试人员向微软的 CaptionBot AI 展示张牙舞爪的虫子图片时,它竟然将它识别为一只狗。

识别出错在一定程度上是数据量的问题。分类器拥有的训练数据越多,识别的准确率就越高。所以,如果我们给这些分类器提供更多的鸭子和虫子图片,理论上它们应该能够更好地正确识别图像。

我们不得不承认,一个显而易见的事实是:计算机视觉和人类视觉不是一回事。
640.gif
来源:Qualcomm中国


两分钟,了解人工智能、机器学习和深度学习的区别