“未来技术”人工智能算力网络面世：多模态的最佳“伴行者”？

楼主

curton

1049 主题
4635 帖子
20277 积分

身份：LV8 高级工程师

E币：5696

发消息

 2019

 0

发表于 2021-10-1 08:42:43

显示全部楼层

多重因素下，多模态大模型已成大势所趋

随着AI的技术和产业发展逐步走向深入，多模态大模型的趋势十分明朗，这主要表现在三个方面：

首先，是AI自身的能力进化要求。

在单模态领域，例如归属NLP的跨语种翻译这类应用，机器可以说早已超越人类，实现了重要的技术和产业价值，如果要进一步往前走，多模态自然而然就成为AI技术和产业突围的新方向。与此同时，单模态本身也面临“知识冰山”的瓶颈问题，进一步智能化也需要大模型来支撑，例如对“老王去吃食堂”的理解，单纯的文字数据很难让AI辨别“吃食堂”不是把食堂吃掉而是“到食堂吃饭”，但一张场景图片或视频就可以很容易解释清楚并关联起来。

然后，是“数据”供给的要求。

数据是AI发展的根本、是AI的“食物”，在全球范围内，包括中国市场上，互联网的出现帮助AI模型训练的数据量越来越庞大，它们让AI得到了快速的能量补充。

然而，目前互联网音视频数据高速增长，占比超过80%，单一数据类型例如文本只占不多的比例，这使得更丰富的语音、图像、视频等数据并未被充分利用与学习，以多模态的方式将更深度、更广泛地挖掘这些数据的价值，反过来，大量的各种属性的数据投喂也将推动AI摆脱单模态，朝着多模态大模型不断前进。

最后，是产业需求的倒逼。

随着AI逐步落地，产业需求也在往深处走，更多场景应用需要多模态大模型来支撑，例如，跨模态检索、智能问答、文学艺术创作、视频配音、视频摘要等等。

可以说，越是在技术层面将图像、文字、语音相互融合，一个应用在场景中表现的价值就越为明显，也更能让AI的场景应用真正告别常常被诟病的“鸡肋”感。

转自：https://www.robot-china.com/news/202109/30/67561.html

写原创有奖励！2025面包板原创奖励正在进行中

 举报



 

  1