tag 标签: 大模型

相关博文
  • 热度 4
    2024-4-15 16:16
    522 次阅读|
    0 个评论
    科技云报道原创。 当所有人都沉浸在与ChatGPT对话的乐趣中,一场静水流深的变革已然启动。 2023年11月,比尔·盖茨发表了一篇文章,他表示,AI Agent将是大模型之后的下一个平台,不仅改变每个人与计算机互动的方式,还将在五年内彻底改变我们的生活。 如果说大模型是未来水电煤一般的基础设施,那么Agent则是未来用户接触、使用AI的方式。 AI Agent不再满足于仅仅作为“聊天对象”的角色,而是渴望成为能在真实世界里挥洒自如的“智能执行者”。 数据显示,过去两年间,针对AI Agent的研究投入增长幅度高达300%。大模型市场的玩家们,似乎正齐刷刷地转向AI Agent。 在国内,截止去年11月中旬,AI Agent赛道发生融资事件13起,总融资金额约735亿人民币,公司融资均值为56.54亿人民币。 在国外,据外媒MattSchlicht数据显示,至少有100个项目正致力于将AI代理商业化,近10万名开发人员正在构建自主Agent。 毫无疑问,AI Agent正在成为大模型之后下一个爆发点。 值得探讨的是,作为一种巨大的技术变革,AI Agent将如何改变我们的生活?国内外AI Agent的发展现状如何?AI Agent落地的关键点是什么? AI Agent:自主执行任务的“小助手” 去年4月份,斯坦福和谷歌的研究者共同创建了一个“西部世界小镇(Westworldsimulation)”。在这个小镇里,25个AI Agent每天都在乐此不疲地散步、约会、聊天、用餐以及分享当天的新闻。 在这个实验中,AI Agent(智能体)在执行任务和互动上表现出了令人惊艳的自主性和智能性,由此引发了业界的高度关注。 事实上,这并不是AI Agent第一次出圈,其概念从出现到爆发,已经迈过多个阶段。 在单一Agent阶段,主要是针对不同领域和场景的特定任务,开发和部署专门的智能体。以GPTengineer为例,给它一个需求,其就可以把代码写个大概。 在多Agent合作阶段,是由不同角色的Agent自动合作完成复杂的任务。 例如在MetaGPT上,如果让其做一个股票分析的工具,它会把这个任务分别翻译给产品经理、架构师、项目经理等5个角色,模拟整个的软件开发中所有决策工作流。 不过,随着微软全新工具AutoGen的发布,AI Agent很快翻开了新的篇章。 AutoGen允许多个LLM智能体通过聊天来解决任务。LLM智能体可以扮演各种角色,如程序员、设计师,或者是各种角色的组合,对话过程就把任务解决了。 与MetaGPT不同的是,MetaGPT的角色模型是被定义好的,而AutoGen可以让开发者自己定义Agent,还可以让他们相互对话。 这是一个新的且富有创造性的Agent框架。在AutoGen发布的两个星期内,星标量从390狂增到10K,并在Discord上吸引了5000多名成员。 如果说AutoGPT拉开了自主智能体(Autonomous Agent)的帷幕,那么前文提到的“西部世界小镇”则开启了生成智能体(Generative Agent)之路。 生成智能体就像美剧《西部世界》中的人形机器人或《失控玩家》中的智能NPC,它们在同一环境中生活,拥有自己的记忆和目标,不仅与人类交往,还会与其他机器人互动。 总的来说,AI Agent是一个能够自主行动、执行任务的“小助手”,能够针对目标独立思考并做出行动,会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,为自己创建prompt以实现目标。 比如,让AI Agent买一杯咖啡,它会首先拆解如何才能为你购买一杯咖啡并拟定代用某APP下单以及支付等若干步骤,然后按照这些步骤调用APP选择外卖,再调用支付程序下单支付,过程无需人类去指定每一步操作。 而目前基于LLM的ChatGPT给出的反馈,只能止于“无法购买咖啡,它只是一个文字AI助手”之类的回答。 这也就不难理解,为什么AI Agent会是大模型的下一个高地——大模型聚焦于处理语言相关的任务,它并不直接与现实世界互动,而AI Agent强调解决实际问题的能力和与环境交互的全面性。 AI Agent加速落地 事实上,大模型还没有出现之前,一些企业就已在研究传统AI与Agent的结合应用。因此,AI Agent在各领域的落地比大家预想得要快很多。 目前,海外已经在零售、房地产、旅游、客户服务、人力资源、金融、制造业等多个领域出现AI Agent架构与产品,例如: 在医疗领域,Agent可以帮助诊断、治疗和监测患者。IBM Watson Health 是一个AI智能体,可以分析医疗数据,以识别潜在的健康问题并推荐治疗方案。 在金融领域,Agent可以分析财务数据、检测欺诈行为并提出投资建议。嘉信理财(Charles Schwab)使用名为Intelligent Portfolio的人工智能智能体,根据客户的投资目标创建和管理投资组合。 在零售业务场景中,Agent可以提供个性化推荐,改善供应链管理,增强客户体验。亚马逊的Alexa是一个AI智能体,可以推荐产品、下订单和跟踪发货。 在制造业,Agent可以优化生产流程,预测维护需求,提高产品质量。通用电气使用名为Predix的AI智能体实时监控机器,以预测和防止设备故障。 在运输领域,自主AI Agent可以协助路线规划、交通管理和车辆安全。特斯拉的Autopilot有助于自动驾驶车辆,并帮助驾驶员停车、变道和安全驾驶。 不仅如此,在底层技术方面,AI Agent也打下了不错的基础。 例如,OpenAI开发的GPTs,以及推出的GPT-4Turbo和可定制AI Agent,提供了基础Agent的构建能力,如工具调用、基于知识库文件记忆能力等,使得AI Agent进入了另外一个新阶段,即人人都可以打造自己的Agent。 但总的来说,AI Agent技术还处于比较早期的阶段,主要在两个类型的场景中更容易落地: 一类是具有交互性质的场景。 例如,智能机器人和问答式交互,这与AI Agent的迭代性质天生匹配。在这种情境下,对于一些简单的任务,比如购买火车票或解决企业内部IT服务的问题,任务型机器人的应用效果较好,并且相对容易维护。 另一类是线性执行任务的场景。 例如,一家支付公司要求用户在开户时提交身份证明,在这种场景下,前台是单向的,但后台可以利用AI Agent执行,相较于原有的流水线,AI Agnet更为高效。 AI Agent落地挑战 尽量理想很美好,但当前市场上的大多数AI Agent,其实只是构建了一个基于特定知识库或专业数据的Chatbot。这些智能体主要用于进行问答交互,如获取行业资讯、报告等,在程序联动和操作方面还有很大的提升空间。 在一些更复杂的场景中,现有的AI Agent技术只能做到辅助,无法完全实现自动执行。 这背后的原因有很多,包括技术能力、商业化路径、应用场景等,都会影响Agent的能力体现。 首当其冲的,依然是技术问题。 LLM作为AI Agent的认知核心,其智能性在很大程度上决定了AI Agent感知环境、做出决策并执行适当行动的能力。但就目前而言,包括GPT-4在内的所有大模型,能力仍需提升。 同时,AI Agent继承了LLM的一些问题,比如“幻觉”、“可解释性”等问题。此外,对于底层基础模块的质量和性能,包括调用图像识别等模型,也会直接影响到上层建筑的性能。 此外,Agnet各个模块之间的交互和运行可能会产生许多中间结果和状态,这也带来了一些技术挑战。例如,处理中间结果的鲁棒性是一个问题,下层模块的性能和质量会直接影响上层模块的执行。 其次,AI Agent的落地效果也受限于应用场景。 例如,在出行预订中,得益于丰富的API等问题,AI Agent表现出色。而在如法律助手场景中,由于新知识的频繁出现和API的不完善,实际应用面临更多挑战。 这一点,从国内AI Agent纷纷生长于协同办公平台就可见一斑。 由于协同办公平台本身具备良好的API接口和插件体系,这使得将大模型集成到现有工具中变得更加容易。 同时,许多企业都在使用协同办公软件,这意味着广泛的用户基础可以加速大模型的迭代和优化过程,使其更好地满足用户需求。 最后,找到切入点以及好的商业模式至关重要。 AI Agent爆发的一段时间,人们普遍认为补齐了大模型短板的AI Agent更具备实用性,将是大模型重要落地方向。 但就目前而言,这一路径的商业化存在诸多问题。拿游戏场景而言,目前收费主要来源于出售游戏装备、皮肤等方式,而AI Agent的价值无法体现在这些固有的变现途径上。 由于AI Agent落地效果未出现颠覆性的能力,C端用户是否会为其买单无法得知,能否成为AI大模型从C端商业化爆发一个最核心应用方向,还需时间验证。 相对来说,B端可能更适合AI Agent的落地。在Agent构建平台上,企业或将可以自己构建自己RPA、CRM、办公OA等一系列管理软件;软件厂商也可以基于此平台构建软件为企业提供服务。 但这仍需要成本控制、投入预算、实现效率、安全管控等多方面严格及缜密的评估。 结语 无论存在多少质疑,时至今日,AI Agent依然带来了诸多想象力。技术发展之路本就充满质疑与批判,科技变革对于任何一个企业与个体都是一场机遇,关键在于如何把握它。 【关于科技云报道】 专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
  • 热度 3
    2024-4-12 15:30
    320 次阅读|
    0 个评论
    科技云报道原创。 春节期间,OpenAI的最新技术成果——文生视频模型Sora惊艳登场,令海内外的AI从业者、投资人彻夜难眠。 Sora大模型可以让用户仅通过输入一个句子,就可以生成与好莱坞画面相媲美的视频,且长度最多可达1分钟,让人深感震撼。 对于这颗“深水炸弹”,众说纷纭。 Open AI自称Sora是“世界模拟器”。有网友惊呼“现实不存在了”。马斯克直言:人类认赌服输。美国科技博主马克斯·布朗利表示,Sora或将拉响影视行业失业警报。 毋庸置疑,Sora极具破坏性创新的潜力,必将重塑现有的产业格局如短视频、广告、游戏、影视行业等。 从二级市场的表现来看,工具类公司Adobe,在Sora公布后的次日股价暴跌超7%;美国图片工具供应商Shutterstock跌超5%;几周前发布了“文生视频”工具Lumiere的谷歌母公司股价下跌1.58%。 三家公司一天内就合计蒸发近480亿美元(约合人民币3500亿元)的市值。 随着Sora的震撼面世,失业、裁员、洗牌等词汇的热点居高不下,但也有行业迎来了“泼天的富贵”。 OpenAI创始人兼CEO Sam Altman发帖表示,OpenAI认为“世界需要更多的AI基础设施,包括晶圆制造能力、能源、数据中心等,而人们目前计划建设得不够。” 他补充说,“建设大规模的AI基础设施和一个具有韧性的供应链对经济竞争力至关重要”,而OpenAI将努力提供帮助。 对此,英伟达创始人黄仁勋回应道:看好全球AI数据中心在未来4-5年里将翻番,增长到2 万亿美元的规模。在此期间,更高效、更低成本的芯片会持续出现,大规模投资变得不那么必要。 正所谓有人欢喜有人愁,在Sora这类生成式AI技术的推动下,AI基础设施迎来了“高光时刻”。 Sora推动AI算力需求猛增 根据OpenAI发表的论文显示,Sora大模型延续了此前GPT模型“源数据-Transformer-Diffusion-涌现”的技术路径。 这意味着其发展成熟同样需要海量数据+大规模参数+大算力作为基座,且由于视频训练所需数据量远大于文本训练的数据量,预计Sora大模型将进一步拉大算力缺口。 根据DiT模型创立者谢赛宁博士粗略测算,Sora模型的参数规模大约为30亿。 根据对可训练数据量的研究成果,海外大型视频网站每分钟大约上传500小时视频内容。由此测算训练Sora模型需要约7.09万张H100一个月的训练量。 在推理侧,根据相关研究测算生成一张图的算力消耗约为256个词的消耗。由此推算生成一个1分钟时长短视频的算力消耗,约是生成一次文字对话的千倍以上。 正如ChatGPT带来的AI算力需求增长,Sora的横空出世,进一步加剧了AI算力的紧缺。 而这种紧缺,造就了生成式AI底层基础设施——算力芯片的“绝对霸主”英伟达,堪称近一年多来最耀眼的上市公司。 2023年,英伟达累计暴涨239%。2024年,涨势仍在持续,2月16日美股收盘,英伟达报726.13美元,今年累计上涨近50%,市值为1.79万亿美元,超越谷歌和亚马逊,位列全球第三。 “从公司强劲的增长中可知,各行各业都在经历从通用计算到加速计算和生成式AI的平台转型。”英伟达创始人黄仁勋表示。 事实上,不仅是英伟达,其最大的两个竞争对手英特尔和AMD也在AI芯片领域加速追赶。 更为重要的是,英伟达的大客户们——科技巨头之间的一场新竞赛正在升温,他们正在构建自己的AI芯片,以摆脱对英伟达芯片的依赖。 2023年11月,微软正式推出了其自研的两款人工智能芯片:Maia 100和Cobalt 100。 今年2月,全球最大的社交媒体公司Meta对外证实,计划今年在其数据中心部署最新的自研定制芯片,并将与其他GPU芯片协调工作,助力其AI大模型发展。 而在此之前,有数据显示,2023年,Meta和微软两家公司以15万块英伟达H100 GPU的购买量并列第一。 Meta首席执行官马克·扎克伯格表示,该公司计划在今年底前拥有大约35万颗英伟达H100处理器。再加上其他供应商,Meta将累计拥有60万颗H100的等效计算能力。 但即便如此,AI算力依然不够。 风头正劲的OpenAI也在探索制造自己的AI芯片。 有消息称,在Sora发布前夕,OpenAI创始人兼CEO Sam Altman正在从中东地区筹集总计高达7万亿美元的资金,以支持公司的一项半导体计划,并与英伟达展开竞争,计划重塑全球半导体行业格局。 7万亿美元是什么概念?占全球GDP的10%,相当于2.5个微软、3.75个谷歌、4个英伟达、7个Meta或者11.5个特斯拉,也就是全球半导体的全部江山。 这笔钱能将AMD、台积电、英伟达、三星、英特尔、高通等公司通通打包带走。 Sora发布后,软银集团创始人孙正义也正在寻求高达1000亿美元资金,打造一家能与英伟达竞争的芯片公司,专注于生产对AI至关重要的半导体。 如果孙正义的计划得以实现,这将成为继ChatGPT问世以来,AI领域最大的一笔投资。 正如ChatGPT引爆国内文本生成式大模型热潮一样,此次Sora大模型展示出相较以往同类产品更强的生成式能力,进一步打开了AI应用想象空间,预计国内大模型厂商也将快速跟进,加大对文成视频大模型的投入力度,进而推动AI算力需求持续高涨。 算力产业迎来“泼天富贵” 从全球视角来看,在Sora的催化下,算力产业链从上游硬件、中游服务器/交换机、下游应用侧闭环现愈发清晰,从云侧到端侧、从硬件到软件都将呈现生机勃勃之景。 首先 ,ChatGPT、Sora等AI大模型的广泛应用,将催生高性能计算(HPC)和边缘计算的需求增长,与之相关的GPU、FPGA、ASIC等芯片将迎来巨大需求。 同时,AI大模型的应用需要强大的计算资源来支持,这也会推动数据中心的建设和升级。 其次 ,Sora等AI大模型将持续推动IT基础设施技术创新。 例如,AI大模型对算力和能效有着高需求、高要求,这将推动半导体公司不断研发更先进的芯片架构和制造工艺,也将推动云和IT服务商不断探索更高效的计算资源调度能力,以提高对算力的利用率,降低AI大模型的训练成本。 对于数据中心服务商而言,多模态模型的爆发,对数据中心网络提出了更大的要求。 视频数据的生成、调用等,对集群通信延迟要求更高、带宽需求暴增,而带宽的提升也意味着网络建设成本的提高,需要进一步通过技术降本增效。 同时,面对更多的智能算力需求,数据中心高密度趋势明显,也需要通过新技术降低IT设备空间占有率。 更具想象力的是,运用Sora大模型的生成能力,还可以推动产业的技术创新。比如,生成模拟的半导体电路图像,以便在设计阶段进行分析和优化,从而对半导体行业的设计和制造过程产生影响。 可以预见,随着Sora等AI大模型的普及,AI步入千家万户,那些能够提供高性能、高性价比AI算力的公司将获得更大的市场份额,以“技术”为先的核心竞争力变得愈发重要。 结语 整体来看,大模型产品从文字、图片上升到视频,AI训练量的不断提升,对算力的需求也呈现指数级增长态势,AI芯片、AI服务器、数据中心等相关行业的需求将一路狂飙,“卖铲子”的公司依旧是第一受益人。 但想要接住这“泼天的富贵”,技术仍是第一生产力,各家基础设施厂商势必要在软硬件方面进行全方位升级。 【关于科技云报道】 专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
  • 热度 4
    2024-4-8 11:14
    369 次阅读|
    0 个评论
    科技云报道原创。 国内大模型战场的比拼正在进入新的阶段。 随着产业界对模型落地的态度逐渐回归理性,企业客户的认知从原来的“觉得大模型什么都能做”的阶段,已经收敛到“大模型能够给自身业务带来什么价值上了”。 2023 年下半年,不少企业将目光锁定在行业模型上。如何降低大模型使用门槛,让大模型真正在行业里用起来,是业内普遍关注的焦点。 由此,国内厂商在大模型上的认知也在逐步统一——百度创始人李彦宏认为“卷大模型没有意义,卷应用机会更大”;腾讯高管汤道生表示“大模型只是开端,行业应用才是未来”;华为云CEO张平安明确大模型“为行业而生,聚焦B端行业客户”,更直言盘古大模型“没时间作诗、没时间聊天”。 这也意味着,更多大模型厂商将开始卷应用,这会是今年竞争最为激烈的板块之一。 大模型行业落地渴望 “开箱即用” 过去半年,大模型To B的落地应用摸索已经度过尝鲜期。 对于企业而言,他们希望更快使用上大模型,在市场竞争中获得优势。但大模型的技术门槛很高,因此企业并不会从头开始训练自己的基础大模型,更多是基于某个成熟的大模型做二次开发。 然而,想借用好现有的通用大模型,企业仍面临着三大难题: 首先,各类企业的场景需求、复杂程度、智能化程度千差万别,大模型能力边界与企业的场景需求如何快速、准确匹配; 其次,从模型到应用中间还需要诸多技术桥梁,诸如SFT、RAG、LangChain、Agent等技术,如何与大模型有机组合达成最优解; 第三,企业过去积累了大量IT设施、软件、企业数据、业务流程,如何让大模型与现有设施结合的情况下,保障企业数据信息安全。 换句话说,企业无论是基于开源或闭源的通用大模型来做行业化落地,都远没有到达开箱即用的程度。 不过这也成为大模型厂商在竞争中突围的方向,除了要在底层技术上继续夯实外,补足行业Know-how和成功经验也是重中之重。 在百度和阿里的发展经验中,似乎可以给大模型行业一些启示。 其中,百度用搭建行业模型、垂直场景模型和应用的方式赋能具体行业。 2023年3月,百度智能云推出千帆大模型平台,从算力、模型、到应用层层结合,为企业提供一整套大模型开发工具。 一年后,基于一线经验积累和实战反馈,百度智能云抽取出“研、产、供、销、服”环节中的典型场景,于近日推出了5款全新模型和7款应用产品,来解决企业用好大模型的“三大难题”。 以此次发布的国内首款大模型全面重构的智能客服——百度智能云客悦为例,相比传统客服,客悦可结合大模型的理解、推理、记忆能力,实现更友好的对话、更高效的运营。 比如,当用户提问“我的车总有吱吱吱的声音”,传统客服无法理解“吱吱吱”这种口语化的表达。 而客悦在大模型的加持下,会继续追问用户该问题持续的时间和频次,并通过推理反馈用户,可能是皮带老化或者张紧轮松动导致,建议到店检查。 若用户反馈没时间检查,客悦还会基于自身知识库,提醒不检修可能导致车辆失去动力、长期会引起发动机故障等问题,引起用户重视,守护行车安全。目前,用户问题自助解决率已超过90%。 在运营效率方面,上一代的传统智能客服进行业务办理、知识咨询、闲聊等能力,需要花费的人效约100人/天,而客悦仅需约15.5人/天,大模型客服运营效率提升6倍。 目前为止,百度智能云已经布局了电力、汽车、金融、政务等十余个行业大模型,并取得了不错的效果,客户中也出现了国家电网、浦发银行、泰康、吉利等知名企业。 相比之下,阿里采用了另一套逻辑:赋能于内部已有应用和服务,再技术外溢至行业客户。 除已经发布“通义千问”大模型外,夸克也发布了自研大模型,应用于通用搜索、医疗健康等场景;后加之内部推行“云钉一体”,作为办公一体化平台,钉钉上线AI魔法棒,推出17项与AI相关服务,也为通义千问大模型助力颇多。 同时,阿里也提供了不少类似于Anyone fit类型的图像模型解决方案,其工具十分贴合电商需求场景。 因在电商、物流层面的深厚积累,让阿里拥有了对不同领域的行业特点、业务流程和客户需求有了充分的认识。 基于此,阿里的产品便可以在深度了解用户需求的基础上,为客户提供定制化的解决方案,满足其业务需求,提高其业务效率和竞争力。这让大模型有了其应有之意,不至于沦落为“无源之水”。 头部大厂领跑大模型行业落地 在大模型的 toB 竞争中,本质而言,是取决于客户企业对商业价值的认知。和其他行业一样,在大模型领域,“多快好省” 和 “物美价廉” 难以两全,匆忙上阵的结果可能是一地鸡毛。 因此,企业客户在大模型的选择上更为审慎。尽管大模型的应用还在初期,但企业在模型选择、模型可靠性、应用成本、使用门槛等层面,已有各种考量和顾虑。 百度集团副总裁侯震宇曾在采访中表示:“最终能够让大模型服务推广开的只有两个原因:第一个是模型效果,第二个是成本。” 以百度智能云为例,其大模型的调用和训练成本一直在下降。文心一言开启内测后,一个月就迭代了四次。 根据百度披露的数据,文心一言的推理成本如今只有发布之初的十分之一,在发布的3个月内推理效率提升10倍,模型推理性能提升50%,模型算力利用率提升1倍。 侯震宇透露,随着技术迭代带来的成本下降,不管是在模型使用,还是在模型微调甚至在模型再训练方面,“价格应该不会成为大家使用或者拥抱大模型的瓶颈”。 与此同时,在SuperCLUE中文大模型7月最新榜单中,百度的大语言模型产品文心一言以62分的总成绩一举超越越GPT-3.5-turbo(59.79)和ChatGLM-130B(59.35)等,稳居行业头部。 除了成本和效果,大模型从开发、应用到调优的每一个环节如何落地,如何基于数据安全合规进行私有化部署等,都是企业客户重点关注的问题。 例如,很多企业需要的聊天机器人,并不是选择具备强大通用能力的大模型就可以,还要求大模型厂商能够提供易用性、完备度、安全性、稳定性都有保证的工具链。 在关注大模型技术栈完备性的同时,企业还需要选择适合自身业务的大模型厂商——既有充分的产业应用经验积累,也能够将技术应用到实际业务场景中。 目前,百度智能云推出的千帆大模型平台就拥有较为全面的数据服务能力,从生成、标注、回流再到模型训练(Post-pretraining、Fine-tuning、Prompt-tuning)、模型评估(主观评估、客观评估)和压缩、自动化 Prompt 工程、到插件应用编排,客户都可以在千帆上一站式完成。 这意味着企业客户可以将基于千帆平台从0开始训练自己的专属模型,同时训练好的模型也可以部署和托管在千帆平台上,获得极致的性能、企业级的高可用性和安全环境。 由于千帆平台已经制备了开箱即用的使用流程,用可视化产品界面的方式引导用户使用,极大降低了使用门槛。对于企业级市场比较担心的安全可靠问题,也内置了安全机制,确保模型的输入和输出的安全。 不久前,IDC发布的《AI大模型技术能力评估报告,2023》对国内主流大模型,包括百度、阿里、腾讯、华为、科大讯飞、360、商汤等14家厂商参进行了评估。 IDC分别对大模型的平台、创新、通用、算法、服务、生态合作、行业覆盖和安全可解释性等诸多方面进行了评价,其中百度 7 个满分,阿里 6 个满分。百度在算法模型、行业覆盖领域拿下行业唯一满分。 可以看到,头部大厂的大模型产品已经有所成效。相较之下,部分初创和腰部公司开始呈现疲态。 从光年之外退出竞争、讯飞大幅亏损难以支撑大模型投入便可以得知,一些 “笨鸟先飞” 的企业已逐渐落后于发展大势。 对于企业业务而言,现阶段更加稳妥的方式还是在大厂之间做出抉择。大厂大模型更能保证服务交付、运维和维保,这也是企业对自身向智能化方向转型更加负责任地选择。 结语 随着企业研发、生产、销售、人力等各项业务场景数字化深入,如何借助大模型的力量,发挥出应用的最大价值,正成为企业商业制胜的关键所在。 接下来的竞争,对于企业而言,不再是局限于大模型的追逐,而是如何基于大模型对应用产品进行自我优化和革新。 对于大模型厂商而言,比拼的不仅是算力、算法和数据,未来长期的发展比的更是落地应用、生态渠道、客户服务、运维等系统性、全面性的支持。 这需要厂商具备强大的技术水平,以及不断迭代升级的能力。要满足可控和合规的要求,也需要厂商有较强的综合能力,能够长期稳定的投入人力物力。 【关于科技云报道】 专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
  • 热度 3
    2023-2-16 11:49
    1254 次阅读|
    2 个评论
    人工智能 | 数据分析 | Chat GPT 深度学习 | 数据挖掘 | 高性能计算 当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快AI产业化进程,降低AI应用门槛。 与传统机器学习相比,深度学习是从数据中学习,而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据,例如图片、文本等等;但是这些数据很难用机器完成。大模型可以训练更多类别、多个级别的模型,因此可以处理更广泛的类型。另外:在使用大模型时,可能需要一个更全面或复杂的数学和数值计算的支持。深度学习算法不需要像大模型那样训练大量数量的模型来学习特征之间的联系。深度学习算法是基于神经元的,而大模型是利用大量参数训练神经网络。本文从大模型与深度学习方面入手,解决大模型是否是深度学习的未来的问题。 作为深度学习、人工智能领域的专家,蓝海大脑液冷工作站支持多种算力平台,通过超融合与虚拟化管理平台可实现x86、ARM以及其他芯片架构的多元异构计算资源池化,并可根据业务特点实现计算资源的随需调度和统一管理,实现异构融合。同时,提供计算密集型、计算存储均衡型、存储密集型、边缘型、AI型等多种机型,以满足不同人工智能计算场景的需求,更加灵活高效。 大模型发展现状 大模型(预训练模型、基础模型等)是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。迁移学习是预训练技术的主要思想,当目标场景数据不足时,先在数据量大的公开数据集上训练基于深度神经网络的AI模型,然后将其迁移到目标场景中,通过目标场景中的小数据集进行微调,使模型达到要求的性能。在这个过程中,在公开数据集上训练的深度网络模型被称为“预训练模型”。使用预训练模型极大地减少了模型在标记数据量下游工作的需要,从而解决了一些难以获得大量标记数据的新场景。 从参数规模上看,AI 大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看, AI 大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。 国外超大规模预训练模型始于2018年,并在2021年进入“军备竞赛”阶段。2017年Vaswani等人提出Transformer架构,奠定了大模型领域主流算法架构的基础; Transformer提出的结构使得深度学习模型参数达到上亿规模。 2018年谷歌提出BERT大规模预训练语言模型,是一种基于Transformer的双向深层预训练模型。这极大地刺激了自然语言处理领域的发展。此后,基于BERT、ELNet、RoberTa、T5的增强模型等一大批新的预训练语言模型相继涌现,预训练技术在自然语言处理领域得到快速发展。 2019年,OpenAI将继续推出15亿参数的GPT-2,可以生成连贯的文本段落,实现早期阅读理解和机器翻译等。紧接着,英伟达推出了83亿参数的Megatron-LM,谷歌推出了110亿参数的T5,微软推出了170亿参数的Turing-NLG。 2020年,OpenAI推出GPT-3超大规模语言训练模型,参数达到1750亿,用了大约两年的时间,实现了模型规模从1亿到上千亿级的突破,并能实现作诗、聊天、生成代码等功能。此后,微软和英伟达于2020年10月联合发布了5300亿参数的Megatron Turing自然语言生成模型(MT-NLG)。2021年1月,谷歌推出的Switch Transformer模型成为历史上首个万亿级语言模型多达 1.6 万亿个参数;同年 12 月,谷歌还提出了具有 1.2 万亿参数的 GLaM 通用稀疏语言模型,在7项小样本学习领域的性能优于 GPT-3。可以看出,大型语言模型参数数量保持着指数增长势头。这样的高速发展还没有结束,2022年又有一些常规业态大模型涌现,比如Stability AI发布的文字到图像Diffusion,以及OpenAI推出的ChatGPT。 国外大模型发展历程 在国内,超大模型的研发发展异常迅速,2021年是中国AI大模型爆发的一年。 2021年,商汤科技发布了大规模模型(INTERN),拥有100亿的参数量,这是一个巨大的训练工作。在训练过程中,大约有10个以上的监控信号帮助模型适应各种不同视觉或NLP任务。截至到2021年中,商汤科技已经构建了全球最大的计算机视觉模型,其中该模型拥有超过300亿个参数;同年4月,华为云联合循环智能发布千亿参数规模的盘古NLP超大规模预训练语言模型;联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿。阿里达摩院发布270亿参数的PLUG中文预训练模型,联合清华大学发布千亿参数规模的M6中文多模态预训练模型; 7月,百度推出 ERNIE 3.0 Titan模型; 10月,浪潮信息发布预估2500亿的超大规模预训练模型“源 1.0”; 12月,百度推出了拥有2600亿尺度参数的ERNIE 3.0 Titan模型。而达摩院的M6模型的参数达到10万亿,直接将大模型的参数提升了一个量级。2022年,基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”八卦炉完成建立,其模型参数将超过174万亿。 部分中国公司虽然还没有正式推出自己的大规模模型产品,但也在积极进行研发,比如云从科技,该公司的研究团队就非常认同“预训练大模型+下游任务迁移”的技术趋势,从2020年开始,在NLP、OCR、机器视觉、语音等多个领域开展预训练大模型的实践,不仅进一步提升了企业核心算法的性能,同时也大大提升了算法的生产效率,已经在城市治理、金融、智能制造等行业应用中展现出价值。 “书生”相较于同期最强开源模型CLIP在准确率和数据使用效率上均取得大幅提升 大模型给人工智能产业带来什么 一、大模型加速AI产业化进程,降低AI应用门槛 人工智能正处于从“能用”到“好用”的应用落地阶段,但仍处于商业落地初期,主要面临场景需求碎片化、人力研发和应用计算成本高以及长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景差距大等行业问题。而大模型的出现,在增加模型通用性、降低训练研发成本等方面降低AI落地应用的门槛。 1、大模型可实现从“手工作坊”到“工厂模式”的AI转型 近十年来,通过“深度学习+大算力”获得训练模型成为实现人工智能的主流技术途径。由于深度学习、数据和算力可用这三个要素都已具备,全球掀起了“大炼模型”的热潮,也催生了一大批人工智能公司。然而,在深度学习技术出现的近10年里,AI模型基本上都是针对特定的应用场景进行训练的,即小模型属于传统的定制化、作坊式的模型开发方式。传统AI模型需要完成从研发到应用的全方位流程,包括需求定义、数据收集、模型算法设计、训练调化、应用部署和运营维护等阶段组成的整套流程。这意味着除了需要优秀的产品经理准确定义需求外,还需要AI研发人员扎实的专业知识和协同合作能力才能完成大量复杂的工作。 传统的定制化、作坊式模型开发流程 在传统模型中, 研发阶段 为了满足各种场景的需求,AI研发人员需要设计个性定制化的专用的神经网络模型。模型设计过程需要研究人员对网络结构和场景任务有足够的专业知识,并承担设计网络结构的试错成本和时间成本。一种降低专业人员设计门槛的思路是通过网络结构自动搜索技术路线,但这种方案需要很高的算力,不同的场景需要大量机器自动搜索最优模型,时间成本仍然很高。一个项目往往需要专家团队在现场待上几个月才能完成。其中,数据收集和模型训练评估以满足目标要求通常需要多次迭代,从而导致高昂的人力成本。 落地阶段 ,通过“一模一景”的车间模式开发出来的模型,并不适用于垂直行业场景的很多任务。例如,在无人驾驶汽车的全景感知领域,往往需要多行人跟踪、场景语义分割、视野目标检测等多个模型协同工作;与目标检测和分割相同的应用,在医学影像领域训练的皮肤癌检测和AI模型分割不能直接应用于监控景点中的行人车辆检测和场景分割。模型无法重复使用和积累,这也导致了AI落地的高门槛、高成本和低效率。 大模型是从庞大、多类型的场景数据中学习,总结出不同场景、不同业务的通用能力,学习出一种特征和规律,成为具有泛化能力的模型库。在基于大模型开发应用或应对新的业务场景时可以对大模型进行适配,比如对某些下游任务进行小规模标注数据二次训练,或者无需自定义任务即可完成多个应用场景,实现通用智能能力。因此,利用大模型的通用能力,可以有效应对多样化、碎片化的人工智能应用需求,为实现大规模人工智能落地应用提供可能。 AI大模型“工厂模式”的开发方式 2、大模型具有自监督学习能力,能够降低AI开发以及训练成本 传统的小模型训练过程涉及大量调参调优的手动工作,需要大量AI专业研发人员来完成;同时,模型训练对数据要求高,需要大规模的标注数据。但很多行业的数据获取困难,标注成本高,同时项目开发者需要花费大量时间收集原始数据。例如,人工智能在医疗行业的病理学、皮肤病学和放射学等医学影像密集型领域的影响不断扩大和发展,但医学影像通常涉及用户数据隐私,很难大规模获取到用于训练 AI 模型。在工业视觉瑕疵检测领域,以布匹瑕疵为例,市场上需要检测的织物种类有白坯布、色坯布、成品布、有色布、纯棉、混纺织物等缺陷种类繁多,颜色和厚度难以识别,需要在工厂长时间收集数据并不断优化算法才能做好缺陷检测。 大模型利用自监督学习功能,对输入的原始数据进行自动学习区分,合理构建适合模型学习的任务,不需要或者很少用人工标注的数据进行训练,很大程度上解决了人工标注的数据标签成本高、周期长、精确度的问题,减少了训练所需的数据量。这在很大程度上减少了收集和标记大型模型训练数据的成本,更适合小样本学习,有助于将传统有限的人工智能扩展到更多的应用场景。 我们认为,相比于传统的AI模型开发模式,大规模模型在研发过程中的流程更加标准化,在实现过程中具有更大的通用性,可以泛化到多种应用场景;并且大模型的自监督学习能力相较于传统的需要人工标注的模型训练能够显著降低研发成本,共同使得大模型对于 AI 产业具有重要意义,为解决 AI 落地难、促进 AI 产业化进程这一问题提供方向。 二、大模型带来更强大的智能能力 除通用能力强、研发过程标准化程度高外,大模型最大的优势在于“效果好”。它通过将大数据“喂”给模型来增强自学习能力,从而具有更强的智能程度。例如,在自然语言处理领域,百度、谷歌等探索巨头已经表明,基于预训练大模型的NLP技术的效果已经超越了过去最好的机器学习的能力。 OpenAI 研究表明,从 2012 年到 2018 年的六年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长,其中有 3.5 个月内翻了一番,相比摩尔定律每 18 个月翻一番的速度快很多。下一代AI大模型的参数量级将堪比人类大脑的突触水平,可能不仅可以处理语言模型,将更是一个多模态AI模型,可以处理多任务,比如语言、视觉和声音。 弱人工智能仍属于计算机“工具”范畴,强人工智能能自适应地完成任务 深度学习平台体系架构 同时大模型的训练离不开深度学习平台架构。深度学习 (DL, Deep Learning)是机器学习 (ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能 (AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。大模型的训练离不开深度学习平台架构。 一、深度学习平台三要素体系 针对行业应用的多样化需求,以开源开发框架为核心的深度学习平台构建了从模型开发到部署的服务体系,包括三个核心层次:开发框架、算法模型、开发工具和能力平台。在人工智能大规模产业化生产时代,深度学习技术的通用性越来越强,深度学习平台的标准化、自动化和模块化特征越来越突出,成为人工智能技术大规模、低成本融合赋能的基础。平台以成熟算法技术直接调用、个性化场景定制化开发的形式为行业提供多种创新应用,最终形成资源丰富、多方参与、协同演进的人工智能使能生态。在深度学习平台的发展演进过程中,逐渐形成了“框架-算法-工具”三个核心层次。 深度学习平台层次架构 底层是开源开发框架。作为深度学习平台的核心枢纽,开源开发框架连接GPU、ASIC等智能计算芯片,支持计算机视觉、自然语言处理、语音等各类应用。部署全流程能力,让高效开发迭代各种算法,部署大规模应用成为可能。一是通过提供编程接口API、编码语言等方式,为开发者构建编程模型和开发能力;二是依托并行训练、动静转化、内存优化等功能,实现模型编译和训练优化;三是提供硬件接入能力,通过简化底层硬件的技术细节,建立模型与算力的连接通道,解决模型适配部署难的问题。 中间层代表算法模型,深度学习平台赋予开发者行业级的建模能力。采用预训练方式,减少数据采集、标注时间和人力成本,缩短模型训练过程,实现模型快速部署,加速AI技术技能开发。根据技术路线和应用价值,可以分为三类算法模型:一类是业界已经实践过的基础算法,如VGGNet、ResNet等主流SOTA模型;二是提供自然算法语言处理、计算机视觉、多模态等领域小样本细分场景的预训练模型,快速实现算法技能迁移;三是针对特定行业场景(如工业质检、安检等)的应用模型,根据用户真实的行业落地需求推荐合适的应用。结合落地机型和硬件,并提供相关实例。 上层是套件工具和能力平台,支持各层级模型的开发和部署,满足开发者各个阶段的需求。主要功能体现在以下几个方面: 一是降低技术应用门槛,通过提供集成化、标准化的基础训练技术工具组件,支持可视化分析、预训练模型应用,降低训练和模型开发的门槛、云作业交付和其他功能;提供前沿技术研发工具,支撑联邦学习、自动机器学习、生物计算、图形神经网络等技术能力,为模型创新提供支持;三是提供图像分类、目标检测、图像分割等具体信息,满足行业实际需求面向业务场景的端到端开发包,涵盖数据增强、模块化设计、分布式训练、模型调参等流程,以及交叉部署平台,实现AI能力的快速应用;四是提供全生命周期管理,构建一体化深度学习模型开发平台,提供从数据处理、模型训练、模型管理到模型推理的全周期服务,加速人工智能技术开发和应用落地全过程,实现管控与协同。 二、深度学习平台核心作用 一是驱动核心技术迭代改进。随着深度学习技术的逐渐成熟和普及,标准化、模块化的流程工具成为开发者的共同诉求,深度学习平台应运而生。该平台通过提供包含卷积、池化、全连接、二分类、多分类、反向传播等的算法库,避免了“重复造轮子”带来的资源浪费。在更高层次上实现创新突破,实现“站在巨人的肩膀上”创新,加快人工智能技术迭代提升。 二是推动产业链上下游协同创新。操作系统作为连接PC和移动互联网时代底层硬件架构、顶层软件系统和用户交互界面的控制中心,是微软、诺基亚、苹果、谷歌等公司驱动产业生态的核心工具统治地位。在人工智能时代,深度学习平台还起到连接顶层(顶层应用)和底层(下层芯片)的作用,类比为“人工智能时代的操作系统”。深度学习平台的出现,使得各种算法能够基于现有硬件系统高效开发迭代并部署大规模应用,为深度学习的不断发展奠定了基础。 三是缩短千行百业智能化升级路径。当前,人工智能工程应用迎来了快速发展的窗口期,如何缩短人工智能算法从建模到实际生产的周期,提高应用效率成为各行业关注的核心问题。深度学习平台提供从制造到工具、技术、机制等涵盖人工智能能力产生、应用、管理全过程的实用工程解决方案,解决人工智能面临的专业人才短缺、数据成本高、建模等问题。智能升级中的企业发展难、资源效率低等问题,满足了企业AI能力建设的迫切需求,为智能升级奠定了基础。 四是承载产业生态繁荣动能。深度学习是一个典型的共创技术领域。只有构建健康完善的产业生态,才能实现繁荣和可持续发展。以深度学习平台为驱动,搭建连接产学界的沟通桥梁,通过开发者社区、赛事峰会、培训课程等方式,汇聚人才、技术、市场等行业生态资源要素。在输出技术能力、赋能产业提升的同时,不断发展运用人工智能技术的惯性思维方式,攻克各行业痛点难点,进一步带动下游需求,形成产业生态良性循环。 深度学习平台的技术创新重点 一、开源开发框架,深度学习平台的基础核心 开源开发框架作为深度学习平台的基础核心,结合编程范式、大规模分布式等关键技术,打造易用、高效、可扩展的框架引擎,解决了工业应用中的广泛问题。培训、软件适配和硬件 ,专注于提高人工智能产品以及软硬件解决方案的开发效率和易用性。 1、动静统一的编程范式大幅提升算法开发效率 动静统一的编程范式大幅提升算法开发效率。框架编程范式是开发人员用于编写 程序时把复杂问题抽象成程序代码的不同方式,主要分为命令式编程(动态图)和声明式编程(静态图)两种编程范式,其中动态图编程具备开发便捷性的特点,开发者可在调整局部代码时,即时获得执行结果,易于调试、减少时间成本,但由于缺乏全局的计算图Pass、显存等优化,如算子间融合、显存inplace等,在性能、显存等使用方面有所不足。而静态图则将用户可事先定义的全部程序代码进行全局编译优化, 在功耗、性能等方面优势显著。目前,谷歌TensorFlow、飞桨等业内主流框架纷纷布局动静统一的编程范式,同时兼容支持动态图、静态图两种编程范式,即在支持动态图高效开发训练的同时,也支持开发后一行代码转静态图训练加速和部署,大幅提升开发者算法研发准确率和生产部署效果。 2、大规模分布式训练技术有效提升巨型模型研发的承载能力 大规模分布式训练技术有效提升了超大规模模型开发的承载能力。目前算法模型规模呈指数级增长,以ERNIE3.0大模型为例,模型参数2600亿,需要存储空间3TB,计算量6.2E11 Tera FLOPs。单台服务器,以Nvidia V100为例,单卡32GB内存,125Tera FLOPS的计算能力,难以满足千亿级参数模型的训练需求,数据压力大/读写模型、存储、训练等。大规模分布式训练架构布局,将千卡算力(相当于一个国家超算中心的算力)的传递和计算纳入主流企业通用实践框架,结合平台特性和端到端特征的算力模型自适应分布式训练技术成为重要的创新方向。例如,结合算力平台的灵活资源调度管理技术、自动选择最优并行策略技术、高效计算与通信技术等。 3、统一的高速推理引擎满足端边云多场景大规模部署应用 面对多样化的部署环境,具备云端推理能力,成为开源开发框架成为业界普惠工具的重要标志。物联网智能时代,开发框架必须具备端、边、云全面支持的推理机架构,以及与训练框架集成的内部表达式和算子库,实现即时训练和最完备的模型支持。推理实现能力应跨越服务器、移动和 Web 前端,模型压缩工具可以帮助开发人员实现更小、更高性能的模型。在部署过程中,开发框架还应该提供全流程推理和场景部署工具链,以实现在硬件受限环境下的快速部署。工具或技术的蒸馏,进一步优化和支持推理引擎在服务器、移动终端/边缘终端、网页等各种硬件场景下的实现。 从生态上看,Paddle还支持采用Paddle平台上的其他框架模型,也支持将Paddle模型转换为ONNX格式进行部署,为开发者提供多样化、个性化的选择。 4、标准化的软硬件协同适配技术是打造国产化应用赋能的关键 业内领先的框架平台企业试图提供可满足多硬件接入的统一适配方案,包括统一硬件接口、算子开发映射、图引擎接入、神经网络编译器这几方面。 一是构建统一硬件接入接口,完成不同硬件抽象层接口的标准化访问管理。如飞 桨框架支持插件式硬件接入功能,实现框架和硬件的解耦,开发者只需实现标准接 口,即可在框架中注册新的硬件后端。 二是提供算子开发映射方式,通过芯片提供的编程语言编写算子Kernel或算子映 射方式接入硬件。具体可通过算子复用技术,减少算子数量;通过提供硬件Primitive开发接口,实现算子在不同硬件上复用;对于现有算子无法满足运算逻辑和性能 需求的问题,开发者可以自定义算子,无需重新编译安装飞桨框架。 三是提供图引擎接入方式,通过框架计算图和硬件图引擎之间的适配,实现硬件接入。为了更高效适配深度学习框架,硬件厂商通常会提供图引擎,如英伟达的 TensorRT、Intel的OpenVINO等,框架仅需实现模型中间表示向厂商模型中间表示 的转换即可适配。 四是打造神经网络编译器,实现自动优化的编译技术,利用基础算子自动融合优化实现复杂算子功能,降低适配成本的同时,优化性能。如百度神经网络编译器CINN具有方便接入硬件,提升计算速度的特点。对比业内的TVM ,CINN额外支持了训练功能;对比谷歌的XLA,CINN提供自动调优技术,可更好实现软硬协同,发挥硬件性能。 二、模型库建设,算法创新、沉淀与集成管理是快速赋能关键能力 模型库是深度学习平台推动AI普惠化,实现快速产业赋能的关键能力。为解决人工智能算法工程化落地过程中面临的研发门槛高、周期长等问题,深度学习平台将模型库作为平台的核心能力进行建设,开发者依托模型库,无需从头编写代码即可实现算法能力,实现应用模型的不断复用,从而促进人工智能应用多样化和规模化发展。 当前,深度学习平台均基于自身开发框架构建算法模型库,提供快速搭建人工智能应用能力,如Meta推出 ,提供算法模型库以及简易API和工作流程;蓝海大脑构建产业级模型库并提供面向场景应用的模型开发套件,实现模型直接调用及二次开发的能力,提升算法研发应用效率。 深度学习平台在前沿技术领域持续创新,沉淀先进算法能力,推动SOTA模型应用落地。一方面,深度学习平台已成为先进算法模型的重要承载体,全球来看,AI领域创新算法的提出六成以上使用国际主流开发开源框架进行验证;另一方面,学术界、产业界对先进算法的使用需求反推深度学习平台加强对SOTA模型库的能力建设,促进原创算法持续产生。当前,国际主流深度学习平台模型库不断加强对前沿算法模型的积累,将算法能力沉淀至深度学习平台模型库,为开发者提供前沿技术能力支撑。 模型库通过应用场景实践加速完善,产业赋能能力不断强化。为满足产业多样化场景需求,切实推动AI算法应用落地,模型库主要通过两个方面提升平台产业赋能能力。一是通过细化应用场景,丰富算法覆盖方向,拓展模型库能力边界。模型库基于计算机视觉、自然语言处理等基础算法,依据实际产业需求对能力应用场景进行细化,面向图像分割、车辆检测、个性化推荐等细分任务提供经过产业实践的模型。此外,通过引入预训练模型,为开发者提供灵活、可拓展的算法能力,可实现在小样本任务中的快速应用,如蓝海大脑目前支持产业级开源算法模型超500个,已在金融、能源、交通等各行各业广泛应用。二是从实际产业应用场景出发,聚焦AI工程化落地问题,通过提供轻量级、低能耗的产业级部署模型,解决实际应用场景中模型的精度与性能平衡问题。 三、工具及平台完善,覆盖数据处理、模型训练和推理部署全周期 深度学习平台围绕前沿技术开发部署新范式、数据模型全流程可视化分析管理、 企业级高精度应用构建以及全平台部署来布局相关工具组件及平台。 一是打造面向新型学习范式的系统化工具,深度学习平台面对强化学习、联邦学习、图学习、量子计算、生物计算等前沿学习范式,提供所需编译运行机制和解决方案,实现广泛的模型应用场景。 二是开发覆盖数据管理、模型开发和推理部署的全流程研发工具集,实际应用落地作为深度学习平台的出发点和落脚点,平台通过提供开发套件和工具组件,端到端 打通数据准备、模型训练与优化、多端部署能力,助力产业实践工程化高效部署。 三是提供企业级高精度应用构建和全平台部署能力,企业开发服务平台作为深度学习平台的重要出口,整合底层核心开源框架以及上层数据处理、模型开发构建、模型训练管理及端侧部署能力,辅助企业实现一站式模型定制能力。如蓝海大脑深度学习平台面向不同开发能力的企业打造零门槛深度学习平台,可结合网络结构搜索和迁移学习等技术完成语言理解、语言生成、图像分类、物体检测、图文生成等任务,支持企业实现在公有云、本地服务器、移动设备的多侧灵活安全部署。 四、专业领域延伸,围绕科学发现与量子智能持续探索 领先的深度学习平台和框架企业正围绕生物医药、量子智能等更具前瞻性的垂直专业领域加速布局,降低前沿科研开发门槛,提升应用开发效率。当前,前沿学术研究进入多学科融合和技术工具完善发展的新阶段,人工智能技术成为推动前沿科学发展的重要路线之一,取得了诸多突破和突破。在创新的同时,也对深度学习平台的工具能力提出了新的挑战。龙头企业重点关注以下方向,提升平台在专业领域的研发能力。 一是聚焦量子智能,应用量子计算,挖掘人工智能算法的应用潜力。量子计算具有传统计算无法比拟的信息承载能力和并行计算处理能力,有望解决人工智能模型参数数量增加带来的计算瓶颈问题。龙头企业提供基于深度学习平台的量子计算工具包,推动量子技术与人工智能机器学习模型的融合,支持量子电路模拟器、训练判别和生成量子模型;电路仿真等模块为开发者提供了人工智能、组合优化、量子化学等领域量子应用的研发工具,提高运营效率,降低量子应用研发门槛。 二是聚焦蛋白质结构预测、化合物性质预测等生物医学领域重点方向,构建一套生物计算和模型开发工具。人工智能与生物医学技术相结合,可以大大提高任务的准确性和效率,成为产业布局的重要方向。 总结与展望 随着深度学习技术的发展,大模型已经成为深度学习的未来。大模型是一种深度学习模型,它可以处理大量的数据,从而获得准确的预测结果。 首先,大模型可以有效地处理大量数据。传统的机器学习模型只能处理少量的数据,而大模型可以处理大量的数据,从而获得更准确的预测结果。此外,大模型可以有效地处理非结构化的数据,例如图像和视频。 其次,大模型可以提高模型的准确性。大模型可以捕捉数据之间的复杂关系,从而提高模型的准确性。此外,大模型可以更快地训练,从而更快地获得准确的预测结果。 最后,大模型可以更好地支持深度学习。深度学习需要大量的数据,大模型可以支持深度学习,从而更好地发挥深度学习的优势。 总之,大模型是深度学习的未来。它可以有效地处理大量的数据,提高模型的准确性,更快地训练,更好地支持深度学习,从而提高深度学习的效率。
相关资源
  • 所需E币: 5
    时间: 2024-3-13 13:47
    大小: 1.45MB
    上传者: 美格智能
    大模型作为人工智能发展脉络中的里程碑,引发了新一轮的科技创新浪潮其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。世界上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以《人工智能法案》为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。