语音和图像-如何使用-有什么中文资料面包板社区

科学家们其实并没搞清楚究竟什么是意识，所以霍金、埃隆马斯克等对人工智能会产生意识的担心和人类最初的神灵崇拜其实同根同源。按照这种思路我们同样可以相信地球深处也存在某种意志，所以至少眼下这种担心并没有太大价值，但人工智能对人类的冲击却是真实存在的并且也更值得关注。 | 技术视角下人工智能的真实水平截止2016年3月人工智能在语音和图像上已经取得了阶段性成果，但语义上暂时还看不到能彻底解决的迹象： 1、语音识别形象来讲是这是一个最近几年已经被深度学习攻克的领域，只要花足够的钱，那识别精确度可以达到99%。在语音识别这种领域，最后几个点精度的提升很可能比前面达成90%精度还要费劲，但最后这几个点的精度往往正是跨越能用和不能用的关键。没有深度学习之前，人们已经尝试攻克语音识别很多年，一般来讲1952年贝尔实验室研究的第一个能识别10个英文数字发音的语音识别系统被认为是语音识别的起点，这样算起来人类已经在这事上努力了60多年。在上个世纪70年代搞定了小词汇量的语音识别，在80年代搞定了大词汇量的语音识别，然后精度就卡在那里了，大概在85%左右徘徊，一卡就接近30年。微软、IBM当年都曾经尝试把这技术应用起来，但显然没什么后果，好多人甚至不记得他们干过着件事情。深度学习导入语音识别后，使事情有了根本性的变化，现在只要有足够的数据进行训练，大多的公司自己都可以训练出足够精确的语音识别模型。这技术基本上要货品化了，越来越可以认为这是一种不要特别多的投入就可以搞定的技术。 2、图像识别图像识别比语音识别要麻烦一些，因为语音识别的对象总是各种有限的语言。但图像里人脸和猫的识别落到具体实现上还不能用一个模型来处理。当前的状态是如果选定一个点比如人脸识别，砸入几十个PhD，几百块GPU，那花个一到两年，如果还能找到落地点不断获得数据，那就可以做到非常高的精度(99%以上)，但这种精度眼下还没办法一下子就覆盖到其它领域，只能一个点一个点来搞定。像人脸这种领域因为有切实的落地场景(银行等)，所以一下子就发展起来了，其它的领域要想都达到同样的水平，那还需要一点时间。 3、语义理解和语音识别与图像识别不一样，语义理解处在一种基本没搞定的状态。很多时候我们看演示的时候能看到一个机器人或智能型产品与人进行流畅的交流。达成这状况有两种可能，一种是**，后面放了个人，属于人工的人工智能；一种是对话被限定在特定的场景下，比如汽车里打电话，让地图导航等。语义理解的难度与所要处理的概念数有关，当要处理的概念数在几千个以下的时候，那针对特定场景按照基于规则的方式还是可能搞定，做的比较流畅的。但一旦这个范围扩大到整个社会生活，那最多也就是Google Now和Siri那个样子。与这点密切相关的应用一个是各种智能语音助手在对话时的智能程度，一个则是翻译。在这些里程碑被陆续达成的过程中，世界也会改变它的样子，恰如汽车的出现带来了马路和交通规则一样。而要想理解这种影响的范围，那就要考察人类与人工智能的分工边界。 | 人类与人工智能的分工边界如果有一天我们想种什么植物，那只要对着身边的智能助手说一声；我们想生产什么东西，只要选定好样式和材料工厂就可以按需生产；我们想吃什么，机器人都可以帮我们做好；我们想出门的时候，自动驾驶汽车就会等在门口；想看病的时候，身体的各种参数就会和过往的病例自动对比分析。那人类到底还应该做点什么？由这点可以引出旷日持久的各种争论，比如软件在吞噬世界、人工智能在吞噬世界、机器人在吞噬世界等等，但这并没价值，其关键在于既然有些岗位注定被消灭，那就要知道究竟究竟什么样的工作会是人类的保留地。当然这里用工作可能不太准确，古代富家翁也种花，但这和花农种花其实有着本质的区别。要想弄清上面说的这问题，其实需要回到此前提到的问题：到底什么是人工智能？如果说人工智能就是抽调了欲望和激情的超人，那显然凡是不依赖这两者的事情上人类都不再有工作的价值。很不幸的是我们今天所看到的绝大部分工作其实都更多的依赖于理智、感知和体力，而非欲望和激情，当信息足够充分后都是很容易就会被人工智能所取代。种地这事在发达国家现在已经足够机械化，人工智能发达之后只要在地形的识别上做到足够精确，技术成本又足够低，那播种、收割、打农药等根本不可能难的住人工智能，比较容易就可以实现彻底的自动化。一旦自动驾驶得以彻底实现，那类似的技术应不应用到农业领域唯一的关键点就是经济上划不划算，而不是能不能搞定。这也是正在发生的事情，总部在加利福尼亚圣迭戈的Vision Robotics研发了一种章鱼模样的采橘子的机器人，这机器人使用3D视觉传感器建立橘子树的模型，然后存储每个水果的位置，接下来就用来指导8个机械手臂采橘子。此外、用于修建葡萄藤的、在大棚里工作的机器人也都在向人类狂奔而来。建筑方面也是同样的情形，更为激进的是已经有创业公司在做这件事情，它们一边利用无人机随时监控地形和进度，一边自动控制挖土机进行施工。盖摩天大厦这事暂时还无法用机器人来搞定，一是机器人本身的灵活性还不好，一是高空作业还是需要面对比较复杂的操作环境，但这不是一个人工智能搞不定的领域，只是需要更长一点的时间。制造业里用机器人替代工人近乎成为一种浪潮，但当前的浪潮其实不过是刚刚开始，当前的很多机器人并不具有太多的智能，一旦制造型机器人的智能得到足够的提升，那我们更可能会面对工厂里空无一人的情形。一家叫Rethink Robotics的美国公司做了一款叫Baxter的机器人，目标就是解决过去的机器手过于死板的问题，任何人都可以训练这种机器人做范围很宽泛的工作，当然当前它工作的精度还不如传统的机械手。而被Google收购又要卖出的波士顿动力已经做出了踹一脚不会摔倒，即使意外摔倒的也能自己爬起来的机器人。如果问在10年之内究竟什么时候这些机器人会彻底取代工人、能彻底取代物流仓储过程中的搬运工人，眼下其实是很难回答，但如果把眼光放长一点，问在20~30年后这些机器人会不会取代相关的岗位，那答案显然是肯定的。与此相类似的还有送餐、安保、零售、教师、厨师等这些往往吸纳非常多人的领域，看穿现象后我们会发现这些岗位在人工智能面前，其抵抗力脆薄如纸。这里面有一个非常关键的点往往被大家忽略，我们上面所有说的事情其实是应用的场合，而它们其实依赖于共通的几个技术比如计算机视觉等，一旦这些技术取得突破，那各种机器人一定会雨后春笋一样出现。这就好比手机大发展后，故事机、Pad、智能电视、智能投影仪等都能很快的出现一样，因为他们依赖于很多共通的技术。也正因此前面才提到各种技术上的里程碑才非常关键，因为它可以代表着共通技术何时可以走向商用。至于爱情、亲情这些领域显然会是人类的保留地，即使一个机器人能很好的照顾年迈的老人，能辅导小孩接受教育，但显然这不可能取代子女的陪伴，父母的实时关怀，因为这些事情关乎心灵。与此相类似，现在从各个地方冒出来的网红反倒是安全，因为网红也更多的基于情感。但关乎想象力和创意的领域结果会有点出乎意料，人工智能在可见范围内看不到具有想象力和创造力的可能性，这两者更多的基于欲望和激情，但它确实可以模拟这两者。很多我们以为深度依赖想象力和创造力的领域比如写小说、写诗、创作音乐、下围棋等，其对想象力和思考的依赖其实并没想的那么高。或者我们可以这么说，大多的小说并非是《战争与和平》那种层次，而是可以从大量的小说素材中拼接出来。人工智能不太可能在现有领域之外开辟一种新的流派，但达到起点上的大部分小说所体现出来的创造力和想象力并不是太难的事情。 2012年7月，伦敦交响乐团演奏了一曲《通向深渊》(Transits-Into an Abyss)。有评论家认为它“充满艺术感并且让人愉悦” 。但关键是这曲子不是人造的，而是由一个名为“伊阿摩斯”的人工智能算法在计算机集群上跑出来的。这程序已经创作了几百万首古典风格的作品（《机器人时代》）。我个人仍然不相信人工智能作诗的话能够达到李白的水平，因为它真的没想象力和创造力，但关键是纵观中国历史又有几个人有李白的水平，大多的人包括乾隆皇帝做的也不过是歪诗而已，这种水平人工智能是完全可以超越的。（我此前因为这点理解不清错判了AlphaGo与李世石比赛的胜负）这样一来，人类的保留地就真的不多了，关乎心灵的领域之外，就只有那些高端的依赖于想象力和创造力的领域，后者只属于极少的大师级人物，大战略家、大艺术家、大哲学家和大科学家不可能被人工智能取代，普通人的创造力和想象力估计匹敌不过人工智能用数据伪装出来的水平。本文转自雷锋网，作者李智勇，原文链接http://www.leiphone.com/news/201603/mAjZo9ddrEgCoruq.html

标签: 语音和图像