未加星标

人工智能的语言难题

字体大小 | |
[商业智能 所属分类 商业智能 | 发布者 店小二03 | 时间 | 作者 红领巾 ] 0人收藏点击收藏

可以真正懂得人类语言的机器可以派上大用场——但我们还不知道如何制造这样的机器。


世界最佳棋手李世石与Google的人工智能系统AlphaGo在韩国首尔举行了紧张的围棋比赛,比赛进行过半时,AI程序走出了神秘的、让它的人类对手感到不安的一步棋。


在第37回合,AlphaGo选择把黑子落在一个第一眼看起来不可思议的位置。这步棋预示着接下来它肯定会放弃大量的领地——在这个以控制领地大小来定胜负的游戏中,这是一个新手才会犯的错误。两个电视直播评论员怀疑自己没有看懂这步棋,或者是机器发生了某种故障。实际上,跟人们常规的判断相反,AlphaGo通过这一步棋在棋盘中央区域建立了牢固的领地。Google的这个程序用人类无法想到的一步棋迅速地赢得了比赛。


人工智能的语言难题

上图:计算机和AI系统难以理解人类语言的一种原因在于语言中的词语通常会根据不同的语境而具有不同意义,甚至字母的词语被写成不同的样子也能代表不同的意思。图中一些艺术家展示了如何使用不同的视觉暗示来传达远超出字母本身意思的含义。


AlphaGo的胜利令人印象深刻,因为古老的围棋游戏被人们视为测试直观智能的手段。游戏规则非常简单:两个玩家轮流在棋盘格的交叉点上放下白子和黑子,将对方的棋子围起来就可以将其从棋盘上拿走。但是要玩好这个游戏是极其困难的。


相比象棋选手可以进行好几步棋的预判,围棋由于其难以应对的复杂性,是很难进行这样的预判的,在围棋中甚至都没有固定的开局策略。在围棋中也没有直接衡量优劣的方法,因此就算是专业棋手也很难准确地解释别的棋手下某一步棋的目的。由于围棋的这种复杂性,要通过设定一些简单的规则开发出一个有专业水准的计算机围棋程序是不可能的。


AlphaGo的程序中并没有对围棋规则的初始设定。这个程序分析大量的棋局,并进行大量的自我对弈练习。在它所使用的几种AI技术中,有一种被称为“深度学习”的技术正变得越来越流行。这种技术灵感来源于大脑中若干层神经元间非常松散的相互连接,利用数学算法模拟这样的系统让机器学习接受新的信息。这个程序通过长时间的训练进行自我学习,从中逐渐琢磨出一些直觉的对弈策略。这个系统在与世界顶级围棋大师对弈中获胜,这一事件成为了机器和人工智能领域的一个里程碑。


在37回合之后的几个小时,AlphaGo赢得了比赛,将5局3胜赛制的总比分改写为2:0。此后李世石站在一群记者与摄影师前,对于自己让人类失望做了有礼的致歉。“我无言以对。”他在闪光灯的轰炸中说。


AlphaGo惊人的获胜展示了人工智能在过去几年中的飞速发展,而此前的几十年中人工智能发展迟滞且失败和波折不断,被称为“AI的冬天”。深度学习表明了机器可以通过不断自我训练来学习完成复杂的任务,而在几年前,这样的能力还被认为是人类特有的智能。自动驾驶汽车的到来已经是可预见的了。在不久的将来,基于深度学习的系统还能为人们诊断疾病并推荐相应的治疗方法。


虽然AI取得了这样惊人的进步,但AI的一个基本问题的解决前景却仍然不明朗,这就是语言。像Siri和IBM的Watson这样的系统只能理解人类说出或输入的一些简单的指令,并回答一些基本的问题,但它们不能进行完整对话,并不能真正理解对话中每个词语的意思。要让AI带来变革,这种情况必须被改变。


虽然AlphaGo不能说话,但它包含的技术有让计算机理解人类语言的可能。在Google、Facebook和亚马逊这样的科技公司以及领先的大学AI实验室中,研究者们正在尝试对这个疑难问题给出一个最终解决方案,这些方案中也包含了与AlphaGo同样的AI工具——包括深度学习——正是这些工具让AlphaGo获得胜利并引起了今天的AI复兴。这些研究尝试的成功与否决定着将要到来的AI革命的规模和所担任的角色。因为它决定这我们是否能够拥有易于沟通的机器——能够成为我们日常生活中亲密伙伴的机器——亦或是AI系统仍然对我们来说是一个神秘的黑盒子,即使它们越来越具有自主性。“如果AI的核心没有语言功能,拥有一个类人的AI系统是不可能的事。”MIT认知科学与计算学教授 Josh Tenenbaum说,“语言能力是人类与人工智能最明显的差别。”


也许AlphaGo用来征服围棋界的同样技术最终能让电脑掌握人类语言,又或者还需要有一些别的技术。但如果没有理解语言的能力,AI所能带来的变革会很不一样。当然即使那样我们还能拥有像AlphaGo这样极度强大的、智能的软件。但我们与没有语言能力的AI之间会比较难以合作,而且关系可能不会那么友好。“从一开始就在困扰我们的问题是‘如果你的人工智能只强调效率,而不能像真正的人类一样领会我们的意思,世界会变得怎么样?’”斯坦福大学已退休的教授 Terry Winograd说,“你可以想象一下统治世界的将是不以人类智慧为基础而以大数据之类的东西为基础的机器。”


机器的悄悄话

AlphaGo的胜利过去几个月后,我去了一趟作为人工智能前沿阵地的硅谷。我想造访一下那些正为AI的实际应用取得重要进展的研究员,以及那些正在尝试让机器能更大程度理解人类语言的人们。


我首先访问了 Winograd,他住在帕罗奥图市紧挨斯坦福校园南边的近郊中,距离Google、Facebook和苹果公司总部都不远。他有着卷曲的白发和浓密的胡子,具有严肃的学院气质和具有感染力的热情。


早在1968年, Winograd就尝试让一台机器具有智能谈话的能力。作为一位对语言着迷的数学天才,他到当时MIT刚成立的AI实验室攻读博士学位,他决定开发一个能够与人交谈的程序,虽然只是文字界面,但使用的是人类的语言。在当时这看起来并没有什么奇异的野心,因为当时AI领域已经有了很大进步,MIT的其他研究院已经在建造复杂的计算机视觉系统和充满未来感的机械手臂。“这些实验充满了未知的、无边际的可能性。”他回忆道。


但当时并不是所有人都认为语言是很容易掌握的。包括有影响力的语言学家、MIT教授Noam -Chomsky 在内的一些理论家感觉到在让机器理解语言方面的研究会遇到困难,因为我们最自己语言发生机制的了解实在太少了。 Winograd记得当时参与的一个聚会中, Chomsky的一个学生当听说他在AI实验室工作后,径直走开了。


然而也有让他们感到乐观的因素。 Joseph -Weizenbaum, MIT一位生于德国的教授,在当时的几年前就已经开发出第一聊天机器人程序。这个程序叫 ELIZA,它扮演一个卡通版的精神治疗医生的角色,重复病人陈述中的关键部分,或者提出一些问题让对话深入。比如你告诉这个程序你在生母亲的气,它就会说,“想起你母亲时,除了愤怒还有什么别的想法吗?”虽然只是一种廉价的诡计,但却起到了令人惊奇的效果。 Weizenbaum教授惊讶地看到,一些人开始对他的机器承认他们心里秘密的阴暗面。


Winograd想创造一些能够真正理解语言的东西。他从缩小问题的范围开始入手。他创造了一个简单的虚拟环境,“体块世界”,里面有一些虚拟的物体围绕着一张虚拟的桌子。然后他创建了一个程序,他起名为SHRDLU,这个程序可以分析出所有的名词、动词和简单语法规则,用来描述这个简化的虚拟世界。 SHRDLU(一个没有意义的词语,由莱诺铸造排字机的第二列字母组成)可以描述虚拟世界中的物体,回答关于它们之间关系的问题,还能根据输入的命令对这个世界作出相应的改变。它甚至还拥有某种记忆,比如你让它移动“红色圆锥体”,随后如果再提到“圆锥体”,它能假设你提到的就是“红色圆锥体”而不是别的颜色的。


SHRDLU被当做AI领域发生意义深远的进步的典型。但这只是一个幻想。当 Winograd试着让他的体块世界变得更大、更复杂,所需要的词语和语法变得更多更复杂,控制这些所需要的规则复杂得失去了控制。过了几年,他就放弃了,并且最终放弃了AI而转向别的领域的研究。“当时受到的限制比看起来要大得多。”他说。


Winograd总结道,以当时既有的工具是无法让机器具有语言理解能力的。关于这个问题,加州伯克利大学哲学教授 Hubert Dreyfus在1972年出版的《计算机无法做的事》一书中有所论述,他认为人类做的很多事情都需要一种人类独有的智能,这些事情无法通过一些僵硬的、快速的规则归纳出来。这正是在李世石与AlphaGo的比赛前,很多专家仍然对机器下围棋的能力感到怀疑的原因。


即使 Dreyfus做出那样的论述,实际上还有一些研究者仍在开发一些最终能让机器拥有人类智能的方法。由于从神经科学中寻找到了一些灵感,他们在实验一种人造神经网络——多层用学算法模拟出来的神经元,可以被训练就某些特定的输入信息发生响应。在开始时这些系统缓慢的程度让人感到痛苦,而且这种方法由于在逻辑推理上不实用而被废止。但关键的是,神经网络可以学习做一些无法被手工编码的事情,之后被证明在一些简单的任务中是非常实用的,例如识别手写文字,这个技能在1990年代被商业化用于阅读支票上的数字。这个技术的拥护者坚持认为神经网络最终能够让机器做远远更多的事情。他们认为有一天,这一技术可以用来理解语言。


经过过去几年的发展,神经网络变得极度复杂和强大。这个成就受益于关键数学算法的改良,更重要的是有了更快的计算机硬件和大量的数据。2009年前后,多伦多大学的研究者们证明了多层的深度学习神经网络可以识别出良好录音的讲话。在随后的2012年,同一个研究组在一次机器视觉竞赛中胜出,他们使用了具有惊人准确度的深度学习算法。


一个深度学习神经网络可以用一种简单的方法识别出图像中的物体。第一层虚拟神经元接受来自图像的信息,一些神经元会根据图像像素的密度发出信号,这些信号会在很多层相互连接的神经元中传递,然后到达最后一层作为信号输出的神经元,最后输出的信号组成了作为识别结果的物体。一种被称为反向传播(backpropagation)的数学算法被用来调整神经网络的敏感度以产生正确的反应。正是这一步骤让这个系统具有学习的能力。网络中的不同层将对不同的特性产生反应,如边界、颜色和图案等。这样的系统现在可以用来识别图片中的物体、动物或者人脸,识别准确度可以与人类媲美。


在语言问题上应用深度学习有一个明显的问题。因为文字是带有主观判断的符号,跟图像有根本上的区别。比如说,两个意思相近的词可能由完全不同的字母组成,而同一个词在不同的语境中会有不同的意思。

在1980年代,研究者就想出了一个聪明的方法,能把语言问题转化成神经网络可以处理的问题类型。他们把词语以数学向量的方式表示,这样就可以计算出将关联词汇之间的相似度。比如,“船”和“水”两个词在向量空间中是相近的,虽然它们写法完全不同。蒙特利尔大学由 Yoshua Bengio领导的研究团队和来自Google的另一个团队已经在神经网络中使用了这个方法,可以让句子中的每个词用一种更复杂的方式呈现出来。多伦多大学教授、在Google兼职工作额著名深度学习研究者 Geoffrey Hinton把它称为“思维向量”(thought vector)。


利用这种神经网络,在两种语言之间进行精确的翻译成为可能。将这种类型的神经网络与那种用于从图像中识别物体的神经网络结合起来,就有可能可以为图片加上相当准确的说明文字。


生活的目的

有功于深度神经网络开发的Google研究员 Quoc Le此时正坐在Google繁忙的中部大楼中心的会议室里,他正在思索着关于能够进行正常对话的机器的问题。他的野心正是从会交谈的机器为什么会有用这一核心问题切入的。“我想要一种能够在机器中模拟思维的方法,”他说,“如果你想要模拟思维,你就应该有能力去问一台机器它在想什么。”


Google已经开始让计算机学习基础语言。今年五月Google公开了一个叫做 Parsey McParseface的系统,可以识别语法,在文字中识别出名词、动词等语言要素。提高机器对语言的理解能力对这个公司的好处不言而喻。Google的搜索算法曾经只是简单地利用关键词跟踪网页的链接,如今它使用了一个叫RankBrain的系统,它能阅读网页中的文字、搜集其中的意义,然后给出更好的搜索结果。Le希望将这个系统更进一步。他们改进了适用于翻译和为图片配说明文字的系统,推出了一个叫做 Smart Reply的系统,可以阅读Gmail邮件中的内容,为用户推荐几种可能的回复内容。他还开发了一个程序,可以从Google的IT服务聊天记录中学习如何回答简单的技术问题。


最近,Le还开发出了可以为开放问题提供还过得去的回答的程序,这个程序从18900部电影中学习对话。它的一些回答显示出令人惊异的智慧。比如,Le曾问道:“生活的目的是什么?”这个程序回答:“为了服务于更好的善。”(To serve the greater good.)“这个回答真好,”Le回忆时笑了起来,“应该比我自己回答的要好。”


但这个系统还有一个问题,当你看到它的更多回答是这个问题就显现出来了。Le问:“一只猫有几条腿?”系统回答:“四条,我觉得。”Le又问:“那么一条蜈蚣有多少条腿?”系统给出了一个奇怪的答案:“八条。”从根本上说Le的系统并不知道它自己在说什么。它能明白一些符号的组合放在一起,但它对真实世界是没有感知的。它不知道蜈蚣是什么样、怎么运动的。因此这仍然只是一个智能的幻象,并不具备人类习以为常的常识。正是在这一方面深度学习系统常常出错。Google为图片配说明文字的系统会出现一些离奇的错误,比如把路标的图片描述为塞满食物的冰箱。


巧合的是, Terry -Winograd在帕洛阿尔托的隔壁邻居正是尝试让计算机真正理解词语实际意义的人。李菲菲(音)是斯坦福人工智能实验室的领导人,我访问她时正在休产假,但她邀请我到了她家,并向我自豪地介绍了她三个月大的孩子Phoenix。“她看你多过看我,”李菲菲在Phoenix盯着我看时说,“这是因为你是陌生人,这是婴儿早期的脸部识别行为。”


李菲菲职业生涯中的大部分时间都在研究机器学习和计算机视觉。几年前她领导了一个项目,为计算机搜集了成千上万带有物体的图片的数据库,每一张都以一个适当的关键词作为标记。但李菲菲相信机器需要对世界上发生的事情有更复杂和成熟的理解能力,今年她的团队发布了另一个图片数据库,每一张都带有细节更加丰富的注释。图片的标签由许多认为的描述构成:“一只狗在骑滑板”、“小狗有着蓬松的、波浪形的毛”、“路面上有裂纹”等等。她的希望是机器学习系统能够学会理解真实世界中更多的事情。“大脑中的语言区域会获取大量的信息,包括从视觉上获取的信息,”李菲菲说,“AI的一个重要部分就是要与这些信息获取系统相结合。”


这已经与儿童学习理解这个世界的方式相近,将词语与物体、关系和动作等信息关联起来。但对人类学习过程的模仿只能走这么远。幼龄儿童不需要真正看到骑滑板的小狗就能够想象并用语言描述出来。其实李菲菲认为今天的机器学习和AI工具并不足以带来真正的人工智能。“仅有丰富数据的深度学习是不够的,”她说。她相信AI研究者需要考虑如情绪和社交智能等等方面。“我们人类害怕处理大量数据,”她说,“但我们善于进行抽象和创新。”


没有人知道如何让机器具有那些人类的能力——如果可以实现的话。人类是否具有一些独特的能力,超出AI的能力范围了呢?


像MIT的 Tenenbaum那样的感知科学家提出理论说今天神经网络系统缺乏人类意识中的一些重要组成部分,无论人工神经网络的规模有多大。人类有能力从相对少量的数据中快速地学习,并且天生能够对世界进行三维的理解。“语言是建立在其它更为基础的感知能力上的,在幼儿学会说话前这些能力就表现出来了:对世界进行视觉感知,操作可以运动的物体,理解世界中的实体和其它智能体的目的。” Tenenbaum说。


如果他是对的,那么就有可能在机器和AI系统中重构语言理解能力而不需要模仿人类学习、意识建立和心理建设的过程。


表达你自己

Noah Goodman位于斯坦福的心理系的办公室非常空旷,除了一面墙上挂的几幅抽象画和一些过度生长的植物。我到达那里时, Goodman正在一台笔记本电脑上打字,他把光着的双脚放在桌上。我们一起漫步穿过洒满阳光的校园去喝一杯冰咖啡。“语言是非常特殊的,它依赖于大量语言本身的知识,还依赖于大量对于这个世界的常识,这两方面以一种微妙的方式结合在一起。”他解释说。


Goodman和他的学生开发出了一种编程语言,叫做 Webppl,可以赋予计算机一种基于概率的常识,这种常识被证明在对话中是非常有用的。一个实验中的版本可以理解双关语,而另一个版本可以处理夸张的语言手法。如果你告诉这个系统一个人需要在餐馆桌子旁“永远地”等待,系统会自动识别出字面上的意思是不可能发生的,实际的意思很可能是“等待很长的时间并感到不耐烦”。这个系统距离真正的智能还很远,但它展示了让AI程序用更像真人的方式聊天的新方法。


同时, Goodman的例子还说明了教机器学语言的困难程度。理解“永远”一词在上下文中的意思是AI系统需要学习的事情,但他们用的学习方法相当简单和原始。


虽然这个问题具有困难和复杂性,研究人员利用深度学习技术在图片识别和围棋比赛方面获得的惊人成就至少为我们带来了一些希望,我们可能正走在突破语言难题的边缘。如果是这样,这些优势也会同时到来。如果AI是作为一个无所不在的、能够增强人类智能的工具,并且能够与人类进行无缝的合作,那么语言就是关键。语言问题在AI系统逐渐应用深度学习和其它技术来从根本上自我塑造的时候,显得尤为关键。


“总的来说,深度学习系统令人惊叹的,”MIT研究自动驾驶的教授 John Leonard说,“但另一方面,目前它们的表现真的是难以理解。”


丰田汽车公司正研究一系列的自动驾驶技术,并在MIT开启了一个研究项目,由人工智能及编程语言专家 Gerald Sussman领导,打算开发可以解释做出某一操作原因的自动驾驶系统。自动驾驶系统要做到这一点最显著的方法是通过交谈。“建立能够知道自己知道什么的系统是一个大难题,” 在MIT领导另一个丰田所支持项目的Leonard说,“但理想的情况是它们不仅能够给出答案,还能给出解释。”


在回到加州几周后,按我见到了Google-DeepMind设计出AlphaGo的研究员 David Silver,他在纽约的一次学术讨论会中谈到了与李世石之间的比赛。


Silver解释说当程序在第二盘棋中想出杀招的一步棋时,他的团队跟别人一样地感到吃惊。他们看到的只是AlphaGo预测自己的获胜概率,在37回合之后并没有多大改变。几天后经过仔细分析,Google的团队才有所发现:通过先前的学习,程序计算出人类选手下同一步棋的概率是万分之一,并且显示了这一步可以为棋局促成强大的优势局面。


用这种方式,这个机器可以得知李世石会被出其不意地袭击。


Silver说Google在考虑将这一技术用于商业的几种方式,包括一些类型的智能助手以及健康监护的工具。此后,我问及与这些系统背后的AI交流的重要性。“这是个有趣的问题,”他停顿了一会后说,“对于一些应用方式来说这可能是重要的,像健康护理,患者知道基于什么样的理由做出某个决定是很重要的。”


确实,随着AI系统变得越来越成熟和复杂,越来越难以想象我们在不用语言的情况下与它们如何合作——甚至不能问他们“为什么”。而且,能够轻松地与计算机交谈可以让它们变得更有用,而不会让它们缺乏魔力。毕竟语言是我们理解世界、与世界互动所使用的最有力的方式。该是时候让机器在这方面跟上我们的步伐了。


欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:418451831

tags: AI,语言,Google,AlphaGo,机器,学习,人类,理解,MIT,程序,围棋,Le,Winograd
分页:12
转载请注明
本文标题:人工智能的语言难题
本站链接:https://www.codesec.net/view/455103.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 商业智能 | 评论(0) | 阅读(262)