编码机

微软副院长周明NLP目前存在的问题以及

发布时间:2022/9/20 16:31:41   
北京皮炎诚信医院 http://m.39.net/baidianfeng/a_8582670.html

雷锋网按:6月1日,在微软大厦举行的自然语言处理前沿技术分享会活动上,微软亚洲研究院(MSRA)副院长周明博士《自然语言处理前沿技术》为主题,分享了微软对神经网络翻译、聊天机器人等领域的思考,并接受了雷锋网等媒体的采访。

周明博士认为,语言智能是人工智能皇冠上的明珠,如果语言智能能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。

以下是周明博士的现场演讲和采访,雷锋网做了不改变原意的编辑。

人工智能和人类智能

人工智能是用电脑来模拟和实现人类的智能,而人类的智能大概分如下几个层次:

第一是运算智能,记忆、计算的能力,这一点机器早已经超过人类。

第二是感知智能,包括听觉、视觉、触觉;最近两年,随着深度学习的引入,大幅度提高语音识别和图像识别的识别率,所以计算机在感知智能层面已经做得相当不错了,在一些典型的测试题下,达到或者超过了人类的平均水平。

第三认知智能,包括理解、运用语言的能力,掌握知识、运用知识的能力,以及在语言和知识基础上的推理能力。过去认知智能主要集中在语言智能这块,即自然语言处理,它简单理解了句子、篇章,实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。我认为语言智能是人工智能皇冠上的明珠,如果语言智能能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。

最高一层是创造智能,人们利用已有的条件,利用一些想象力甚至有一些是臆断、梦想,想象一些不存在的事情包括理论、方法、技术,通过实验加以验证,然后提出新的理论,指导更多实践,最后产生很好的作品或产品。

自然语言处理的基础技术和核心技术

我介绍一下语言在认知智能的作用,在整个人工智能体系下的作用。自然语言处理就是体现语言智能重要的技术,它是人工智能一个重要的分支,帮助分析、理解或者生成自然语言,实现人与机器的自然交流,同时也帮助人与人之间的交流。我认为自然语言处理包括以下几方面内容,第一是NLP的基础技术,围绕不同层次的自然语言处理,比如说分词、词性标注、语义分析做一些加工。后面做任何其他新的技术或者应用都必须要用到基础技术。

中间这块是NLP核心技术,包括词汇、短语、句子、篇章的表示,大家所说的WordEmbedding就是在研究不同的语言单位的表示方法。它也包括机器翻译、提问和回答、信息检索、信息抽取、聊天和对话、知识工程、语言生成、推荐系统。

最后是“NLP+”,仿照“人工智能+”或“互联网+”的概念,实际上就是把自然语言处理技术深入到各个应用系统和垂直领域中。比较有名的是搜索引擎、智能客服、商业智能和语音助手,还有更多在垂直领域——法律、医疗、教育等各个方面的应用。

正如其他人工智能学科,自然语言处理也要有很多支撑技术、数据,包括用户画像,以提供个性化的服务,包括用来做训练之用的大数据,包括云计算提供、实施、训练的基础设施,包括机器学习和深度学习提供训练的技能。它一定要有各种知识支撑,比如领域知识还有常识知识。

微软对神经网络机器翻译的思考

这张图概括了神经网络机器翻译,简要的说,就是对源语言的句子进行编码,一般都是用的长短时记忆LSTM,方向进行编码。编码的结果就是有很多隐节点,每个隐节点代表从句首到当前词汇为止,与句子的语义信息。基于这些隐节点,通过一个注意力的模型来体现不同隐节点对于翻译目标词的作用。通过这样的一个模式对目标语言可以逐词进行生成,直到生成句尾。中间在某一阶段可能会有多个翻译,我们会保留最佳的翻译,从左到右持续。

这里最重要的技术是对于源语言的编码,还有体现不同词汇翻译的,不同作用的注意力模型。我们又持续做了一些工作,引入了语言知识。因为在编码的时候是仅把源语言和目标语言看成字符串,没有体会内在的词汇和词汇之间的修饰关系。我们把句法知识引入到神经网络编码、解码之中,这是传统的长短时记忆LSTM,这是模型,我们引入了句法,得到了更佳的翻译,这使大家看到的指标有了很大程度的提升。

此外,我们还考虑到在很多领域是有知识图谱的,我们想把知识图谱纳入到传统的神经网络机器翻译当中,来规划语言理解的过程。我们的一个假设就是虽然大家的语言可能不一样,但是体现在知识图谱的领域上可能是一致的,就用知识图谱增强编码、解码。具体来讲,就是对于输入句子,先映射到知识图谱,然后再基于知识图谱增强解码过程,使得译文得到进一步改善。

聊天机器人是下一个平台?

下一个方向就是“对话即平台”,英文叫做“ConversationasaPlatform(CaaP)”。年,微软首席执行官萨提亚在大会上提出了CaaP这个概念,他认为继有图形界面的下一代就是对话,它会对整个人工智能、计算机设备带来一场新的革命。

为什么要提到这个概念呢?我个人认为,有两个原因。

第一个原因,源于大家都已经习惯用社交手段,如

转载请注明:http://www.aideyishus.com/lkjg/1539.html

------分隔线----------------------------