外国语言文化学院李佐文教授在《光明日报》语言文字版发表署名文章

发布单位:《光明日报》语言文字版编辑:刘雨君发布日期:2020/07/22浏览量:1391

7月18日,中国传媒大学外国语言文化学院李佐文教授和人文学院张乔童博士在《光明日报》(语言文字版)第12版刊发理论文章《人工智能拓宽话语研究路径》,全文如下:



在互联网时代,以话语为呈现方式的海量信息全部依靠人工分析是不现实的,要实现大规模文本数据的自动语义处理,就必须搞清楚话语的语义特征、表征规律等。人工智能拓宽了话语语言学研究的路径和领域。随着机器计算和存储能力的大幅提升,特别是以神经网络为基础的深度学习应用到自然语言处理,计算机对语言的处理不再停留在词、句层面,而是有能力处理话语层面的语义信息。话语是由连续的语句构成,形式上相衔接,语义上相连贯,具有一定交际目的和功能的语言使用单位,也称为语篇或文本。一般来说,话语是大于句子,具有一定交际功能的语义单位,其表现形式为故事杂文、新闻报道、社交信息、访谈文字等。

近年来,自然语言处理作为人工智能的重要领域之一,在词性标注、命名实体识别、句法分析等方面取得了可喜成果,但在语用层面的自动语义处理方面还处于起步阶段。从长远来看,机器能像人类一样自如地理解自然语言,是这个领域的短板,也是走向强人工智能的关键。为此,话语研究者可围绕语言使用过程中的语义问题,深入探讨以下几个问题。

首先,话语生成和理解过程中大脑神经认知机制研究。话语是人们在社会交往过程中对语言系统的使用,它既是认知对象又是认知过程,表现为语言使用者如何感知、理解、记忆、评价语言单位,以及如何表达交际意图。认知科学在解释话语的可计算性、话语意义表征、语篇知识和语境知识相互作用等方面作出了贡献;认知心理学在研究语言生成理解方面提出了很多模型,为话语计算奠定了基础。然而,话语理解过程中的神经系统是如何操作的仍然是一个黑箱。神经网络对于输入的信息会有一个输出结果,但在高维空间的计算过程很难得以解释。例如,人脑做决定是一种思维活动,至于决策是如何生成的,以及决策过程是怎样进行的却难以解释。加强话语生成和理解的机制研究,不断探索人类语言使用过程中的大脑神经活动规律,将有助于研发自适性强,可分析推理,具有自主学习等特点的机器学习新理论。

其次,跨语言、多语类文本语义表征的结构化规律。通用型语义结构模型是提高话语计算质量、让机器理解人类自然话语的重要环节。近年来,搜索引擎、舆情监控、自动文摘等应用领域对话语的自动语义分析提出了迫切需求。然而,目前自然语言处理的大部分研究局限在句级单位以下。有些语义问题在句法层面是解决不了的,它存在于文本的字里行间,存在于句与句、段落与段落之间,要想让计算机真正理解话语的意义,必须研究句间的连贯关系,研究整体话语的形式化结构,从而实现由表面结构到内部意义的映射,真正理解交际意图。话语的表现形式多种多样,将表层非结构化的文字序列转化成深层有结构的语义表征,刻画出各个部分之间的语义关联绝非易事。探索多语种、适用于各种语类文体的通用型语义结构模型,能使其融合话语内部信息和话外背景知识,进而更好地理解话语的主旨和意图,正是话语研究者在人工智能时代需要解决的重大问题。

最后,多语种、跨模态的语料库和语料资源建设,尤其是标记文本层面宏观语义关系的语料库建设。深度学习在自然语言处理方面的应用解决了词汇形态、句法结构等很多问题,但标记宏观语义关系的语料资源相当短缺。基于神经网络的深度学习依赖于大规模有标注信息的丰富语料,在训练过程中学习和掌握话语的结构性特征,如连贯关系、语篇结构、情感倾向等。然而,由于语料资源的匮乏以及语篇关系分析任务本身的复杂性,迄今为止,汉语语篇关系和结构识别研究尚处于初级阶段,这在一定程度上制约了自然语言处理向纵深方向发展。此外,研制开发语篇的宏观结构关系语料库,有助于解决自然语言理解过程中的语义推理问题,这是认知智能需要解决的另外一个问题。

话语的计算研究既是语言学自身发展需要,也是人工智能对语言学提出的必然要求。人们的话语意图、主要观点、情感态度、舆论立场只有从话语整体层面才能得以准确地获取和分析。如何做到让计算机真正理解人类话语,实现从表层结构到深层语义的映射,达到图灵所说的像人类一样理解语言,是认知智能领域未来的方向。


作者:李佐文,系中国传媒大学外国语言文化学院院长、教授;张乔童,系文学院语言学及应用语言学博士研究生

原文链接:https://epaper.gmw.cn/gmrb/html/2020-07/18/nw.D110000gmrb_20200718_2-12.htm