据外媒报道,在最近更新的自然语言理解(NLU)榜单SuperGLUE上,微软的DeBERTa模型和谷歌的T5+Meena模型分列第一第二,超越人类基准线。这是人工智能(AI)首次在SuperGLUE中表现超越人类,标志着迈向通用AI的重要里程碑。
近年来,AI技术高速发展,已被应用到各个领域,机械、电子、经济甚至哲学,都有所涉及;人们对它的需求也从计算智能、感知智能到了以自然语言处理(NLP)为代表的认知智能的层面。没有成功的NLP,就不会有真正的认知智能。因此,NLP被视为AI极具吸引力的研究领域以及AI必须优先解决的核心问题。
由于AI技术包括认知智能,而语言在认知智能起到最核心的作用。如果能把语言问题解决了,该技术最难的部分也就基本解决了。美国微软公司创始人比尔·盖茨先生曾说过,“语言理解是人工智能领域皇冠上的明珠。”这一方面表明了NLU的重要性,另一方面也显现出了NLU的技术难度。
造成这一困难的根本原因是语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。因此, 要实现NLU,远不如人们原来想象的那么简单,而是十分困难的。未来,需要探索更强大的结构化语义表示空间;也许这是下一轮NLU取得革命进展的突破口之一。不过,从现有的理论和技术现状看,通用的、高质量的NLP系统,尤其是应用软件,仍然是较长期的努力目标。
中国著名科学家周海中先生在《自然语言理解的研究历程》一文中曾指出:“虽然现今市场上出现不少可以进行一定自然语言处理的商品软件,但要想让机器能像人类那样自如地运用自然语言,仍是一项长远而艰巨的任务。”可见,要研制出通用的、高质量的NLP系统,仍然任重而道远。
在NLP领域,中国与国际上最先进的水平相比,差距并不是很大,甚至在某些方面国际领先。究其原因,一方面是因为在NLU为代表的AI研究上,中国与国际上的起步几乎是同期的;另一方面,近年来,浓厚的科研气氛和环境也为研究提供了基础条件,并研制和开发出一批NLP的实用软件。
NLU旨在让计算机掌握理解与处理自然语言能力,从而体现了AI的最高任务与境界。这就需要充分了解和融合已有的探索成果,以逼近自然语言的本质,才能设计出结构化语义表示空间,实现多模态复杂语境的理解,像人类那样智能地理解和使用自然语言,让AI更好地服务人类社会。