3 自然语言处理
简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
图3 人机对话中涉及的自然语言处理
值得一提的是,自然语言处理的兴起与机器翻译这一具体任务有着密切联系。机器翻译指的是利用计算机自动地将一种自然语言翻译为另外一种自然语言。例如自动将英文“I like Beijing Tiananmen Square”翻译为“我爱北京天安门”,或者反过来将“我爱北京天安门”翻译为“I like Beijing Tiananmen Square”。由于人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力。更不用说需要翻译一些专业领域文献时,还需要翻译者了解该领域的基本知识。世界上有超过几千种语言,而仅联合国的工作语言就有六种之多。如果能够通过机器翻译准确地进行语言间的翻译,将大大提高人类沟通和了解的效率。
目前自然语言处理技术的两大瓶颈就是大规模语料数据的建设,以及语义分析的进一步完善。随着智能硬件技术与移动技术的蓬勃爆发,自然语言处理技术的应用趋势也发生了变化。未来的自然语言处理技术有四大发展趋势:
需求识别。通过用户提出了多种多样的、复杂的、基于情感式的、语意模糊的需求进行深刻分析,精确地理解用户的需求。
知识挖掘。经过海量的网络数据与知识的挖掘分析,将各种结构化、非结构化、半结构化的知识进行组织与梳理,最终以结构化、清晰化的知识形式完整地呈现给用户。
用户引导。这与对话式智能交互相关,不仅根据用户的需求来提供“建议”,还能“猜测”用户可能会有什么未想到、未提出的需求,从而“先人一步”为用户提供相关的扩展信息。
结果组织和展现。由于用户更加青睐直接的答案,答案的形式可以是唯一答案、聚合答案、图片、多媒体的形式,这就要求自然语言处理技术能够将挖掘出的信息进行有效地组织与整理,以条理化、简洁化、直接化的形式呈现给用户。