来源:大连理工大学
自然语言处理(Natural Language Processing, NLP)是指运用计算机技术对自然语言进行处理、理解并运用,是人工智能领域研究的重要方向之一。目前自然语言处理技术主要运用于机器翻译、个性化推荐、信息搜索及筛选与过滤、字符识别和语音识别、观点分析等,具有广泛的研究和应用前景。近日,计算机学院信息检索研究团队(DUTIR)在自然语言处理领域的研究取得系列突破,多项科研成果被自然语言处理相关领域顶级会议和期刊录用。
图1.仇恨言论检测机制研究框架图
仇恨言论在互联网上的肆意传播给社会和家庭带来了极大的伤害,因此迫切需要建立和改进针对仇恨言论的自动检测和主动回避机制。尽管存在用于仇恨语言检测的方法,但它们会因为对单词的刻板印象而在训练过程中遭受“固有的偏见”。团队聚焦于互联网中的仇恨言论检测和主动回避机制的研究成果“Hate Speech Detection Based on Sentiment Knowledge Sharing”被自然语言处理顶级会议Association for Computational Linguistics 2021(ACL2021,CCF A类会议)录用。本研究提出了一种基于情感知识共享的仇恨语音检测框架,在提取目标句子本身的情感特征时,能更好地利用外部资源中的情感特征,并融合来自不同特征提取单元的特征来检测仇恨言论。
图2.多模态隐喻数据集的数据分布
隐喻是十分普遍的语言认知现象,隐喻计算也是自然语言处理中最具挑战性的难题之一。但由于多模态隐喻数据资源的匮乏,目前隐喻研究多局限于对文本中隐喻现象的识别。为解决上述问题,团队聚焦多模态隐喻计算的数据集构建、为多模态隐喻计算研究提供高质量的数据资源,研究成果“MultiMET: A Multimodal Dataset for Metaphor Understanding”被自然语言处理顶级会议Association for Computational Linguistics 2021(ACL2021,CCF A类会议)录用。本研究以社交媒体和广告等多模态隐喻出现频率较高的平台作为数据的主要来源,规范多模态隐喻的概念界定及类别划分方式,建立多环节的质量监控机制,利用统计学对数据进行分析验证,提出了第一个大规模、高质量的多模态隐喻数据集。同时基于此多模态数据集进行了一系列基线实验,利用多模态数据间的相互作用论证了多模态数据对于隐喻识别任务的重要性。该成果将隐喻计算研究从单纯的文本扩展到多模态,推动了隐喻计算向多模态的发展,为隐喻识别任务在未来的探索提供了新的方向,对于隐式语义研究和发展具有重要的意义。
图3.槽位填充与意图检测的联合学习研究框架
团队围绕自然语言处理对话任务中的槽位填充与意图检测的联合学习开展的研究“Focus on Interaction: A Novel Dynamic Graph Model for Joint Multiple Intent Detection and Slot Filling”被人工智能顶级会议International Joint Conference on Artificial Intelligence 2021(IJCAI2021,CCF A类会议)录用。口语理解是任务型对话的重要组成部分,它由槽位填充和意图检测两个子任务组成。但是由于Pipeline(流水线,计算机领域指按照工序进行顺序处理)方法的错误传播及两个任务的高度相关性,联合学习的方法往往优于Pipeline方法。目前的联合学习方法多针对于单意图的场景,而在现实场景中,用户经常在一句话中表达多个意图。本成果提出了针对槽位填充和多意图检测的动态图模型,该模型可以直接建立两个任务之间的联系,且提出的动态交互图可以有效缓解噪音。同时,该模型在训练过程中能够动态更新交互图,从而更好的建模意图和槽位之间的关系,提升人机对话的友好交互。
图4.基于语义网络的关联事实预测研究框架
语义网络是一种广泛存在的图结构数据,基于语义网络的关联事实预测是挖掘网络中隐含知识的重要方式,可以探索事实间潜在的、有价值的关联关系,但先前普遍用于关联事实预测的方法更关注网络的拓扑特征,而忽略了语义信息的作用。团队针对语义网络的多维建模和知识挖掘问题完成的成果“A Semantic Network Encoder for Associated Fact Prediction”发表在数据挖掘重量级期刊IEEE Transaction on Knowledge and Data Engineering(TKDE,CCF A类期刊)上。研究提出了一种语义网络编码器,该编码器适应多种形式的语义网络,能够对网络的拓扑特征和语义特征进行联合建模。同时,编码器内置了一种基于事实边界的词自组织方法,能够融合同一事实的语义特征和拓扑特征,从而增强事实向量的信息表达能力。