《中文信息》

分类:范例范文 发表时间:2022-03-13 01:00:00

中文信息》 自然语言处理中的评测任务引导和推动着技术、模型和方法上的研究.近年来,新的评测数据集和评测任务不断被提出,与此同时,现有评测暴露的一系列问题也限制了自然语言处理技术的进步.该文从自然语言处理评测的概念、构成、发展和意义出发,分类综述了主流自然语言处理评测的任务和特点,进而总结归纳了自然语言处理评测中的问题及其成因.最后,该文参照人类语言能力评测规范,提出类人机器语言能力评测的概念,并从信度、难度、效度三个方面提出了一系列类人机器语言能力评测的基本原则和实施设想,并对评测技术的未来发展进行了展望.在线社交网络中,微博平台的便捷性和开放性,给信息的传播和爆发提供了很大的便利.转发是微博平台上用户的重要行为,也是信息传播的关键机制.基于转发行为,分析一条推文是否被用户转发或者一段时间后的转发量,可以使我们更好地了解信息的传播特性,探索用户的行为与兴趣,以此推进信息推荐、预防突发事件和舆情监控等应用发展.该文较为系统地梳理了预测微博是否被转发及某段时间后的转发量这两方面的相关研究工作,着重阐述了基于用户、社交和内容特征的预测模型建立的过程并评价其预测性能,分析了微博转发行为的相关预测技术面临的挑战,展望了未来的可能研究方向.目标级情感分类任务是为了得到句子中特定评价目标的情感倾向.一个句子中往往存在多个目标,多个目标的情感可能一致,也可能不一致.但在已有针对目标级情感分类的评测数据集中:①大多数是一个句子一个目标;②在少数有多个目标的句子中,多个目标情感倾向分布并不均衡,多个目标情感一致的句子占较大比例.数据集本身的缺陷限制了模型针对多个目标进行情感分类的提升空间.针对以上问题,该文构建了一个针对多目标情感分类的中文数据集,人工标注了6339个评价目标,共2071条数据.该数据集具备以下特点:①评价目标个数分布平衡;②情感正负极性分布平衡;③多目标情感倾向分布平衡.随后,该文利用多个目标情感分类的主流模型在该数据集上进行了实验与比较分析.结果表明,现有主流模型尚不能对存在多个目标且目标情感倾向性不一致实例中的目标进行很好的分类,尤其是目标的情感倾向为中性时.因此多目标情感分类任务具有一定的难度与挑战性.

基于Transformer的序列转换模型是当前性能最优的机器翻译模型之一.该模型在生成机器译文时,通常从左到右逐个生成目标词,这使得当前位置词的生成不能利用译文中该词之后未生成词的信息,导致机器译文解码不充分从而降低译文质量.为了缓解上述问题,该文提出了基于重解码的神经机器翻译模型,该模型将已生成的机器译文作为目标语言近似上下文环境,对译文中每个词依次进行重解码,重解码时Transformer解码器中遮挡多头注意力仅遮挡已生成译文中的当前位置词,因此,重生成的每个词都能充分利用目标语言的上下文信息.在多个WMT机器翻译评测任务测试集上的实验结果表明:使用基于重解码的神经机器翻译方法显著提高了机器译文质量.译文质量估计作为机器翻译中的一项重要任务,在机器翻译的发展和应用中发挥着重要的作用.该文提出了一种简单有效的基于Transformer的联合模型用于译文质量估计.该模型由Transformer瓶颈层和双向长短时记忆网络组成,Transformer瓶颈层参数利用双语平行语料进行初步优化,模型所有参数利用译文质量估计语料进行联合优化和微调.测试时,将待评估的机器译文使用强制学习和特殊遮挡与源语言句子一起输入联合神经网络模型以预测译文的质量.在CWMT18译文质量估计评测任务数据集上的实验结果表明,该模型显著优于在相同规模训练语料下的对比模型,和在超大规模双语语料下的最优对比模型性能相当.现有的命名实体识别方法主要是将句子看作一个序列进行处理,忽略了句子中潜在的句法信息,存在长距离依赖问题.为此,该文提出一种基于依存关系的命名实体识别模型,通过在输入数据中增加依存树信息,改变双向长短时记忆网络的层间传播方式,以获得单词在依存树中的子节点和父节点信息,并通过注意力机制动态选择两者的特征,最后将特征输入到CRF层实现命名实体标注.实验表明,该方法较BiLSTM-CRF模型在性能上得到了提高,且在长实体识别上优势明显.在OntoNotes 5.0 English和OntoNotes 5.0 Chinese以及SemEval-2010 Task 1 Spanish上的F1值分别达到了88.94%、77.42%、84.38%.

关系三元组抽取是构建大规模知识图谱的基础,近年来受到学术界和工业界的广泛关注.为了提高模型对重叠关系三元组和多槽值关系三元组的抽取能力,该文提出了一个基于神经网络的端到端的关系三元组抽取模型BSLRel.其主要特点是将关系三元组抽取任务转化为级联的二元序列标注任务,并使用多信息融合结构Con-ditional Layer Normalization进行信息融合.实验结果显示,BSLRel模型对重叠关系三元组和多槽值关系三元组具有较强的抽取能力.基于BSLRel模型,该团队参加了"2020语言与智能技术竞赛"中的关系三元组抽取任务,并取得了第五名的成绩.情绪原因识别是文本情绪分析领域中的一个前沿研究方向.传统情绪原因识别方法需要进行规则制定、抽取特征,而该文从情绪原因的语言特点出发,结合Bi-LSTM模型和注意力机制,提出一种基于情绪上下文位置注意力神经网络的情绪原因识别方法(ECPA).该方法考虑了情绪词和情绪类别中的情绪信息,学习了Bi-LSTM模型建模后的上下文语义信息,引入了基于位置信息的注意力机制模型,进而构建情绪原因识别模型.实验结果证明,该方法在情绪原因识别任务中的有效性,并取得了目前最优的性能,同时对情绪归因方法具有一定的指导作用.虽然近年来情感分析相关研究取得很大进展,但跨领域属性情感分析仍是一个挑战.现有的方法主要关注源领域和目标领域的共有信息,忽略了目标领域的特有信息.此外,情感词作为句子中的重要信息,不仅能反映属性的情感极性,而且可以被划分为共有情感词和特有情感词.针对目标领域的特有信息和情感词,该文提出领域特有情感词注意力模型(DSSW-ATT).该模型设立两个独立的子空间,分别使用注意力机制提取共有情感词特征和特有情感词特征,并建立相应的共有特征分类器和特有特征分类器,同时使用协同训练方法融合这两种特征.该文还构建了酒店领域(源领域)和手机领域(目标领域)的属性级用户评论数据集.在该数据集上的实验结果表明,该方法明显优于基线方法.

关键词: