《中文信息》

分类:范例范文 发表时间:2022-03-13 01:00:00

中文信息》 反讽是一种复杂的语言现象,被广泛应用于社交媒体中.如何让计算机具有识别反讽的能力,成为了自然语言处理研究领域的热门研究内容之一.该文针对反讽识别中缺乏上下文语境信息和修辞表达信息的问题,提出了基于多语义融合的反讽识别方法.该方法采用ELMo从大规模反讽文本中训练得到领域词嵌入表示,并融合基于词性和基于风格信息的语义表示,使用双向长短时记忆网络和卷积神经网络进行反讽识别.实验结果表明,所提出模型能够从多个维度提取反讽文本的潜在语义特征,在公开数据集IAC上的实验性能有显著提升. 目前社会群体研究主要集中在将群体划分为多个社区.然而,在一个群体中,通常希望所有的成员团结一致,形成一个具有凝聚力的群体,这对社会群体的合作以及社会习俗形成等相关研究具有广泛意义.因此理解社会凝聚力与社会群体的动态行为之间的关系显得十分重要.该文在合作博弈的基础上,建立了社会群体动态行为模型.基于传统网络拓扑结构,该文研究了在社会群体中增强凝聚力的策略,提出了基于最大团的CPMC和CPIN算法,通过特定的干预机制,将整体划分为两层,选择边缘层节点加入核心层,同时增加节点之间的链接,从而使社会群体具有更好的社会凝聚力,并且通过实验验证了算法的有效性.由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战.现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练.该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能.CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正.为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法.CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型.

自然语言推理任务的目的是推断两个句子之间的语义逻辑关系.该文通过模仿人类的推理过程构造模型,首先利用长短时记忆网络提取词的语境特征,模仿人类粗读句子的过程;然后依据外部语义知识,连接两个句子中有语义联系的词,构造一个以词为节点的语义图;接下来模仿人类比较两个句子的语义角色相似性的思维,用图卷积或图注意力神经网络聚合词在图中的空间特征;最后融合词的语境特征和语义图空间特征,进行推理分类.实验结果证明,基于图神经网络的模型能有效利用外部语义知识来提高自然语言推理的准确率.在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果.当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集.该文首次提出跨领域中文标点符号预测任务,该任务首先利用标点符号基本规范正确的大规模新闻领域文本,建立标点符号预测模型;然后在标点符号标注不规范的社交媒体及问答领域,进行跨领域标点符号预测.随后,构建了新闻、社交媒体及问答三个领域的相应数据集.最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析.实验结果表明,直接利用新闻领域训练的模型,在社交媒体及问答领域进行标点符号预测的性能均有所下降,在问答领域下降较小,在微博领域下降较大,超过20%,说明跨领域标点符号预测任务具有一定的挑战性.自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等.其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定.该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型.实验结果表明,该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果.

该文以情感词汇词典为依托,通过四部小说中情感词汇的提取,对比和分析四部小说用词的情感分类、词性种类、极性和强度.在此基础上研究汉语作为第二语言(Chinese as a second language,CSL)学习者对"接受性词汇"的情感词汇熟悉度测量表现和"产出性词汇"的情感词汇输出表现,并进行了科勒-拉普假设检验.该文发现,现代汉语长篇小说在情感词汇的使用上,并不会因为作者、题材、内容不同而产生较大差异,文本中21类情感词赞扬类和贬责类占总词数的一半.另外,CSL学习者对频率高的情感词汇熟悉度不够,他们在产出情感词汇时动词和形容词产出不够丰富,悲伤类的词语产出较少,对表达强烈感情的词汇掌握的也不够多.汉字的表义性是其区别于表音文字的一大特点.部件作为构字单位,同汉字的意义之间有着很大的联系.然而,汉字部件的表义能力究竟如何是学界尚待讨论的课题.针对这一问题,该文从汉字部件入手,提出了融合部件的字词分布式表示模型.该模型在向量内部评测任务上性能获得了一定提升,在汉字理据性测量任务上也与人工打分结果显著相关.基于该模型,进一步提出了部件表义能力的计算方法,对汉字部件的表义能力做了整体评估,并结合部件的构字能力建立了现代汉字部件的等级体系.测量结果显示,现代汉字部件具有一定表义能力,但整体而言表义能力偏低.最后,将测量结果应用于对外汉语教学中,确立了适用于部件教学法的部件范围,并提出了对应的汉字教学顺序方案.成人大脑究竟能否掌握新的语言规则,是语言学习研究领域一直存在争议的问题.习得年龄、输入量和相似性,哪个才是影响语言规则学习的重要因素?学界始终没有统一的结论.该文以成年汉语母语者为研究对象,基于小数据的人工语法学习(artificial grammar learning,AGL)范式设计实验,采用跟踪调查和事件相关电位技术,探讨在高/低输入量条件下,人脑加工与汉语相似程度不等的三种句法结构时的神经机制.结果发现,成人可以在小数据学习范式下,运用无监督学习方法掌握新的语言规则;人脑可以基于少量的规则输入习得多种人工语法规则,并表现出趋近于母语加工的自动加工模式;人脑通过竞争的方式习得新的语言规则.该研究丰富了AGL范式下的语言学习理论,并可以对自然语言处理相关研究提供一些启示.

关键词:

相关阅读