本篇文章1434字,读完约4分钟

科学技术日报记者刘园

人工智能经常是“棘手”的中文句子,哭笑不得。 在前几天举行的自然语言解决行业( nlp )顶级学术会议acl上,来自创新工场大湾区人工智能研究院的两篇论文入选。 这两篇论文都聚焦自然语言解决中文分词行业。

研究者表示,分词和词性标注是中文自然语言解决的基本任务,但目前没有较好的一体化处理方案,中文分词普遍存在歧义和未注册词的课题。 在此基础上,两篇论文分别提出了基于关键值记忆神经网络的中文分词模型和基于双通道观测器力度机制的分词和词性标注模型,并将外部知识(新闻)作为分词和词性标注模型

“AI不会断句?中文分词新模型帮它进步”

中文分词主要面临歧义和未注册词两大难点

据介绍,中文分词的目的是在中文单词序列中插入分隔符,将其分割为词。 例如,“喜欢音乐”分为“我/喜欢/音乐”。

创新工场大湾区人工智能研究院执行院长宋彦分解认为,汉语语言由于特殊性,分词时面临两个普遍的首要难点。

是歧义问题,中文有很多歧义,所以普通的分词工具在划分句子时可能有错误。 例如,“部分居民的生活水平”,其正确的划分应该是“部分/居民/生活/水平”,但却存在“分居”“民生”等歧义词。

是未注册词的问题。 未登录词是指没有登载在同义词词典上,或者是模型在训练中没有遇到过的词。 这种问题在各行业分词任务中尤为突出。 宋彦介绍说,这些未注册词对分词、词类标签模型和系统的性能有很大的影响。

利用记忆神经网络提高中文分词性能

论文提出了基于键-值记忆神经网络的中文分词模型。

宋彦介绍,利用n组(即“居民”为2元组,“生活水平”为4组)提供的各单词的构词能力,通过加权实现特定语境下的歧义消解。 然后,通过非监督方法构建同义词词典,实现对特定行业未标记副本的利用,提高未登记词的识别。

在找到所有可能的单词组合后,将其添加到该分词模型中。 而且,通过神经网络,学习这些词最终有助于完善表达,进而被分配不同的权重。 例如,“部分居民的生活水平”一词强调“部分”、“居民”、“生活”、“水平”一词,“分居”、“民生”被降级解决,预测正确的结果。

“AI不会断句?中文分词新模型帮它进步”

为了验证该模型的分词效果,论文进行了严格的标准实验和跨行业实验。 “我们在常用标准中文分词数据集( msr、pku、as、cityu、ctb6 ) 5个数据集上均达到了最好的效果,这5个数据集的得分刷新了历史新高。 ”。 宋彦说。

双通道观察力机构消除对“噪声”的误解

第2篇论文提出了基于双通道观察力机构的分词和词性标注模型。 根据

,中文分词和词性标注是两个不同的任务。 词性标注是分割的复制品,每个词都有属于它的词性,例如动词、名词、代词、形容词。 词性标注对后续句子的理解有重要作用./br/] “他很快就好了”这句话在引入外部句法知识时,“很快”这句话有时会错。 正确的结果应该是“马”和“上”分开,但是如果在这里分成一个词,就会被识别为副词。 ”。 宋彦举个例子说。

“AI不会断句?中文分词新模型帮它进步”

研究者介绍说,针对这个问题,本文提出的模型可以将中文分词和词性标注视为联合任务,一体化完成。 模型对自动获取的语境特征和句法知识分别进行加权,预测各词的分词和词性标记,不同的语境特征和句法知识在各自所属的观察力通道内进行比较加权,识别特定语境中不同的语境特征和句法知识的贡献。

“AI不会断句?中文分词新模型帮它进步”

为了测试该模型的性能,论文通常在行业和行业分别进行了实验。 宋彦介绍,常规行业实验结果表明,该模型在5个数据集( ctb5、ctb6、ctb7、ctb9、通用从属关系)上的表现( f值)超过前人的工作。

标题:“AI不会断句?中文分词新模型帮它进步”

地址:http://www.5e8e.com/hlw/20928.html