统计排行幸运大转盘每日签到社区服务会员列表最新帖子精华区博客帮助
今日发帖排行
主题 : 创新工场提出中文分词和词性标注新模型 可提升工业应用效率
说点啥呢?
级别: 综合论坛版主

UID: 41422
精华: 13
发帖: 19008
财富: 268898 鼎币
威望: 15 点
贡献值: 9 点
会员币: 0 个
好评度: 40 点
在线时间: 1175(时)
注册时间: 2019-04-21
最后登录: 2024-03-25
楼主 发表于: 2020-09-28  

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

管理提醒: 本帖被 ZX68 执行加亮操作(2020-09-30)
DoNews7月13日消息(记者 翟继茹)13日,记者从创新工场获悉,其最新提出了中文分词和词性标注模型,可将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。在NLP中,中文分词和词性标注是中文自然语言处理的两个基本任务,尤其在工业场景对分词有非常直接的诉求,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。创新工场方面解释,中文语言因其特殊性,在分词时面临着两个主要难点。一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”、“民生”等歧义词。“他从小学电脑技术”,正确的分词是:他/从小/学/电脑技术,但也存在“小学”这种歧义词。 FSA"U9 w<  
二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词,或者是人名。这类问题在跨领域分词任务中尤其明显。因此,在“键-值记忆神经网络的中文分词模型”的模型中,利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。 /YD2F  
在算法实验中,该模型在5个数据集(MSR、PKU、AS、CityU、CTB6)上的表现,均刷新历史成绩。 K%(DRkj)  
w ?"s6L3  
创新工场大湾区人工智能研究院执行院长宋彦表示,与前人的模型进行比较发现,该模型在所有数据集上的表现均超过了之前的工作,“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”在基于双通道注意力机制的分词及词性标注模型中,将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献,从而降低了“噪音”。创新工场介绍,在和斯坦福大学的 CoreNLP 工具的相比中,该模型有近10个百分点的提升。 <gjA(xT5  
在场景应用上,创新工场主要希望解决工业场景的突破,宋彦表示,“在工业场景使用的时候,跨领域的模型能力是一个非常直接的诉求。”创新工场介绍,“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章,已经入选自然语言处理领域(NLP)顶级学术会议 ACL 2020。(完) v|GDPq  
评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

无聊

灌水
描述
快速回复

谢谢,别忘了来看看都是谁回帖哦?
验证问题:
正确答案:72
按"Ctrl+Enter"直接提交
上一个下一个