板块导航【各分论坛一览表】

《班组天地》投稿通道	企业党政	班组	社区服务	平台明星专页	互动企业分论坛	班组安全建设	科技时代	问题反馈
企业事评	职教	宣传	企业图书馆	班组长联谊会	保健、养生	工会、半边天、共青团	8小时之外	订阅杂志

企业党政
政工交流
产业经济
职业道德
观点思路
企业新闻
领导力提升
绩效管理
员工管理
管理咨询
党建思路
老总话题
企业文化
将帅风采

班组
问题讨论区
管理案例区
我谈治班之策
新时代农民工
师徒论坛
班组团队
蓝领精英
兵头将尾
经验交流
实话实说
创新成果
能工巧匠
小家建设
事故教训
工作生产
凡人风采
国外班组
班组之声
班组MV快乐展示

社区服务
论坛管理
版主交流
论坛回收站
“中企互动”家内新闻
疑难解答
电脑运用小窍门
平台宠物与股票市场
企业市场
跳蚤市场

平台明星专页
王克礼专页
滕富生专页
孙建文专页
杨晓莹专页
老哥专页
庄柏新专页
周长好专页
王新平专页
张喜亮专页
乔东专页
安红昌专页
王昌峰专页
陈新寰专页
陈计存专页

互动企业分论坛
华北制药集团
宁波港集团有限公司
沧州供电调度
松藻煤电公司
北京燕山石化公司
中航工业北京航空制造工程研究所
深圳企业员工论坛
冀中能源邢台矿

班组安全建设
班组工作宣传
班组信息交流
安全文化展示
隐患事故调查
班组长培训
班组专栏
专家工作教室
准能班组
社区

企业事评
企业事评
企业热点

8小时之外
员工收藏
职工天下游
诗联墨苑
原创天地
娱乐爱好
生活浪花
员工鹊桥
恋爱·婚姻·家庭
人生感悟
家庭教育
精品桌布
企业微视

职教
名企思想
职场内外
求职就业
培训论坛
员工夜校
练兵比武
视频播报
英语加油站
技师人才库
职场提醒

宣传
活动策划
编采互动
摄影乐园
《班组天地》
互动明星
国际新闻
企业文案
企业职工创新平台
企业员工评“媒”广场
企业报之家
品牌、产品、活动宣传推广

企业图书馆
漫画天地
书斋寻悟
图书资讯
长篇连载
电子图书下载

班组长联谊会
最新动态
活动内容
会员交流

保健、养生
生活常识
健康养生
主流健身

工会、半边天、共青团
企业夕阳红
工会信息
工会工作交流
工会主席
维权阵地
民主管理
劳动竞赛
半边天
团组织活动
劳动保护

科技时代
创新发明
科学技术
科学奥秘
生活科技

上一主题下一主题

最近图片

海拔4500米，一块可燃冰的故事

最新帖子

最热帖子

最新回复

主题推荐

今日发帖排行

主题 : 创新工场提出中文分词和词性标注新模型可提升工业应用效率

使用道具┊复制链接┊浏览器收藏┊打印

qiufeng0299离线

说点啥呢？

级别: 综合论坛版主

UID: 41422
精华: 13
发帖: 19008
财富: 268898 鼎币
威望: 15 点
贡献值: 9 点
会员币: 0 个
好评度: 40 点
在线时间: 1175(时)
注册时间: 2019-04-21
最后登录: 2024-03-25

楼主发表于: 2020-09-28

倒序阅读 ┊ 只看楼主 ┊ 小中大

创新工场提出中文分词和词性标注新模型可提升工业应用效率

管理提醒: 本帖被 ZX68 执行加亮操作(2020-09-30)

DoNews7月13日消息（记者翟继茹）13日，记者从创新工场获悉，其最新提出了中文分词和词性标注模型，可将外部知识（信息）融入分词及词性标注模型，剔除了分词“噪音”误导，提升了分词及词性标注效果。

在NLP中，中文分词和词性标注是中文自然语言处理的两个基本任务，尤其在工业场景对分词有非常直接的诉求，但当前没有比较好的一体化解决方案，而且中文分词普遍存在歧义和未登录词的难题。创新工场方面解释，中文语言因其特殊性，在分词时面临着两个主要难点。一是歧义问题，由于中文存在大量歧义，一般的分词工具在切分句子时可能会出错。例如，“部分居民生活水平”，其正确的切分应为“部分/居民/生活/水平”，但存在“分居”、“民生”等歧义词。“他从小学电脑技术”，正确的分词是：他/从小/学/电脑技术，但也存在“小学”这种歧义词。
二是未登录词问题。未登录词指的是不在词表，或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词，或者是人名。这类问题在跨领域分词任务中尤其明显。因此，在“键-值记忆神经网络的中文分词模型”的模型中，利用n元组（即一个由连续n个字组成的序列，比如“居民”是一个2元组，“生活水平”是一个4元组）提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解。并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

在算法实验中，该模型在5个数据集（MSR、PKU、AS、CityU、CTB6）上的表现，均刷新历史成绩。

创新工场大湾区人工智能研究院执行院长宋彦表示，与前人的模型进行比较发现，该模型在所有数据集上的表现均超过了之前的工作，“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”在基于双通道注意力机制的分词及词性标注模型中，将中文分词和词性标注视作联合任务，可一体化完成。模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献，从而降低了“噪音”。创新工场介绍，在和斯坦福大学的 CoreNLP 工具的相比中，该模型有近10个百分点的提升。
在场景应用上，创新工场主要希望解决工业场景的突破，宋彦表示，“在工业场景使用的时候，跨领域的模型能力是一个非常直接的诉求。”创新工场介绍，“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”两篇文章，已经入选自然语言处理领域（NLP）顶级学术会议 ACL 2020。（完）

评价一下你浏览此帖子的感受

回复引用

http://bbs.bztdxxl.com
访问内容超出本站范围，不能确定是否安全
继续访问	取消访问

海拔4500米，一块可燃冰的故事

为天车安装全景监控装置，让盲区不再

自制上料小车轨道检查装置，年省12万元

有了它，台区拓扑关系普查又快又准

“一键启动”开启透明采煤新模式

创新工场提出中文分词和词性标注新模型可提升工业应用效率

快速回复
	限 200 字节谢谢，别忘了来看看都是谁回帖哦？恢复数据进入高级模式加粗字体颜色背景颜色插入链接图片验证问题: 正确答案:72 按"Ctrl+Enter"直接提交	上一个下一个

海拔4500米，一块可燃冰的故事

为天车安装全景监控装置，让盲区不再

自制上料小车轨道检查装置，年省12万元

有了它，台区拓扑关系普查又快又准

“一键启动”开启透明采煤新模式

创新工场提出中文分词和词性标注新模型 可提升工业应用效率

创新工场提出中文分词和词性标注新模型可提升工业应用效率