中国迷信院合计技术钻研地址多年钻研使命积攒的根基上,研制出了汉语词法合成零星ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),主要功能搜罗中文分词;词性标注;命名实体识别;新词识别;同时反对于用户辞书。咱们先后精心打造五年,内核降级7次,当初已经降级到了ICTCLAS2009
用户辞书接口扩展
用户可能动态削减、删除了用户辞书中的词,疗营养词的下场。后退了用户辞书运用的锐敏性。
分词粒度可调
可能操作分词服从的粒度。同享版本提供两种分词粒度,尺度粒度以及粗粒度,知足差距用户的需要。
词性标注功能增强
多种标注级的抉择,零星可供抉择的标注级有:合计所一级标注级,合计所二级标注集,北大一级标注集,北大二级标注集。
关键词提取
自动抽掏出能很好地代表文档主题的多少多个词或者短语。关键词抽取技术普遍运用于信息检索、文天职类/聚类、信息过滤、文档摘要等种种智能文本信息处置规模,具备很好的运用价钱。
指纹提取
凭证文章的内容,妄想,词语间的关连,合成出可能展现该文章的语义指纹,运用数字序列展现。