文本聚类是基于相似性算法的自动聚类技术,自动对于大批无类此外文档妨碍归类,把内容临近的文档归为一类,并自动为该类天生特色主题辞。适用于自动天生热门行动专题、严正往事使命追踪、情报的可视化合成等诸多运用。
灵玖Lingjoin基于中间特色发现技术,突破了传统聚类措施空间破费大,处置光阴长的瓶颈;不光聚类速率快,而且精确率高,内存破费小,特意适宜于超大规模的语料聚类以及随笔本的语料聚类。
灵玖文档聚类组件的主要特色在于:
一、速率快:可能处置海量规模的收集文本数据,平均每一小时处置至少50万篇文档;
二、聚类精准:Top N的聚类中间每一每一能反映失当时的时事热门,适宜于舆情热门合计;与国内上以聚类见长的Autonomy公司技术比照,灵玖的各名目的远远争先,概况是灵玖更懂中文吧
三、精准排序:各个种别凭证影响权重排序,每一个类中的文档凭证紧张性排序;
四、可定制:可能定制种别数、种别中间。
五、凋谢式接口:灵玖文档聚类组件作为LJParser的一部份,接管锐敏的开拓接口,可能利便地融入到用户的营业零星中,可能反对于种种操作零星,种种调用语言。
灵玖文档聚类可能运用于文本开掘、知识规画、搜查聚类、舆情监测等多种运用中。