LJParser文本搜查与开掘开拓平台是编程控件频道下深受用户喜爱的软件,安定洋下载中间提供LJParser文本搜查与开掘开拓平台民间下载。
LJParser文本搜查与开掘开拓平台 一、简介
LJParser文本搜查与开掘开拓平台搜罗:全文精准搜查,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热门发现,分类过滤,自动摘要,关键词提取,文档去重,诠释提取等十余项功能。针对于互联网内容处置的需要,融会了做作语言清晰、收集搜查以及文本开掘的技术,提供了用于技术二次开拓的根基工具集。开拓平台由多个中间件组成,各个中间件API可能无缝地融会到客户的种种重大运用零星之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等差距操作零星平台,可能供Java,C,C#等种种开讲话语运用。
LJParser是一套特意针对于原始文本集妨碍处置以及加工的软件,提供了中间件处置下场的可视化揭示,也可能作为小规模数据的处置加工工具。用户可能运用该软件对于自己的数据妨碍处置。
二、功能
LJParser文本搜查与开掘开拓平台的十大功能:
1. 全文精准检索
反对于文本、数字、日期、字符串等种种数据规范,多字段的高效搜查,反对于AND/OR/NOT以及NEAR临近等查问语法,反对于维语、藏语、蒙语、阿拉伯、韩语等多种少数夷易近族语言的检索。可能无缝地与现有文本处置零星与数据库零星融会。
2. 新词发现:
从 文件会集合开掘出外在的新词语列表,可能用于用户业余辞书的编撰;还可能进一步编纂标注,导入分词辞书中,从而后退分词零星的精确度,并顺应新的语言变更。
3. 分词标注:
对于原始语料妨碍分词、自动识他人名地名机构名等未登录词、新词标注以及词性标注。并可在合成历程中,导入用户界说的辞书。
4. 统计合成与术语翻译
针对于切分标注服从,零星可能自动地妨碍一元词频统计、二元词语转移多少率统计(统计两个词摆布衔接的频率即多少率)。针对于罕用的术语,会自动给出响应的英文批注。
5. 文本聚类及热门合成
可能从大规模数据中自动合成出热门使命,并提供使命话题的关键特色形貌。同时适用于长文本以及短信、微博等随笔本的热门合成。
6. 分类过滤
针对于当时指定的纪律以及示例样本,零星自动从海量文档中筛选出适宜需要的样本。
7. 自动摘要
可能对于单篇或者多篇文章,自动提炼出内容的精髓,便操作户快捷浏览文本内容。
8. 关键词提取
可能对于单篇文章或者文章会集,提掏出多少多个代表文章中间脑子的辞汇或者短语,可用于精化浏览、语义查问以及快捷立室等。
9. 文档去重
能 够快捷精确地分说文件会集或者数据库中是否存在相同或者相似内容的记实,同时找出所有的一再记实。
10. HTML诠释提取
自动剔除了导航性子的网页,剔除了网页中的HTML标签以及导航、广告等干扰性 翰墨,返回有价钱的诠释内容。适用于大规模互联网信息的预处置以及合成。
三、文件剖析
1. LJParser.exe 可实施文件,本版本为试用版本,大规模语料处置需要置办正式版
2. 演示语料 演示用语料,用户可交流,必需为文本文件,演示只反对于GBK;正式版本能够反对于UTF-8编码;
3. 种种dll为各组件的调用接口,本演示挨次全副基于已经有的调用接口实现;
4. 文档剖析,参见之后目录下的
5. 白皮书下载:https://www.lingjoin.com/download/LJParser%20Manual.doc
6. 软件下载:https://www.lingjoin.com/download/LJParser.rar