火车收集器是一款业余的收集数据收集/信息开掘处置软件。火车收集器经由锐敏的配置装备部署,可能很轻松快捷地从网 页上抓取妄想化的文本、图片、文件等资源信息,可编纂筛选处置后抉择宣告到网站布景,种种文件或者其余数据库零星中。被普遍运用于数据收集开掘、垂直搜查、 信息集聚以及门户、企业网信息集聚、商业情报、论坛或者博客迁移、智能信息署理、总体信息检索等规模,适用于种种对于数占有收集开掘需要的群体。
火车收集器特援用见:
一、扩散式高速收集:使命调配至少个客户端,同时运行收集,功能倍增。
二、多识别零星:装备诠释识别、中文分词识别、恣意编码识别等多种识别零星,智能识别操作更轻松。
三、可选验证方式:可抉择是否运用加密狗,随时保障数据清静。
四、全自动运行:无需家养值守操作,使命实现后自动关机。
五、交流功能:同义,近义词交流、参数交流,伪原创必备本领。
六、恣意文件格式下载:图片、缩短文件、视频等恣意格式的文件都能轻松下载。
七、收集监控零星:实时监控收集,确保数据的精确性。
八、反对于少数据库:反对于Access/MySQL/MsSQL/Sqlite/Oracle多种规范的数据库保存及宣告。
九、有限级多页收集:反对于搜罗ajax恳求数据在内的多个页面信息的有限级收集。
十、反对于扩展:反对于接口以及插件扩展,知足种种采发需要。
火车收集器 v9.4.170302 更新日志:
1,批量网址更新,日期可能反对于大于明天的数据。标签可能接管多参数同步变更
2,标签组合,削减对于循环组合的反对于。
3,优化网址库排重逻辑,大大减速大网址库下的使命加载速率,优化网址库排重内存占用。
4,数据库宣告模块,削减“insert ignore”方式的反对于
5, 新增使命的云端备份、同步功能
6,http短途效率器,削减对于单条数据更正的API反对于。
7,水印削减指定巨细的缩短功能
8,修复FTP,SFTP链接未能精确断开的下场
9,修复Word2007无奈保存图片的下场
10,修复标签超永劫候的展现过错下场。
11,修复标签数据交流中的交流过错下场。
12,修复了数据倒序宣告的下场。
13,优化了多少个会导致收集器持久运行后内存无奈释放的下场。