风越批量文本提取收集器功能特援用见:
批量提取HTML/DOC/RTF/TXT等文件中的文本信息。
反对于日后外网站直接提取文本内容,天生所需数据库文件
反对于GB2312/UTF-8多种编码
可将提失约息天生文本文件、HTM网页文件、MDB数据库文件。
可配置提取文件的距离,防止下载网页过快,效率器不照应提供多种查找、取患上信息的方式:
提取文件中全副email邮件地址
提取文件中全副互联网址(无参数)
提取文件中全副互联网址(带参数)
提取HTML文件中body的文本内容
提取HTML文件中title与body的文本内容
提取HTML文件中textarea的文本内容
提取HTML网页的展现文本内容
提取DOC/RTF等文件中全副文本内容
提取DOC/RTF等文件中全副文本内容(自动合成问题)
并可自界说正则表白式取患上信息
风越批量文本提取网页收集器 v3.82更新内容:
削减提取种类