简介:因特网是一个巨大的和迅速发展的信息资源。但大多数信息都是以无结构的文本形式存在,使得查询信息变得非常困难。我们提供的乐思文本采集系统就是自动的来采集任何也面的任何文本信息,为你所用。
一、 主要功能
乐思文本采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取目标文本文件中的内容,转化为为结构化的记录,保存在本地数据库中。特别适用于网络博客/Blog文章采集,RSS/ATOM XML内容采集,Text/CSV内容采集,任意格式XML采集,自定义结构文本内容采集等。功能示意图如下所示:
二、 系统特点
支持远程HTTP或者FTP服务器上的文本文件内容抽取
支持本地文本文件内容抽取
支持常用的文件格式: *.TXT, *.CSV, *.XML, *.HTM
支持任意后缀名的文本文件
内置六种记录块分割方式,几乎可以支持任意格式数据的抽取
支持命令行格式,可以Windows任务计划器配合,定期抽取目标数据
支持记录唯一索引,避免相同信息重复入库
支持数据库表结构完全自定义
保证信息的完整性与准确性
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
三、 运行环境
操作系统:Windows XP/NT/2000/2003
内存:最低32M内存,建议128M或以上
硬盘:最少20M空余硬盘空间