大数据集成

  • 发布时间:2017-07-28 10:29:57
  • 本站原创

  大数据集成

  (1)支持多种类型数据访问

  支持包括传统关系型数据库、MPP数据库、全文数据库,如Oracle、Mysql、HBASE、Greenplum、SolrCloud等;支持Excel、文本等文件;支持任意的消息类型: MQ、JMS 和Web Service。

  (2)支持时延访问

  支持任意时延要求对数据进行访问,小时级、分钟级,甚至秒级;同时支持推(Push)、拉(Pull)的数据使用方式;数据增量捕捉支持按时间戳抽取、特定字段抽取、数据库日志、FTP+文件、网页关键字爬取等方式。

  (3)支持多种集成组件

  •   文件集成插件:支持文件型数据的解析转化,包括但不局限于txt/word/excel/csv/pdf等格式的支持,能够全文识别文件内容并导入至数据仓库独立存储。

  •   特征要素提取插件:基于特征要素模型,实现对文本内容的全文解析,并能够将文本中涉及到对象特征,诸如:身份证、手机号码、电子邮箱、QQ号码、车牌等特征要素转化为结构化数据进行存储,特征要素模型可维护。

  •   数据库直连抽取插件:支持ORACLE/MySql/MSSql等传统关系型数据库,以及HBase/MPP等大数据库技术的适配,实现统一元数据下的数据集成整合工作。

  •   大文件传输插件:基于类似Ftp协议下的多媒体、大文本资源的传输,能够实现基础信息的自动摘要与索引构建,支持文件的断点续传能力。

  •   网页提取插件(互联网信息提取插件):适用于各类网页信息提取的工作组件,支持动态IP访问技术,能够自定义配置所需爬取的网站地址与栏目,并能够自动爬取子网站及二级域名下的相关信息内容。

  •   标准化处理:能够对抽取的资源进行加工的能力,例如空值校验转化、字符串操作、字符串替换、新增字段、添加JSON字段、表码映射等。