大数据支撑平台

版本信息:V1.0 技术类 · 工具产品

- 产品介绍 -

大数据支撑平台依托主流开源产品及自主研发,构建了完整的大数据技术体系,实现了安全可靠、性能优异、符合政务行业特色的平台支撑,覆盖Hadoop、HDFS、Hive、Yarn、Hbase、MapReduce、Apache Kylin、Presto等技术,全面满足海量数据应用场景对技术平台的要求。

核心功能:

(一)数据采集,大数据平台的数据主要来源于各个业务系统、也包括部分共享交换数据、网络爬取、业务日志等,数据类型涵盖了结构化、半结构化和非结构化数据,采集方式则是根据数据来源和数据类型的不同,采用了多种采集技术进行采集。 (二)数据清洗,爬虫采集的数据质量通常比较差,存在不少重复、缺失、错误的数据问题,数据清洗是提高数据质量的主要手段,它首先依据问题产生的原因和存在形式,确定数据清洗规则它通过消除异常数据、重复数据等脏数据和补充缺失数据、规整统计口径等手段,然后将不符合要求的数据转化为满足应用要求的数据,保证了数据的完整性,提高了数据的可用性。

(三)数据建模,是一套概念和技术的集合,主要用于数据模型的设计和开发。 1、维度模型,是一套技术和概念的集合,用于数据仓库设计。 2、技术建模,是维度模型的具体实现。

(四)资源监控及运维 1、大数据管控平台,采用开源工具CM(Cloudera Manager)搭建而成,大数据管控平台能够统一管理大数据各功能组件模块,提供界面友好的WebUI进行安装部署、集群管理、参数配置、服务启停、监控告警和日志管理等操作。 2、服务监控,采用开源的监控工具Prometheus,可以实时监测和显示所有节点的服务运行状态。

(五)数据服务管理 1、数据服务数据接口,提供三种数据服务,分别是SQL查询接口、批量数据获取接口、报表和自助式数据分析服务。 2、数据接口管理,将接口调用进行了统一管理,其中包括权限控制、接口调用日志等。

- 产品特性 -

(一)平台技术成熟、运行稳定可靠采用大量开源成熟技术。
大数据平台基于成熟的Hadoop架构设计,并且采用了大量的开源技术和使用成熟广泛的Hadoop组件构建,平台技术成熟,运行稳定可靠,具有易开发、易维护、易扩展的特点,再结合部分自主研发技术,保证了大数据平台运行稳定可靠。
(二)采用双引擎架构,查询效率高。
平台采用了Kylin+Presto双分析分析引擎架构,这种架构同时既可以利用了Kylin空间换时间的技术理念,和也可以利用Presto内存并行计算的优势,查询效率极高,能够在百T级数据规模上提供亚秒级的数据分析查询服务,。目前全口径应用95%以上的查询都能在3秒之内完成。
(三)标准SQL接口,适用适应场景广泛。
平台提供支持标准的SQL查询接口语句,业务开发简单、技术接入方便灵活,同时支持目前主流商务智能产品和数据分析工具的对接。大数据平台特别针对复杂指标的计算研发了SQL代理功能,大大降低了复杂指标的开发难度,缩短了开发周期。
全方位监控和一体化运维能力,同时支持离线、以及实时数据分析。
(四)维护方便快捷。
平台采用了专业的大数据管控工具平台进行管理和维护,集群包括集群节点节点管理,组件服务组件维护,资源分配、任务调度、系统监控告警等,都可以通过一体化的运维监控平台平台完成。大数据分析引擎、数据调度和可视化应用的监控采用了开源的ELK框架和监控工具Prometheus等技术,能够提供全方位的监控和告警能力。

联系方式

Contact us

联系人

李乾韬

电话

010-67801778

手机

18600513192

邮箱

lqt@ec.com.cn