帮助企业解决数据孤岛,进行数据打通

   数据孤岛是指企业内部数据被隔离存储,无法共享和交流。这会导致决策不准确、运营效率低下、部门协作困难等问题。而数据打通则是解决这些问题的关键步骤,它可以提升决策准确性、优化运营效率、促进部门协作,甚至发现潜在商业机会。通过打破数据孤岛,企业能够拥有全面、准确、及时的数据资产,为业务发展提供坚实的基础。因此,现代企业都在努力打破数据孤岛,实现数据的价值最大化。


数据处理-流

   企业数据处理的过程中,每个业务人员和数据之间需要有一个强大的工具,将数据规范化,处理数据模型,最后使用分析工具进行可视化的展示。

架构及中间件

数据传输离线数据同步

   离线数据主要采用DataX ETL工具,以轮询或解析数据库log的形式,将不同数据源的全量数据或增量数据同步到目标数据库。

   在线数据采集

   在线数据主要通过SDK/API把实时数据发送到采集服务,经过特定的处理后转存到kafka集群中,后端可以接入不同的消费端,进行实时数据的消费处理。

   应用场景

  • 数据本地/异地灾备
  • 不停机迁移数据
  • 数据迁移上云
  • 数据归档存储
  • 搭建BI系统
  • 数据实时分析数据仓库 数据仓库遵循标准的三层架构,对数据分层的定位主要采取维度模型设计,不会对数据进行抽象打散处理,更多注重业务过程数据整合。现有数仓主要以离线为主


业务数据层:包含 STG(数据缓冲层)与 ODS(操作数据层)两层,这两层数据结构与业务数据几乎一致。

STG:也叫数据准备区,定位是缓存来自 DB 抽取、消息、日志解析落地的临时数据,结构与业务系统保持一致;

负责对垃圾数据、不规范数据进行清洗转换;该层只为 ODS 层服务。ODS:操作数据层定位于业务明细数据保留区,负责保留数据接入时点后历史变更数据,数据原则上全量保留。模型设计依据业务表数据变更特性采取拉链、流水表两种形式。

公共数据层:细分为 DWD(明细数据层)、DWS(汇总数据层)、DIM(公共维度层) 三层,主要用于加工存放整合后的明细业务过程数据,以及经过轻度或重度汇总粒度公共维度指标数据。公共数据层作为仓库核心层,定位于业务视角,提炼出对数据仓库具有共性的数据访问、统计需求,从而构建面向支持应用、提供共享数据访问服务的公共数据。

DWD:这一层是整合后的业务过程明细数据,负责各业务场景垂直与水平数据整合、常用公共维度冗余加工,以及明细业务标签信息加工。DWS:汇总数据层按照主题对共性维度指标数据进行轻度、高度聚合。DIM:对维度进行统一标准化定义,实现维度信息共享。应用数据层:DWA 层,主要用于各产品或各业务条线个性化的数据加工,例如商业化产品数据、搜索推荐,风控等。