数据中台

数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用

解决的问题

  1. 指标口径不一致
  2. 数据重复建设,需求响应时间长
  3. 取数效率低
  4. 数据质量差
  5. 成本线性增长

解决这些问题的出路就是同一数据只被加工一次,只有一个出口,由于只有一个出口,就对质量提出更高的要求,需要使用监控手段,及时发现解决数据问题,同时有了中台,成本的问题也就解决了,毕竟节省了资源

数据中台本身不创造价值,只有数据应用使用了中台的数据,才会产生价值

建设

方法论

支撑技术

  1. 大数据基础设施
  2. 大数据平台
  3. 数据治理
  4. 数据服务
  5. 数据应用

组织架构

中台团队既要独立业务线,又要深入业务

元数据中心

网易元数据中心架构

基于元数据中心可以构建数据地图,对于提高数据发现的效率,实现非技术人员自助取数有重要作用

开源方案

指标管理

混乱问题

规范化

stateDiagram-v2  业务线 --> 主题域  主题域 --> 业务过程  业务过程 --> 原子指标  业务过程 --> 派生指标  主题域 --> 维度

命名:

关联应用与可分析维度:指标被哪些应用使用、指标有哪些维度

分级管理:一级指标由中台产出负责、二级指标由数据应用根据原子指标进行派生

指标新建

stateDiagram-v2  提交指标需求 --> 需求评审  需求评审 --> 模型设计与代码开发  需求评审 --> 已存在表  已存在表 --> 设计逻辑模型  设计逻辑模型 --> 数据验证与发布模型  数据验证与发布模型 --> 应用接入  模型设计与代码开发 --> 数据验证与发布上线  数据验证与发布上线 --> 应用接入

已有指标梳理

  1. 指标治理小组
  2. 指标梳理时间计划
  3. 盘点还在使用的数据报表和数据应用
  4. 收集使用中的报表和应用的指标
    1. 指标展示名称
    2. 指标标识
    3. 业务定义
    4. 数据来源
    5. 分析维度
    6. 数据应用
    7. 计算逻辑
  5. 评审指标的业务口径、对相同的进行去重合并
  6. 根据业务口径明确主题域、业务过程
  7. 拆分指标类型、录入指标系统

模型设计

好模型的衡量

建设

  1. 接管底层数据源,控制源头,只能在数据中台保持一份
  2. 划分主题域,加入一个主题域,不影响已经划分的主题域的表
  3. 构建一致性维度,需要区分公共维度,特有维度,根据维度需求不同,分成不同的维度表
  4. 事实表整合,统计粒度必须保持一致,不同统计粒度的数据不能出现在同一个事实表中
  5. 模型开发,即开发跑数据的ETL,需要注意的一些点:管理好任务依赖、及时删除临时表、管理好数据的生命周期...
  6. 应用迁移,意数据的比对,确保数据的完全一致,然后进行应用迁移,删除老的数据表

数据质量

问题根源

提高质量

  1. 通过检查任务,定时核查数据正确性、延迟
  2. 通过监控保证按时产出
  3. 规范化管理

质量度量

成本

成本陷阱

成本管理

资产盘点

建立全链路数据资产试图,核算成本、核算价值

发现问题

通过使用率、价值衡量发现有成本陷阱的数据

治理优化

下线掉无人使用的数据,对于高成本的数据,进行计算与存储优化

评估

成本计算:计算成本 + 存储成本 / 数据带来的价值

数据服务

要让数据服务成为数据的唯一出口

解决的问题

功能

架构设计

数据安全

数据应用

数据研发流程

需求

提出指标需求 -> 评审指标需求 -> 产出指标业务定义、数据来源、计算逻辑

研发

基于主题域、分层进行设计模型 -> 同步数据 -> 编写对应任务的代码 -> 进行数据测试以验证是否符合预期以及是否正确 -> 代码静态检查、配置相关监控手段以保证符合质量

交付

数据被抽取到中间件上或者暴露接口对外提供数据服务

运维

数据任务出现异常,有完善的报警机制召唤先关负责人,保证问题被及时处理

流程协作

数据分析流程

认识数据

通过指标系统以及数据地图帮助分析师知道有哪些数据可以用

探索式分析

通过数据帮助分析师找到问题

可视化呈现

基于数据,可视化分析结果

固化流程

将问题分析解决思路固化到产品中,自动生成决策建议,解放人力

资产管理流程