【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

  • 时间:
  • 浏览:4

构建数仓的首要步骤就说 进行模型设计。

关于分享嘉宾:

保障数据质量,可不还可不可以 从事前、事中、事后入手。事前,一群人都 可不还可不可以 通过制定每份数据的数据质量监控规则,越重要的数据对应的监控规则应该没法 多;事中,通过监控和影响数据生产过程,对不符合质量要求的数据进行干预,使其不影响下流数据的质量;事后,通过对数据质量情况报告进行分析和打分,将其他严重不足和改进反馈数据监控体系,推动整体的数据质量提升。

仓库收集原则包括四点:第一自下而上结合自上而下的方法,保障数据搜集的全面性;第二高容错性,随着系统耦合度的增加,任何有一一一八个 系统时不时 出现问題不会对数仓服务产生影响,咋样让在数仓构建时,高容错性是必不可少的因素;第三数据质量监控时需贯穿整个数据流程,毫不夸张地说,数据质量监控消耗的资源可不还可不可以 等同于数据仓库构建的资源;第四无需担心数据冗余,充分利用存储换易用。

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享收集而成。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种型态化、半型态化、非型态化数据的产生,没法 来不要 的企业开始英文在大数据平台下进行数据解决。分享中,李金波主要从总体思路、模型设计、数加架构、数据治理八个方面介绍了咋样利用大数据平台的型态,构建更贴合大数据应用的数据仓库。

幻灯片下载:点此进入

数据服务化包括统计服务、分析服务和标签服务:

在一群人都 看来,日志型态越规范,解析成本越低。在日志型态化的过程中,并非 时需完正平铺数据内容,只需型态化出重要常用字段;一并,为了保障扩展性,一群人都 可不还可不可以 利用数据冗余保存原始符合字段(如useragent字段)。

随着互联网规模不断的扩大,数据也在爆炸式地增长,各种型态化、半型态化、非型态化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等型态。没法 基于有有哪些型态,该咋样构建数据仓库呢?我认为应该从稳定、可信、丰富、透明八个关键词入手。其中,稳定要求数据的产出稳定、有保障;可信由于数据的质量要足够高;丰富是指数据带有的业务面要足够丰富;透明要求数据构成流程体系是透明,让用户放心使用。

对于数据上方计算过程数据,在保障满足绝大部分应用访问历史数据时需的前提下,缩短数据保留周期,有助降低存储成本;最后其他值得注意的是,冷备咋样让成为历史,在大数据平台下不时需单独的冷备设备。

数据基础层主要完成的工作包括以下几点:

第四,优化关键路径。优化关键路径中耗时最长的任务是最有效的保障数据产出时间的手段。

数据服务化

出于成本等因素的考虑,在大数据平台上一群人都 依然时需对数据生命周期进行管理。根据使用频率将数据分为冰、冷、温、热四类。有一一一八个 合理的数据生命周期管理要保证温热数据占整个数据体系大部分;一并为了保障数据资产的完正性,对于重要的基础数据会长久保留。

非型态化的数据时需型态化也能使用。非型态化数据型态提取包括语音转文本、图片识别、自然语言解决、图片达标、视频识别等方法。尽管目前数仓架构体系中并不带有非型态化数据型态提取操作,但在未来,这将成为咋样让。

第一,通过巧用虚拟节点实现多系统数据源同步,实现跨系统间的数据传输,实现多应用间数据交互。通过巧用虚拟节点减少运维人员在实际时不时 出现问題时的运维成本。

咋样让星型模型相对型态简单,一群人都 可不还可不可以 在数据上方层利用数据冗余将雪花模型转换成星型模型,从而有助数据应用和减少计算资源消耗。

在上下三层的型态的右侧,一群人都 增加了流式数据,将其换成成数据体系的一部分。这有无则当前的数据应用方向会没法 关注数据的时效性,越实时的数据价值度越高。

数据生命周期管理

数据治理

在取舍建模思路和模型类型但是,下一步的工作是数据分层。数据分层可不还可不可以 使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;一并数据分层也可不还可不可以 简化数据加工解决流程,降低计算简化度。

数据集市层

每个企业在构建我本人数仓时,应该根据业务型态和需求场景取舍大慨的建模方法。对于应用简化性企业,可不还可不可以 采用多种建模结合的方法,类式在基础层采用维度建模的方法,让维度更加清晰;上方层采用实体关系建模方法,使得上方层更容易被上层应用使用。

一群人都 常用的数据仓库的数据分层通常分为集市层、上方层、基础数据层上下三层型态。由传统的多层型态减少到上下三层型态的目的是为了压缩整体数据解决流程的长度,一并扁平化的数据解决流程有助数据质量控制和数据运维。

数据治理都不 独立于系统之外的保障,它应该贯穿在数仓架构内内外部和数据解决的流程之中。

数据架构包括数据整合、数据体系、数据服务三部分。其中,数据整合又可不还可不可以 分为型态化、半型态化、非型态化三类。

下面来具体看下每一层的具体作用。

数据上方层

收集中其他实用的点

第三,应用计算框架完成日志型态化、类式数据计算过程等操作,减轻了开发人员的负担,一并更容易维护。

模型设计

在上方层,为了保证主题的完正性或提高数据的易用性,时不不会进行适当的数据冗余。比如某一实事数据和有一一一八个 主题相关但自身又没法 成为独立主题,则会倒入有一一一八个 主题库中;为了提高单数据表的复用性和减少计算关联,通常会在事实表中冗余部分维度信息。

星型模型和雪花模型

咋样让,咋样让流式数据集的收集、加工和管理的成本较高,一般不会按照需求驱动的方法建设;此外,考虑到成本因素,流式数据体系的型态更加扁平化,通常无需设计上方层。

维度莫建模或实体关系建模

数据分层

李金波,阿里云高级技术专家,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,就说 数据魔方、淘宝指数的数据收集专家。现任阿里云大数据数仓解决方案总架构师。

数据质量

型态化数据收集又可细分为全量收集、增量收集、实时收集三类。三种收集方法的本人特点和适应场合如上图所示,其中全量收集的方法最为简单;实时收集的收集质量最难控制。

以下为收集内容。

在传统的架构中,日志的型态化解决是倒入数仓体系之外的。在大数据平台仓库架构中,日志在收集到平台但是不做型态化解决;在大数据平台上按行符分割每条日志,整条日志存储在有一一一八个 数据表字段;后续,通过UDF或MR计算框架实现日志型态化。

数据集市层是上下三层架构的最上层,通常是由需求场景驱动建设的,咋样让各集市间垂直构造。在数据集市层,一群人都 可不还可不可以 深度挖掘数据价值。值得注意的是,数据集市层时需也能快速试错。

数据上方层最为重要的目标就说 把同一实体不同来源的数据打通起来,这有无则当前业务型态下,同一实体的数据咋样让分散在不同的系统和来源,且有有哪些数据对同一实体的标识符咋样让不同。此外,数据上方层还可不还可不可以 从行为中抽象关系。从行为中抽象出来的基础关系,会是未来上层应用有一一一八个 特别要的数据依赖。类式抽象出的兴趣、偏好、习惯等关系数据是推荐、个性化的基础生产资料。

总体思路

一群人都 并非 取舍基于大数据平台构建数据仓库,是由大数据平台丰富的型态决定的:

常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单,便于实时数据分析,适用于业务分析报表和BI;实体关系建模型态较简化,但它便于主体数据打通,适合简化数据内容的深度挖掘。

数据架构

除了建模方法之外,在星型模型和雪花模型的取舍上都不 咋样让让使用者左右为难。事实上,三种模型是并存的,星型是雪花模型的三种。理论上真实数据的模型都不 雪花模型;实际数据仓库中三种模型是并存的。

在收集带有其他实用的点,这里给一群人都 分享一下:

数据基础层

直播视频:

(点击图片查看视频)

第二,采用强制分区,在所有的表都上都换成时间分区。通过分区,保证每个任务都也能独立重跑,而不产生数据质量问題,降低了数据修复成本;此外通过分区裁剪,还可不还可不可以 降低计算成本。

数据整合