读书笔记 | 阿里大数据之路:第2篇 数据模型篇

如题所述

第1个回答  2024-04-08


大数据模型探索:从整合到实践

数据建模是大数据旅程的关键,它旨在优化性能、成本和效率,消除冗余,提升数据质量。在《阿里大数据之路:第2篇 数据模型篇》中,我们深入探讨了这一领域的核心原理和阿里巴巴的实践经验。


8.1 优化平衡
数据模型的构建要求对性能、成本和效率进行细致权衡,通过减少冗余,确保数据一致性,从而提高整体效率和数据处理质量。

8.2 数据仓库与关系DB


OLTP倾向于使用3NF模型,追求实时性能,而OLAP则关注数据整合与性能提升,采用不同的策略和方法论。

    ER模型:作为整合基础,Teradata FS-LDM模型展示了其在复杂数据整合中的作用。
    维度模型:如星形和雪花模型,每个步骤都围绕业务过程、粒度选择、维表构建和事实选择展开,强调决策导向。
    Data Vault:注重历史追溯和原子性,设计上注重模型的扩展性和性能优化。
    Anchor模型:通过高度规范化,提供了强大的扩展性,是高并发环境的首选。

阿里巴巴在实践中,从Oracle到MPP架构的转变,表明ER模型在大规模环境中的挑战,最终转向了维度建模和MaxCompute平台。


9.1 数据爆炸应对
面对海量数据,我们构建高效的数据模型体系,预防无序和重复,强化数据管理与一致性,构建统一的ODS、DWD和DWS层次结构。


9.2 数据规范构建


基于维度建模,定义了清晰的数据域、业务流程、维度属性和指标,强调命名一致性,如"用户"的业务抽象和"时间周期"的数据统计范围。通过命名约定和简写,确保算法明确,区分事务、存量和复合派生指标。
9.3 指标设计与模型构建

    复合型指标,如UV-下单买家转化率,是基础指标的结合。
    模型设计遵循维度建模理论,构建一致性维度,层次分明,从ODS到ADS,考虑性能与成本平衡。

9.4 模型实施策略


数据仓库建设遵循螺旋式实施流程,通过OneData工具,确保模型的准确性和效率。
10. 数据模型的复杂性与处理
从维度设计到归档策略,处理快速变化和多值维度,如维表更新、存储优化、行为维度的精细划分,确保模型的稳定性和易用性。

11. 事实表设计的艺术


事实表是数据模型的灵魂,围绕业务流程设计,注重事实类型、粒度选择和维度确定,强调一致性与易用性,如事务、快照和累积快照事实表的差异与选择。
总结
阿里巴巴的大数据模型实践,不仅关注理论的精进,更注重在实际场景中的灵活应用和优化。从整合到实践,每一环节都为数据的高效利用和一致性保驾护航。
相似回答