在数据驱动业务的时代,企业的数据应用需求发生巨大转变,开始从传统的离线分析转向实时数据分析,同时随着数据规模的极速增长,企业对于实时数据治理提出更高要求。传统的数据仓库如 Doris、ClickHous、Hive在处理大规模、多源异构数据时显得力不从心,难以满足企业对高效、实时、灵活数据处理与分析的迫切需求。
在此背景下,本文将探讨如何将传统数据仓库升级为湖仓一体(Lakehouse)架构的方案,重塑企业对于海量数据的管理与分析能力。湖仓一体架构完美融合了数据湖的灵活性和数据仓库在数据管理方面的成熟特性,为企业构建了一个统一的数据平台,帮助企业轻松应对数据增长的挑战。
升级数据湖方案的关键步骤
关键阶段1:扩展数据湖核心组件
1. 选择与部署分布式存储
分布式存储系统是支撑湖仓一体架构的基石,提供了灵活扩展、高可用、高性能、数据本地化等特性,为企业巨量数据存储提供保障。以下是数据湖分布式存储常见的两种选择方案:
v基于 HDFS 分布式文件系统:适用于大规模数据存储与处理,具有高吞吐量和容错性。在部署时,支持按需构建集群规模、节点配置和网络拓扑、灵活扩展。
v基于 S3 分布式对象存储:以对象的形式提供巨量数据存储服务,提供可扩展、冗余持久、高可用性的数据存储和检索解决方案。UCloudStor 统一分布式存储平台提供标准 S3 对象存储服务和数据统一生命周期管理,是构建企业级数据湖存储的绝佳选择。
2. 集成数据湖表管理工具
数据湖表管理工具是湖仓一体架构的核心,常见的工具有 Paimon、Iceberg、Hudi 等,均提供 ACID 事务保持数据一致、增量数据处理、时间旅行、优化数据查询性能、优化的数据组织和管理方式等能力,并且兼容多种大数据计算引擎,如 Spark、Flink、Presto/Trino 等。
它们还有一些差异能力,供选择参考:
vPaimon:侧重于流处理场景,支持动态表和 changelog 表等流式数据模型,为流处理提供事务性和高可用性及故障恢复机制,它由 Flink 社区推动,与Flink集成更加紧密,适用于高可用性流处理和事务性保证的场景。
vIceberg:提供一种通用的表格式,支持复杂表结构的数据模型,其使用乐观锁实现事务,对并发控制和快照隔离提供支撑,性能和可扩展性优异,社区活跃,适用于高性能查询和跨多种计算引擎工作的场景。
vHudi:提供类似于关系数据库的更新和删除操作,以及增量数据管道,提供COW、MOR 等存储类型,支持文件和记录级锁,和快速 Upsert 操作,社区活跃,适用于频繁进行数据更新和删除操作的场景。
集成这些工具前,需要充分考虑与现有数据仓库的兼容性情况,数据湖管理工具特性,以及工具的社区活跃度和支持情况等因素。优刻得智能大数据平台 USDP,提供基于Hadoop 大数据生态支持,涵盖数据采集、巨量数据湖存储、缓存加速、流批处理平台、OLAP 数据库、可视化调度等数据全生命周期的大数据一站式生态技术支持。
关键阶段2:元数据统一管理
为实现数据仓库元数据与数据湖元数据的统一管理,可考虑复用 MPP 数据库的元数据管理服务,通过其接入数据湖元数据,完成数据仓库与数据湖的元数据统一管理。
通过 MPP 数据库的元数据管理服务,采集数据湖的元数据,包括表结构、分区信息、数据格式等,使 MPP 数据库元数据管理服务形成中央元数据服务形态。必要的情况下,需要扩展相应的连接器来解决元数据服务与部分数据湖管理工具间不兼容的对接工作。
数据仓库和数据湖的元数据服务整合,将采集到的数据湖元数据变化及时存储在中央元数据服务中,确保数据仓库和数据湖的元数据能够实时同步,便于原有基于数据仓库的工作流等分析任务能够通过元数据服务访问数据湖中的数据。同时,建立并维护长效稳定的元数据同步机制,结合业务数据状况,定期检查元数据的完整性和准确性,及时处理元数据冲突和异常,维护元数据服务的高时效同步效率及稳定性。
关键阶段3:打通数仓与数据湖的互访
完成前面两个关键阶段工作后,即可进一步对 MPP 数据库与数据湖表管理工具进行兼容性测试,从而构建相互兼容的湖仓统一平台,确保平台技术面的无缝兼容。
数据湖操作性测试聚焦于两大核心:一是数仓与数据湖间数据调用的兼容性测试,二是新数据向数据湖平台的存储验证。同时,可考虑利用兼容数据湖的大数据分析引擎如 Spark、Flink、Hive 等,构建基于数据湖的数据分析业务。
重点测试元数据互访、湖数据一致性(ACID 事务)、增量处理、时间旅行及查询性能优化等。根据测试结果,优化兼容性接口、连接器等,基于兼容性测试及功能完备性验证,真正实现数据在数仓与数据湖间的无缝流动。
至此,我们已成功实施了从数据仓库架构向湖仓一体融合形态的大数据平台升级方案。若用户着眼于业务的长期发展和优化,期望将数据湖的优势特性全面融入整个大数据平台,盖新旧数据及数据处理业务员的全流程,则可进一步考虑将现有数据仓库中的数据存储及工作流迁移至数据湖架构,并逐步淘汰旧架构及平台。不过,鉴于此过程的复杂性与较长时间周期,需要做好完善的迁移规划。
方案延伸:全面转向数据湖
由湖仓一体平台架构,全面转向数据湖架构,可在上述方案基础上,开展数据从数仓至数据湖的跨存储平台数据迁移,重点保障相关数据的元数据及数据自身的一致性;同时,对原有基于数据仓库的数据分析工作流,逐一向数据迁移后的数据湖平台进行割接,采用边迁移边验证、边验证边割接测试的策略,并根据业务查询特点和数据特性,实施索引优化、查询重写等操作,充分优化查询性能;完成对整个数据仓库从数据到分析业务逻辑的过渡和迁移,直至充分运用数据湖架构完全承载全量数据存储与分析业务。
优刻得 USDP 智能大数据产品除提供完善的大数据生态支持,以及对新型数据分析框架及服务支持的同时,还可根据用户现有大数据平台架构及数据、工作流等梳理分析,为用户制定全面完备的迁移方案、迁移实施及过程保障工作。
截至目前,USDP已经成功服务了四川国税局、晖致医药、达美乐等各领域企业用户,积累了丰富的大数据平台实践和服务经验,能够为用户提供持续性技术保障,助力他们实现数据仓库架构向数据湖架构的平滑过度。
本文简要阐述了企业大数据平台从数据仓库架构升级至数据湖架构的思路和方法。更多方案详情,欢迎扫码咨询。