项目背景
2022 年启动省税局 CDH 国产化替代方案;
随着省税务大数据平台用户使用量及业务场景的增加,对大数据平台能力提出了更多元化要求,对数据时效性要求越来越高,对高并发的需求越来越多,探索实践的场景也越来越多。平台资源和功能的需求日益增加,导致大数据平台的算力紧张。
通过建设省税务局大数据中心,部署大数据平台和分析工具集,形成安全可靠、运行高效、数据完备、运行稳定的大数据支撑平台;
方案架构
方案价值
全面兼容 CDH,可实现现有生产平滑迁移,满足国产化要求;
USDP 具备丰富的大数据生态技术,平台良好的存力算力扩展能力;
良好的平滑升级能力,有效支撑税局从数据仓库架构向湖仓一体架构演进;
兼容 Atlas 数据血缘采集分析,提供海豚调度的生态及技术支持;
由生态技术封闭转向生态开源兼容,探索实践新技术对业务的灵活性赋能;
通过 Kerberos、Ranger、LDAP 安全组件,提升大数据服务安全性保护能力;
客户收益
完善税局多源异构数据采集与统一存储能力;
通过预计算以及预加工手段,构建准实时数据仓库;
持续优化提升 Impala 查询效率,支撑全省税务分析查询需求;
Hadoop 系和非 Hadoop 数据血缘关系统一管理;
完善数据目录结构,指定数据规范,加码数据统一治理;
通过 Iceberg 实现与税务相关系统的数据互联互通;
充分利用 Hudi 时间旅行辅助数据生命周期管理;