VR战士5R.E.V.O.免安装绿色中文版
21.8G · 2025-10-25
Planet 是一家全球领先的金融科技企业,在零售、酒店和旅游行业的支付与税务数字化服务领域深耕近四十年。公司业务广泛,覆盖支付处理、免税退税及行业软件等,致力于通过一体化的解决方案提升全球商户的运营效率与顾客体验。
为了应对日益增长的数据分析需求并优化成本效益,Planet 数据团队近期主导完成了一项重要的数据仓库升级,将系统从 Snowflake 迁移至开源的 Apache Doris。
这次迁移取得了显著的成果:
通过这次向 Apache Doris 的迁移,Planet 的数据团队不仅成功构建了一个更高效、更经济的数据分析平台,也为未来业务的快速发展奠定了坚实的数据基础。
为了更好地理解迁移背景,让我们首先了解 Planet 公司原有的数据架构规模和复杂性。作为一家服务全球零售、酒店和旅游行业的金融科技企业,Planet 面临着海量数据处理的挑战,这也是促使其寻求更优解决方案的根本驱动力。
Planet 的数据平台承载着巨大的处理压力,每天需要处理超过 30 亿条用户生成事件,这相当于每日处理 1 TB 的聚合数据和 10 TB 的原始数据。如此庞大的数据量对系统的实时性、稳定性和成本控制都提出了极高要求。
Planet 的数据来源多样化,通过三种主要方式汇聚到 Snowflake:
此外,系统还通过 API 集成各类外部数据源,并定期运行 ETL 作业进行数据的进一步整合与清洗。
在原有架构中,Snowflake 承担着核心分析层的重要角色,为业务用户和利益相关者提供对清洗整理后数据的高效访问能力。平台主要支持两类核心场景:
然而,随着业务规模的快速增长,Snowflake 在成本控制和查询性能方面的局限性日益凸显,这促使 Planet 数据团队开始寻求更具性价比的替代方案。
在实际使用过程中,他们也面临许多挑战:
如下两张图直观地展示了在使用 Snowflake 过程中,随着业务增长所面临的成本激增与查询延迟恶化的双重挑战:
第一张折线图清晰呈现了从一月到七月期间,月度成本(红色曲线)和平均查询延迟(蓝色曲线)的持续攀升趋势:成本从 5,000 美元迅速上涨至 32,000 美元,而查询延迟也从 5 秒飙升至 26 秒,远超用户期望的 3 秒阈值(绿色虚线)。
第二张表格则以具体数据支撑了这一趋势,详细列出了每月的成本、延迟及用户期望值,进一步凸显了系统性能与用户体验之间的显著差距。
这些数据共同揭示了当前架构在高并发和实时性需求下的瓶颈,也印证了前文所述的“成本失控”与“实时性不足”问题,为探索更灵活、可控的替代方案提供了有力依据。
基于对 Apache Doris 和 ClickHouse 在性能、灵活性、数据集成和成本效益 等关键指标上的详细对比测试与概念验证 (POC)后,他们最终选定 Apache Doris。具体评估结果如下:
综上所述,以上对比清晰印证,Apache Doris 的综合表现不仅全面契合选型标准,更远超预期需求。基于其在成本可控性、性能稳定性及生态适配性上的突出优势,他们迅速决策将数据架构从 Snowflake 迁移至 Apache Doris,以应对高并发与实时性挑战。
在迁移过程中,Planet 数据团队制定了一套分阶段、系统化的实施方案,以确保稳定性与性能优化,同时充分利用 Apache Doris 对 MySQL 协议的兼容性。由于 Doris 原生支持 MySQL 语法,团队无需学习新方言,显著降低了 SQL 转换和开发的学习成本。
第一阶段:评估与规划 团队对现有查询模式和分析复杂度进行了全面分析,将 Snowflake 数据类型精准映射到 Doris 等效类型,并重新设计了分区键、分布列和主键以优化数据导入效率。在此基础上,借助 Python 脚本与 Jinja 模板实现模式转换自动化,并通过 Airflow 编排批量数据工作流,确保迁移范围与业务需求完全对齐。
第二阶段:数据导出与加载
数据首先以 Parquet 格式从 Snowflake 导出并暂存于 S3,随后通过基于标准 MySQL 语法的 LOAD DATA INFILE 命令批量导入 Apache Doris。严格的数据质量(QA)与审计流程保障了迁移的完整性与准确性。在 ETL/ELT 管道重构中,团队结合 Doris Kafka Connector(Routine Load)、Flink Doris Connector 与 Spark 微批处理,实现了大规模数据回填及与现有流式管道的无缝集成。
第三阶段:验证与测试 最后,团队在真实业务负载下对 Apache Doris 与 Snowflake 进行了并行验证和性能对比。结果显示,Doris 在高并发场景下保持查询延迟稳定低于 3 秒,具备显著的实时分析与成本优势。同时,语法兼容性也经受住了考验——所有查询和存储过程均通过 MySQL 语法完成重构,避免了额外的学习负担。
通过分阶段迁移,团队成功规避了供应商锁定风险,解决了 Snowflake 的高成本与延迟问题。Apache Doris 凭借 MySQL 协议兼容性、卓越的实时处理能力以及开源灵活性,不仅显著降低了学习曲线和运维开销,更为业务提供了可扩展、高性价比的数据分析基础,标志着架构向高效自主的顺利转型。
新数据架构
至此,Snowflake 已完全被 Apache Doris 取代,成为主要的分析仓库。数据架构的其余部分保持不变。目前,Doris 已在生产环境中稳定可靠地运行。Planet 数据团队 也正在通过 POC 探索 Doris 在日志分析方面的能力。
基于真实业务场景的深度验证,Apache Doris 在核心分析场景中展现出显著的性能优势:
在实测过程中,团队负责人 Parth 和成员都对 Doris 的表现感到惊讶:“它的查询速度几乎是 Snowflake 的数倍,而总成本却只需要原来的五分之一。这几乎难以置信。”
Planet 数据团队也慷慨分享了他从 Snowflake 迁移到 Apache Doris 过程中总结的经验:
尽管这些问题在早期带来挑战,但从性能到成本的收益都证明了努力是值得的。
Planet 数据团队还分享了一些最佳实践:
通过这次从 Snowflake 到 Apache Doris 的迁移实践,Planet 公司不仅在技术上实现了显著的飞跃——查询性能大幅提升、数据摄入真正做到了实时化,更在成本控制上取得了巨大成功,将月度数据平台开销降低了 80%。
Planet 的实践证明,面对日益增长的数据量和严苛的实时分析需求,企业应当持续评估现有架构的成本效益与可扩展性,并勇于探索和应用新技术。Apache Doris 在此次迁移中充分展现了其作为顶级开源分析引擎在性能、成本和实时性方面的巨大潜力。
对于其他同样希望在成本与性能之间找到最佳平衡点、构建高性能、低成本实时数据分析能力的企业而言,Planet 的这次成功转型无疑是一次极具价值和借鉴意义的实践案例。
21.8G · 2025-10-25
1.79G · 2025-10-25
156.69MB · 2025-10-25
2025-10-25
消息称小米 17 Air 手机正评估中:eSIM + 超薄机身 + 2 亿像素主摄、明年发布
2025-10-25
紧急时刻掉链子,谷歌 Pixel 10 等手机被曝无法拨打报警电话