冰山和湖边小屋

Master the art of fan database management together.
Post Reply
nusaibatara
Posts: 167
Joined: Tue Jan 07, 2025 4:26 am

冰山和湖边小屋

Post by nusaibatara »

Apache Iceberg 是一种功能强大且灵活的开源 表格式,可与 Amazon S3 和 Google Cloud Storage 等云对象存储配合使用。Iceberg 并不直接定义数据的存储方式(如 parquet 或 ORC 格式),而是定义数据的逻辑组织方式,就像构建和高效访问数据的蓝图一样。Iceberg 令人兴奋,因为它为 S3 等对象存储提供了高性能数据仓库功能(在此处阅读有关功能的更多信息)。因此,Iceberg 开辟了一个未来,公司可以像数据仓库一样使用自己的对象存储。

这不是一个抽象的理论:自从 Netflix 内 IG数据库 部开发并于 2018 年开源以来,Iceberg 已经被许多大公司采用,包括彭博、苹果、领英和 Airbnb。从概念上讲,大多数使用 Databricks 的客户也在利用类似的架构和他们的开源Delta Lake格式。在与企业客户和潜在客户讨论他们的数据策略时,我们越来越多地遇到像 Iceberg 和 Delta Lake 这样的开源表格格式。

为什么这是件大事?像 Snowflake 这样的云数据仓库通过将数据存储和计算基础设施分开而占据了主导地位。这显著降低了成本并改善了运营:公司现在可以以低成本收集和存储大量数据,然后只在需要查询这些数据时才为计算支付更多费用。Iceberg 可以将这种模式发展到下一个合乎逻辑的步骤:完全解耦存储和计算。如果你在 Iceberg 中维护你的存储层,你可以为任何独特的工作负载交换任何查询引擎(Trino、Spark、Snowflake 等)。这种架构通常被称为Lakehouse,本质上是一个由独立的存储层和计算层组成的“可组合数据仓库”。
Post Reply