使用 Dataiku 和 Fabric 实现无代码 ML 和 GenAI

Master the art of fan database management together.
Post Reply
pappu6327
Posts: 252
Joined: Thu Dec 26, 2024 4:52 am

使用 Dataiku 和 Fabric 实现无代码 ML 和 GenAI

Post by pappu6327 »

作为微软的骄傲合作伙伴, Dataiku现在可以通过 Microsoft Fabric 利用 OneLake 中的数据。Microsoft Fabric是分析和 AI 领域一个强大的新参与者。它将许多现有的 Microsoft 功能(Azure Data Factory、Azure Synapse Analytics、Power BI 等)整合到一个由 Microsoft OneLake 支持的单一集中式界面中。OneLake 旨在成为组织所有数据的集中式存储区域和计算引擎。一旦数据进入 OneLake,Fabric 的许多不同 Microsoft 产品(组件)就可以利用它来创建见解和数据产品。

那么这一切是如何运作的呢?在这篇博文中,我们将研究一个用例,并了解 Dataiku 如何通过 Fabric 数据仓库连接到 OneLake 数据,从而增强您的分析团队。您可以在此处查看 Dataiku 用户文档。

让我们在实践中看看
在这个例子中,我们是财务分析师团队的成员,任务是创建模型来预 卡塔尔电话号码数据 测跨国企业在销售和营销方面的新投资。

首先,我们需要与 Dataiku 中的 Fabric 数据仓库建立连接。这样我们就可以从 Dataiku 直观的用户界面读取和写入 Fabric 中的数据集,同时利用 Fabric 计算。底层数据将驻留在 OneLake 中。

数据连接:管理员可以通过 Dataiku 的数据连接与 Fabric 数据仓库建立连接。这通常涉及配置访问凭据并选择适当的数据存储选项。由于这些连接将使用直通 Microsoft 凭据,因此所有数据访问限制都会保留,并且数据会保留在 OneLake 中。

Microsoft onelake 连接

一旦建立连接,用户就可以开始使用 Fabric。

数据访问和管理:连接后,用户可以轻松访问存储在 OneLake 中的数据集。Dataiku 的界面允许进行数据探索、转换和可视化。

首先,数据工程用户希望将 S3 中的一些财务数据加载到 OneLake 中进行处理。这可以通过使用 Dataiku 流程中的同步配方无需代码即可完成。无论数据大小如何,Dataiku 都会自动设置快速路径以轻松移动数据。

S3 中的财务数据

一旦用户将所需的数据放入 Onelake,他们就可以开始使用 Dataiku 可视化配方来连接和准备数据,以构建机器学习 (ML) 模型。在这里,我们可以看到我们已经同步了两个数据集并将它们连接起来。由于数据是在 Fabric 数据仓库内同步的,因此我们能够利用 Fabric 计算来执行连接——无论数据的大小或原始存储位置如何。

工程师已将数据移交过来,现在她将把数据交给分析师进行清理。分析师使用 Dataiku 的内置 AI 助手 AI Prepare 来准备清理数据。再次,所有计算和数据集都被推送到 Fabric 和 OneLake。




最后,既然分析师已经正确准备了数据,流程如下:

财务预测 GenAI

她将把数据交给数据科学家,使用 Dataiku 的可视化 ML 功能构建一个新的预测模型。他在 Dataiku 中训练、测试和评估该模型,而无需编写任何代码。
Post Reply