Dataiku 的生成式 AI:最新动态和未来发展
Posted: Sun Feb 16, 2025 4:43 am
六个月前,我们分享了Dataiku 进军生成式 AI 领域的重要进展— 此后,这一旅程势头强劲。早在二月份,我们就看到这项变革性技术的早期阶段已被客户采用, 83% 的 AI 领导者已开始尝试生成式 AI。如今,这些实验已发展成为复杂的生产级实施,正在重塑行业并重新定义业务战略。我们刚刚与 Databricks 联合发布的调查显示,65% 拥有 GenAI 模型的高级 AI 专业人士正在从这些投资中获得正回报。
过去六个月,Dataiku 经历了创新的旋风。我们一直专注于为客户提供最新的模型、工具和护栏,以将生成式人工智能技术战略性地整合到他们的运营中,而Dataiku LLM Mesh则处于这些进步的最前沿。在这篇博客中,我们将回顾一些最令人兴奋的平台新增功能,并让您一睹目前正在开发的路线图功能。
什么是新的?
1. Dataiku LLM Mesh 中的更多连接和模型
在当今竞争激烈且瞬息万变的 AI 生态系统中,Dataiku LLM Mesh 使组织能够采用多 LLM 策略,并在新技术或更先进的技术出现时轻松更换支持现有应用程序的模型。我们已扩展 LLM Mesh以与 15 家领先的云和 AI 服务提供商集成,包括与 Snowflake Cortex、Mosaic AI、Mistral AI 和 NVIDIA NIM 的新专用连接。我们还一直在跟进最新和最伟大的模型(相信我,创新浪潮不断涌现!),通过这些连接增加了对 Llama3、Gemma、Claude 3、Arctic、DBRX-Instruct、GPT-4o 和 Mixtral 8*7B 等尖端 LLM 的支持。
Dataiku 通过具有内置安全性和使用控制的安全 API 网关提供与 LLM 提供商的直接连接。
Dataiku 通过具有内置安全性和使用控制的安全 API 网关提供与 LLM 提供商的直接连接。
LLM Mesh 的其他增强功能包括支持它的模型的令牌流、将组织 ID 添加到 OpenAI 调用以用于内部退款或成本分配目的的能力,以及对 LLM Mesh API 的几项补充,以支持高级参数、多模态和函数调用。
2. 增强检索增强生成 (RAG) 工作流程
我们有超过 60 个客户渴望构建内部 AI 助手,以提高员工工作效率并提供更好的工作体验,我们也将大量注意力集中在加快和消除开发 RAG 驱动的聊天机器人的端到端流程中的摩擦上。由于许多基础 LLM 未接受过专业领域的培训,或者没有接触过最新或专有的公司数据,因此大规模采用生成式 AI 的最大障碍之一是对模型幻觉的担忧。RAG方法通过额外的背景和批准的源信息“及时”增强 LLM 的预先存在的知识,这是组织建立用户信任和降低幻觉风险的最实用和最有效的方法之一(无需微调模型)。
Dataiku 中的 RAG
首先,我们更新了文本提取和光学字符识别 (OCR) 配方,以更有意义的语义 俄罗斯电话号码数据 块形式提取文本,并保留标题、章节或页码等元数据。这种“智能分块”降低了在尴尬的断点处拆分章节的风险,并且元数据在对引用来源进行事实核查时也可用于语义搜索和手动文档导航。
智能分块 RAG
接下来,我们希望通过授予对将要嵌入的数据块的更多可见性和控制来改善构建者的 RAG 体验。在准备配方中,新的“将列拆分为块”处理器为您提供了许多块大小、重叠和使用的文本分隔符选项。自动步骤预览允许您在继续工作流程之前查看文本块的外观,并根据需要调整设置或添加更多清理步骤。例如,您可以选择过滤掉太小而无用的块,或者在嵌入之前应用假名来掩盖源数据中的敏感信息。
Dataiku 准备食谱
一旦您的文档或文档块被矢量化(得益于嵌入配方),信息就会有效地存储在矢量存储中,并由 Dataiku Flow 中称为“知识库”的对象表示。知识库现在可以在项目之间共享,以简化源材料在多个用例中的重用。例如,内部员工政策文件可能是人力资源和法律部门聊天应用程序的有用参考资料。
过去六个月,Dataiku 经历了创新的旋风。我们一直专注于为客户提供最新的模型、工具和护栏,以将生成式人工智能技术战略性地整合到他们的运营中,而Dataiku LLM Mesh则处于这些进步的最前沿。在这篇博客中,我们将回顾一些最令人兴奋的平台新增功能,并让您一睹目前正在开发的路线图功能。
什么是新的?
1. Dataiku LLM Mesh 中的更多连接和模型
在当今竞争激烈且瞬息万变的 AI 生态系统中,Dataiku LLM Mesh 使组织能够采用多 LLM 策略,并在新技术或更先进的技术出现时轻松更换支持现有应用程序的模型。我们已扩展 LLM Mesh以与 15 家领先的云和 AI 服务提供商集成,包括与 Snowflake Cortex、Mosaic AI、Mistral AI 和 NVIDIA NIM 的新专用连接。我们还一直在跟进最新和最伟大的模型(相信我,创新浪潮不断涌现!),通过这些连接增加了对 Llama3、Gemma、Claude 3、Arctic、DBRX-Instruct、GPT-4o 和 Mixtral 8*7B 等尖端 LLM 的支持。
Dataiku 通过具有内置安全性和使用控制的安全 API 网关提供与 LLM 提供商的直接连接。
Dataiku 通过具有内置安全性和使用控制的安全 API 网关提供与 LLM 提供商的直接连接。
LLM Mesh 的其他增强功能包括支持它的模型的令牌流、将组织 ID 添加到 OpenAI 调用以用于内部退款或成本分配目的的能力,以及对 LLM Mesh API 的几项补充,以支持高级参数、多模态和函数调用。
2. 增强检索增强生成 (RAG) 工作流程
我们有超过 60 个客户渴望构建内部 AI 助手,以提高员工工作效率并提供更好的工作体验,我们也将大量注意力集中在加快和消除开发 RAG 驱动的聊天机器人的端到端流程中的摩擦上。由于许多基础 LLM 未接受过专业领域的培训,或者没有接触过最新或专有的公司数据,因此大规模采用生成式 AI 的最大障碍之一是对模型幻觉的担忧。RAG方法通过额外的背景和批准的源信息“及时”增强 LLM 的预先存在的知识,这是组织建立用户信任和降低幻觉风险的最实用和最有效的方法之一(无需微调模型)。
Dataiku 中的 RAG
首先,我们更新了文本提取和光学字符识别 (OCR) 配方,以更有意义的语义 俄罗斯电话号码数据 块形式提取文本,并保留标题、章节或页码等元数据。这种“智能分块”降低了在尴尬的断点处拆分章节的风险,并且元数据在对引用来源进行事实核查时也可用于语义搜索和手动文档导航。
智能分块 RAG
接下来,我们希望通过授予对将要嵌入的数据块的更多可见性和控制来改善构建者的 RAG 体验。在准备配方中,新的“将列拆分为块”处理器为您提供了许多块大小、重叠和使用的文本分隔符选项。自动步骤预览允许您在继续工作流程之前查看文本块的外观,并根据需要调整设置或添加更多清理步骤。例如,您可以选择过滤掉太小而无用的块,或者在嵌入之前应用假名来掩盖源数据中的敏感信息。
Dataiku 准备食谱
一旦您的文档或文档块被矢量化(得益于嵌入配方),信息就会有效地存储在矢量存储中,并由 Dataiku Flow 中称为“知识库”的对象表示。知识库现在可以在项目之间共享,以简化源材料在多个用例中的重用。例如,内部员工政策文件可能是人力资源和法律部门聊天应用程序的有用参考资料。