事实与感觉数据驱动的模型评估方法
Posted: Sun Feb 16, 2025 4:34 am
为了更好地理解一些适用于问答应用的指标,让我们用辩论来类比。在辩论中,当向参与者提问时,期望他们能够给出清晰、相关且有事实依据的回答。同样,当向法学硕士提出问题时,其输出将根据其准确性、相关性和推理的清晰度进行评估。
答案正确性指标评估返回的答案是否在事实上正确,而答案相关性则衡量答案是否与所提问题相关且切题。请注意,这两个指标并不总是一致的!就像辩论参与者可能会通过改变话题来转移或回避某个话题一样,法学硕士也有可能提供一个有充分依据且在事实上正确的答案,但实际上并没有回答所提问题。
如果您的问答应用使用 RAG 并从知识库中检索信息,您还需要衡量检索步骤的准确性和全面性。回到辩论类比,将其视为:演讲者是否用可靠且相关的源信息支持他们的论点?他们是否省略了关键信息或遗漏了可能影响响应整体完整性的关键细节?
上下文精确度检查管道的语义搜索部分从知识库中提取正确信息的效果,而上下文召回率则衡量系统检索回答问题所需的所有相关和必要信息的效果。实际上,上下文精确度得分高意味着您的应用提取的是与问题直接相关的高度相关的信息,而上下文精确度低则表示检索到的信息可能部分或完全不相关,从而导致响应不太准确或没有帮助。
忠诚度是 LLM 评估指标之一,用于衡量生成的响应与知识库中的源材料或事实的匹配程度。例如,如果 LLM 突然引入知识库中未找到的事实,即使信息正确,其忠诚度得分也会很低;此指标可帮助确定您的应用程序是否正在生成包含未经验证的信息甚至幻觉的输出。在辩论类比中,这就像评估参与者的回答是否合乎逻辑且与他们提供的证据在事实上一致,而不是偏离不受支持的主张或不正确的细节。
此类指标不仅可以帮助您确定 LLM 是否发挥了作用,而且还提供了一个一致、客观的框架 罗马尼亚电话号码数据 来比较不同的模型和设置。这样做的好处是,您可以测试不同的配置,并根据真实数据(而不是直觉)客观地比较结果。
使用自定义 Python 指标扩展 LLM 评估
为了通过定制的见解扩展标准指标集,专家还可以使用 Python 代码定义自定义指标。Dataiku 包含模板和代码示例,以加快构建自定义指标的过程。作为额外奖励,Dataiku 甚至会在每个单独的 LLM 评估中保存并显示用于计算任何自定义指标的确切代码,以防定义在应用程序生命周期的某个时刻发生变化!
自定义指标
为什么自动评估胜过猜测
每次运行配方时,所有指标(标准和自定义)都会被捕获、存储并在评估存储中可视化,使团队可以更轻松地自动化评估过程、跟踪一段时间内的性能以及对优化 GenAI 应用程序的不同方法进行基准测试。团队还可以将自动指标检查和操作纳入Dataiku 场景中,以提醒 AI 工程师或利益相关者 GenAI 应用程序性能质量正在下降。这是一种将 LLMOps 无缝集成到您的传统 MLOps 实践中的好方法。
答案正确性指标评估返回的答案是否在事实上正确,而答案相关性则衡量答案是否与所提问题相关且切题。请注意,这两个指标并不总是一致的!就像辩论参与者可能会通过改变话题来转移或回避某个话题一样,法学硕士也有可能提供一个有充分依据且在事实上正确的答案,但实际上并没有回答所提问题。
如果您的问答应用使用 RAG 并从知识库中检索信息,您还需要衡量检索步骤的准确性和全面性。回到辩论类比,将其视为:演讲者是否用可靠且相关的源信息支持他们的论点?他们是否省略了关键信息或遗漏了可能影响响应整体完整性的关键细节?
上下文精确度检查管道的语义搜索部分从知识库中提取正确信息的效果,而上下文召回率则衡量系统检索回答问题所需的所有相关和必要信息的效果。实际上,上下文精确度得分高意味着您的应用提取的是与问题直接相关的高度相关的信息,而上下文精确度低则表示检索到的信息可能部分或完全不相关,从而导致响应不太准确或没有帮助。
忠诚度是 LLM 评估指标之一,用于衡量生成的响应与知识库中的源材料或事实的匹配程度。例如,如果 LLM 突然引入知识库中未找到的事实,即使信息正确,其忠诚度得分也会很低;此指标可帮助确定您的应用程序是否正在生成包含未经验证的信息甚至幻觉的输出。在辩论类比中,这就像评估参与者的回答是否合乎逻辑且与他们提供的证据在事实上一致,而不是偏离不受支持的主张或不正确的细节。
此类指标不仅可以帮助您确定 LLM 是否发挥了作用,而且还提供了一个一致、客观的框架 罗马尼亚电话号码数据 来比较不同的模型和设置。这样做的好处是,您可以测试不同的配置,并根据真实数据(而不是直觉)客观地比较结果。
使用自定义 Python 指标扩展 LLM 评估
为了通过定制的见解扩展标准指标集,专家还可以使用 Python 代码定义自定义指标。Dataiku 包含模板和代码示例,以加快构建自定义指标的过程。作为额外奖励,Dataiku 甚至会在每个单独的 LLM 评估中保存并显示用于计算任何自定义指标的确切代码,以防定义在应用程序生命周期的某个时刻发生变化!
自定义指标
为什么自动评估胜过猜测
每次运行配方时,所有指标(标准和自定义)都会被捕获、存储并在评估存储中可视化,使团队可以更轻松地自动化评估过程、跟踪一段时间内的性能以及对优化 GenAI 应用程序的不同方法进行基准测试。团队还可以将自动指标检查和操作纳入Dataiku 场景中,以提醒 AI 工程师或利益相关者 GenAI 应用程序性能质量正在下降。这是一种将 LLMOps 无缝集成到您的传统 MLOps 实践中的好方法。