跳到主要内容

轻量级评估

适用于已注册社区用户和付费方案用户

轻量级评估功能适用于已注册的社区用户以及所有付费方案。

什么是轻量级评估?

在构建工作流时,你通常希望用少量示例对其进行测试,以了解其性能并进行改进。在工作流开发的这个阶段,检查每个示例的工作流输出结果通常就已足够。设置更正式的评分或指标所带来的收益,还不足以抵消其代价。

轻量级评估允许你将测试数据集中的示例逐一传入工作流,并将输出写回到数据集中。然后你可以将这些输出并排查看,并与预期输出(如果有的话)进行直观比较。

工作原理

关于 Google Sheets 的凭据

评估使用数据表或 Google Sheets 来存储测试数据集。要使用 Google Sheets 作为数据集来源,请配置 Google Sheets 凭据。

轻量级评估在你工作流的「编辑器」标签页中进行,不过你可以在「评估」标签页中找到其配置说明。

步骤:

  1. 创建数据集
  2. 将数据集连接到工作流
  3. 将工作流输出写回数据集
  4. 运行评估

以下说明将以一个对传入的支持工单进行分类和优先级排序的示例工作流为例。

示例 AI 工作流

1. 创建数据集

创建一个数据表或 Google Sheet,为工作流准备少量示例。数据集应包含以下列:

  • 工作流输入
  • (可选)预期或正确的工作流输出
  • 实际输出

将实际输出列留空,在评估过程中填充。

支持工单分类工作流的示例数据集 支持工单分类工作流的示例数据集

2. 将数据集连接到工作流

插入评估触发器以引入数据集

每次评估触发器运行时,将输出代表数据集中一行数据的单个数据项。

点击评估触发器左侧的「评估全部」按钮,将按顺序多次运行你的工作流,每次对应数据集中的一行。这是评估触发器的特殊行为。

在连接触发器时,你通常只想运行一次。你可以通过以下方式实现:

  • 将触发器的「最大处理行数」设置为 1
  • 点击触发器上的「执行节点」按钮(而不是「评估全部」按钮)

将触发器连接到工作流

现在可以将评估触发器连接到工作流的其余部分,并引用其输出的数据。至少需要在工作流后续步骤中使用数据集的输入列。

如果工作流中有多个触发器,则需要合并各分支。

连接评估触发器 添加并连接了评估触发器的支持工单分类工作流。

3. 将工作流输出写回数据集

要在评估运行时填充数据集的输出列,请执行以下操作:

  • 插入评估节点的「设置输出」动作
  • 将其连接到工作流中产出待评估输出结果之后的某个位置
  • 在节点参数中,将工作流输出映射到正确的数据集列

连接设置输出节点 添加并连接了「设置输出」节点的支持工单分类工作流。

4. 运行评估

点击评估触发器左侧的 执行工作流 按钮。工作流将多次执行,每次对应数据集中的一行:

执行工作流按钮

在数据表或 Google Sheet 中查看每次执行的输出结果,如有需要,可通过工作流的「执行记录」标签页查看执行详情。

当数据集中的示例超过少量时,可以考虑使用基于指标的评估来获得性能的数字化视图。另请参阅技巧与常见问题。