メトリクスベースの評価

ProプランおよびEnterpriseプランで利用可能

メトリクスベースの評価は、ProプランおよびEnterpriseプランでご利用いただけます。登録済みのコミュニティユーザーおよびStarterプランのユーザーも、単一のワークフロー内でこの機能を利用可能です。

メトリクスベースの評価とは？

ワークフローがデプロイ準備完了した段階では、通常、開発段階で使用したサンプルよりも多くのサンプルを使ってテストを行いたくなるでしょう。

たとえば、本番環境での実行中にエッジケースが発生し始めた場合、それらをテストデータセットに追加して、すべてカバーされていることを確認したいと思うはずです。

本番データから構築された大規模なデータセットの場合、結果を単に目視で確認するだけでは全体的なパフォーマンスを判断するのは困難です。そのため、パフォーマンスを定量的に測定する必要があります。メトリクスベースの評価では、各テスト実行に対して1つまたは複数のスコアを割り当て、過去の実行結果と比較できます。個々のスコアは集計され、データセット全体における総合的なパフォーマンスを測定します。

この機能により、メトリクスを計算する評価を実行し、各実行間でのメトリクスの変化を追跡し、その変化の原因を詳細に分析することが可能になります。

メトリクスは決定論的関数（例：2つの文字列間の編集距離）でも、AIを用いて計算することもできます。一般的に、メトリクスはワークフローの出力と参照出力（正解データ、または ground truth とも呼ばれる）とのギャップを検証するものです。このため、データセットには参照出力が含まれている必要があります。ただし、一部の評価では参照出力が不要なものもあります（例：テキストの感情傾向や有害コンテンツのチェックなど）。

動作の仕組み

Google Sheetsのクレデンシャルについて

評価では、テストデータセットを保存するためにデータテーブルまたはGoogle Sheetsを使用します。Google Sheetsをデータセットのソースとして使用するには、Google Sheetsのクレデンシャルを設定してください。

軽量評価を設定する
ワークフローにメトリクスを追加する
評価を実行して結果を確認する

1. 軽量評価の設定

設定手順に従ってデータセットを作成し、ワークフローに接続し、出力をデータセットに書き戻します。

以下の手順では、「軽量評価」ドキュメントで使用されているサポートチケット分類のサンプルワークフローと同じものを使用しています：

軽量評価ワークフロー

2. ワークフローへのメトリクス追加

メトリクスは、ワークフローの出力を評価するための定量的な尺度です。通常、実際のワークフロー出力と参照出力を比較します。AIを用いてメトリクスを計算するのが一般的ですが、コードで直接計算することも可能です。n8nでは、メトリクスは常に数値です。

ワークフローが出力を生成した後のどこかに、メトリクスを計算するロジックを追加する必要があります。メトリクスで使用する参照出力は、データセットの列として追加しておくことで、ワークフロー内で利用可能になります（評価トリガーはデータセットの内容をワークフローに渡すため）。

Set Metrics（メトリクスの設定） 操作を使用して、以下のメトリクスを計算できます：

Correctness（正確性、AIベース）：回答の意味が提供された参照回答と一致しているか。1〜5のスケールで評価し、5が最高。
Helpfulness（有用性、AIベース）：クエリに対して適切に回答しているか。1〜5のスケールで評価し、5が最高。
String Similarity（文字列類似度）：回答が参照回答にどの程度近いかを、文字単位で測定（編集距離）。0〜1のスコアを返す。
Categorization（分類）：回答が参照回答と完全に一致しているか。一致すれば1、そうでなければ0を返す。
Tools Used（ツール使用）：実行時にツールを使用したか。0〜1のスコアを返す。

カスタムメトリクスを追加することも可能です：ワークフロー内でメトリクスを計算し、それを評価ノードにマッピングします。Set Metrics 操作で Custom Metrics（カスタムメトリクス） を選択し、返したいメトリクスの名前と値を設定します。

例：

RAG ドキュメント関連性：ベクトルデータベース使用時、取得されたドキュメントが質問に関連しているか。

メトリクスの計算はレイテンシとコストを増加させるため、評価実行時のみ計算し、本番環境での実行時にはスキップしたい場合があります。「評価中かどうかをチェック」操作の後にメトリクスのロジックを配置することで、これを実現できます。

評価中かどうかをチェックノード

3. 評価の実行と結果の確認

ワークフローの評価タブに切り替え、Run evaluation（評価を実行） ボタンをクリックします。評価が開始されます。完了すると、各メトリクスの集計スコアが表示されます。

テスト実行の行をクリックすると、各テストケースの結果を確認できます。個別のテストケースをクリックすると、その結果を生成した実行ログが（新しいタブで）開きます。