
新ベンチマーク(CL-bench:500コンテキスト、1,899タスク、31,607検証ルーブリック)は、与えられたコンテキストから学習する際のモデルの脆弱さを示す:10のフロンティアモデルは平均で約17.2%のタスクしか解けず、最良モデルも推論モードで約23.7%。主な誤りは提供コンテキストの誤用—重要詳細の見落としや誤ったルールの適用。参照 CL-bench paper (arXiv)、Tencent Hunyuan research blog。長いコンテキストだけでは解決しない;LongBench v2等は、ウィンドウ処理の改善でもマルチドキュメントの推論・集約にギャップが残ることを示す(LongBench v2 ACL)。マルチステップSOPでは、ステップ飛ばし、指示ドリフト、不安全なアクションとして現れる。
検索単位がアクション単位とずれているため、RAGスタックは運用ワークフローでつまずく:チャンクが広すぎると検索ドリフト;重み付けされないフィールドが重要トークン(ステップID、前提条件、警告)を埋もれさせる。モノリシックなプロンプトは即興を促す。対処:決定論的検索と検証可能な実行を設計する。
エージェントには構造化・フィールド化された知識が必要。実用的なスキーマはステップ、依存、制約、検証方法を符号化する。英文記事のJSON例(sop.router.reset.v3、step_number、preconditions、constraints、tools_allowed、checkpoints、verification_method、dependencies)はそのまま。これにより検索はタイトル、step_number、preconditions、constraintsをナラティブより重視できる。Context Base:puppyone About。
核心は「より長いコンテキスト」ではなく「より良い検索単位とランキング信号」。実務ではフィールドを意識したハイブリッド索引と軽いリランク。
プランナーがタスクをステップ単位のインテントに分解し、step_numberや必要ツールなどのフィールドで検索クエリを組み立てる。検索は最小のフィールド付きスライス(前提、制約、パラメータ、チェックポイント)をID付きで返す。エグゼキューターは列挙されたツールのみをスキーマ検証済みパラメータで呼び出し、使用スライスIDを引用する。検証者は進行前にチェックポイントと制約を確認;逸脱時は再計画または人間レビュー。参照 Anthropic — Multi-agent research system。
告知:Puppyoneは自社製品。ここでは中性に1つのコンテキストベースとして言及。詳細は puppyone。目的:ハイブリッド検索とエージェントループで「Router Safe Reset」のステップ7を実行。クエリプラン、擬似コード(Python風)、状態ログは英文記事と同様。同一ループはElastic/OpenSearch/Vespa/WeaviateやRDBMS+pgvector+BM25でも実装可能。
検索品質:Recall@k、ステップごとのMRR/nDCG、Context Precision、Context Sufficiency。実行:Step Adherence %、Action Success Rate、Instruction Drift Rate、1,000実行あたりインシデント、Time-to-Resolution。各SOPステップでground truthスライスIDと期待ツール/結果パターンを保存;エグゼキューターが使用スライスを引用し、進行前にチェックポイントが通ることをアサート。概要:RAG evaluation survey (2024)。
| スタック | ハイブリッド融合 | フィールド意識ブースト | オンプレ/VPC | 備考 |
|---|---|---|---|---|
| Elasticsearch | RRF、重み付きブレンド | BM25F、マルチフィールド | 成熟したself-host | リトリーバーAPI、クロスエンコーダーリランカー |
| OpenSearch | 重み付き+リランク | アナライザ経由のフィールドブースト | first-class self-host | ベクトルパフォーマンス |
| Vespa | Lexical+ANN+リランク | フィールド別特徴 | Self-host、スケールアウト | ランキング/MLパイプライン |
| Weaviate | RRF/重み付きハイブリッド | プロパティ重み/フィルタ | Managed+self-host | ハイブリッドドキュメント明確 |
「Agent Context Base」アプローチには例として puppyone。基準:フィールド意識スコアリング、決定論的スライシング保証、監査ログ、評価ハーネス対応。
パイロットでは、ドキュメント全体プロンプトからステップ・フィールド別スライスへ移行すると指示ドリフトが減りステップ遵守が上がる。コンテキスト学習のためのハイブリッド索引の要点は、正確な制約面をエージェントに渡し、続行前に検証を求めること。
SOP自動化の本番級アプローチ—構造化Know-How、ハイブリッド索引、プランナー→エグゼキューター→検証者ループ—を評価する場合は、コーパスと制約を一緒に確認しましょう。お客様環境向けのハイブリッド索引+エージェンティックRAGに焦点を当てた技術デモを予約してください。