AIハーネス設計ベストプラクティス¶

対象: LLM/エージェントハーネス（Skills、subagents、プロンプト、評価）を構築するシステムエンジニアの実務知見。原則: 英語論文（arXiv含む）・モデル提供元公式・主要ベンチマーク公式など一次ソースで裏付けが取れた知見のみを収録する。

このファイルはWeb自動収集により毎週月曜に更新されます。手書きの「型」は manual/ai.md 側を参照。

実務指針（要するにこうする）¶

LLM/エージェントハーネスを設計するときの行動原則。一次ソース（arXiv・モデル提供元公式・ベンチ公式）のみ。各原則の根拠は下部「サブトピック別エビデンス」を参照。

推論・thinking budget - thinking token は無制限に増やさず、タスク別に上限を調整する（根拠: overthinkingでR1-32BがAIME 12K tokensの55.8%ピーク→16Kで54.9%に劣化, 2026）

タスク長の見積もり - エージェントに任せる自律タスク長は50% time horizon（GPT-5で214分）を目安に設計し、約131日で倍増する前提で上限を定期的に見直す（根拠: METR TH1.1、post-2023 doubling time 130.8日・タスク228件に拡充, 2026-05）

Skills 設計 - Skills は少数モジュールに絞る（包括ドキュメントより効く）（根拠: SkillsBench、キュレーションSkillsで平均+16.2pp、モデル自己生成Skillsは平均効果なし, 2026-03）

ハーネス構成 - ハーネス（コンテキスト構成・検索・プロンプト）は手作業チューニングでなくend-to-endで自動最適化する（根拠: Meta-Harness、5モデル平均+4.7pt・コンテキストトークン4分の1, 2026-03） - エージェント設定の基本形はContext Files。ツール横断で使うならAGENTS.md（根拠: 2,853 GitHubリポジトリ・5ツール調査でContext Filesが支配的。採用実態の記述研究で効果検証ではない, 2026-06） - 実行環境（sandbox）はエージェントループから分離し、遅延プロビジョニングする（根拠: Anthropic Managed Agents、TTFT p50約60%・p95 90%以上短縮。自社実測・第三者再現なし, 2026-04） - エージェント履歴は全量保持せず、直近数ツール応答+要約に圧縮する（根拠: Microsoft Dynamics 365実験、完了率71.0%→91.6%・トークン63%削減。単一業務ドメイン, 2026-06）

マルチエージェント vs シングル - トークン予算を揃えるとマルチの優位は出にくい。single-agentを基準に検討する（根拠: 4-hop推論でSAS 0.418 vs Sequential MAS 0.379, 2026 / 単純予測タスクで全マルチ構成が市場ベースラインに劣後, 2026-05） - マルチにするなら中央集権的検証を入れる。チェーン化はhallucinationを下げるがfactual accuracyも下げるトレードオフを伴う（根拠: 検証なしアーキはエラー伝播, 2026-04 / Hallucination Cascade: 3-agentチェーンでhallucination 0.422→0.272だがfactual accuracy 0.789→0.769, 2026-06） - マルチエージェントシステムには6失敗モードをオンライントレース信号でモニタリングする仕組みを実装する（根拠: GAIA 165トレースで失敗率最大38%、平均トークン最大16,389, 2026-05）

評価・LLM-as-judge - 単一 judge に依存しない。複数 judge 集約 + format/長さ正規化を行い、judge信頼性はタスク・評価観点別に確認する（根拠: UC Berkeley 21 judge・541,000判定でjudge順位が最大14位変動, 2026-06 / IRT-GRM診断、SummEval ρ=0.81–0.94に対しTopicalChat Understandability ρ=0.34–0.53, 2026-05） - ベンチマークスコアは汚染を疑い、paraphrase耐性テスト・behavioral probeを併用（根拠: MMLU汚染監査で全体13.8%汚染・間接参照で-7.0pp, 2026-03 / Brittlebenchで意味保存摂動に順位63%入替, 2026） - 公開ベンチマークは使用前にタスク品質も監査する。問題タスクの除外でスコアは約10%動く（根拠: ABA監査、168ベンチ・34,285タスクの25.7%に重大問題、除外でSWE-bench Verified +9.9%, 2026-05） - long-horizonエージェントは pass@1 だけでなく信頼性指標（GDS）・meltdown率も計測（根拠: SEドメインでGDS 0.90→0.44, meltdown率最大19%, 2026） - Deep Researchエージェント評価ではSearch-Time Contamination（3類型: Metadata Leakage / Context Leakage / Answer Leakage）を測定し、最大4%の水増しを除外する（根拠: arXiv 2026-06） - long-horizonメモリ評価にはAMA-Bench等の専用ベンチを使う（既存memoryは因果・目的情報を落とし類似度検索依存になりがち）（根拠: AMA-Bench 2026-05） - スキャフォールドと評価環境の選択が結果を大きく左右する。同じモデルでもOnline/Offline設定で34.5pp以上の差が出うる（根拠: 統一評価フレームワーク 7ベンチ・15モデル, 2026-05） - エージェント失敗診断はoutputだけでなくステップ全体のトレースで行う（根拠: TraceElephant step-level評価でoutput-only比最大76%改善, 2026-04）

メモリ設計 - long-horizonタスクでは記憶機構が成功率を左右する。採用時は単一シナリオでなくシナリオ横断の汎用性で比較する（根拠: Neuro-Symbolic Dual Memory が ALFWorld 94.78% 等で既存手法超え, 2026-04 / 8メモリシステム×5シナリオ比較、平均ランク最良はAutoMEM 3.10, 2026-06） - 記憶を「意味的整理」ではなく「実行状態管理」として設計する（Grow/Compress/Maintain/Reviseで階層的状態を追跡）。トークン消費55.1%削減・成功率+7.8〜+20.4ppの改善事例あり（根拠: MAGE, 2026-06）

GEO（AI検索最適化） - マクロ構造（見出し階層・セクション分布・内部リンク密度）を最優先で最適化（根拠: 構造最適化で引用率+17.3%、貢献度マクロ44.9% > メソ39.7% > マイクロ15.4%, 2026-03） - 引用獲得には書式調整より、関連性・掲載順位・価格/鮮度の明示が効く（根拠: 競合GEO 252,000 trials、formatting-onlyは影響小, 2026-05） - GEO施策の効果と「目立つ度（stealth）」はトレードオフになることを前提に施策を選択する（根拠: GEO-Bench 5データセット, 2026-05）

情報収集元¶

詳細な採否基準は criteria/verification.md と criteria/verification-ai.md を参照。AI領域はモデル更新が早いため原則2026年3月以降の情報を優先採用します。

最優先 (Tier 1) — 一次ソースのみ: - 学術: arXiv / 査読済み論文（実験コード・データセット・評価手順が再現可能なもの） - モデル提供元公式: Anthropic, OpenAI, Google DeepMind, Meta AI, Mistral 等のリサーチブログ・System Card・Model Card - 主要ベンチマーク公式: SWE-bench, GAIA, MMLU-Pro, HELM, LMSYS Chatbot Arena 等のリーダーボード本体

採用許容 (Tier 2): - 上記 Tier 1 の一次データを引用検証した信頼ある技術メディア - 主要研究機関レポート (Stanford HAI, MIT CSAIL 等)

除外: - 個人ブログ、ベンダー宣伝記事、LinkedIn投稿 - 体験談のみの記事 (「プロンプトに〇〇と書くと精度が上がる」系で評価方法不明) - 一次ソース不明の「ベストプラクティス」まとめ - ベンチマークスコアのみ引用、評価プロトコル変更・汚染対策の記述がないもの - 単一タスクのチェリーピック成功例で一般化している記事

LLMモデル動向¶

2026年の5 frontier model (Claude Sonnet 4.6, Claude Haiku 4.5, GPT-5.4-mini, Gemini 2.5 Pro, DeepSeek V3.2) のパッケージ名ハルシネーション率は 4.62%(Claude Haiku 4.5) 〜 6.10%(GPT-5.4-mini)、PyPI/npm 公式マスターリストへの 199,845 件ペアプロンプトで測定。5モデル共通ハルシネーションパッケージは 127 個 (PyPI 109/npm 18)。コード生成エージェントの tool-use 信頼性ベースラインに利用可能（The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort）
テスト時計算（thinking token）を増やすほど推論精度が上がるとは限らない。DeepSeek-R1-32B/s1-32BをAIME 2024/25・MATH-500・GPQA Diamondで評価し、R1-32BはAIMEで12K tokens時の55.8%がピーク、16Kでは54.9%に低下。flip ratioは7Kで1.09 [1.01,1.18] (p=0.014)、8Kで1.42 [1.21,1.68] (p=0.002)と思考延長に伴い上昇。過剰思考（overthinking）で性能が頭打ち・劣化する領域があり、推論モデルのthinking予算上限は無制限に伸ばさずタスク別に調整すべき（When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling）

エージェント設計¶

AgentProp-Bench で tool-using LLM agent の評価方式を定量比較。substring 判定は κ=0.049 (chance-level [-0.122, 0.221])、3-LLM ensemble は κ=0.432 (moderate [0.239, 0.622])。9 モデル (GPT-4o/4o-mini/4.1-mini/4.1-nano/3.5-turbo, o3-mini, Gemini-2.0/2.5-Flash, DeepSeek-V3) × 2,000 タスク × 100 件人手アノテーションで検証。意味的パラメータ注入の wrong-answer 伝播率はアンサンブル判定 r=0.78、人手校正 0.62 (0.46–0.73)。Runtime Interceptor で GPT-4o-mini hallucination を 55.8% → 32.8% (23pp 減, n=600, p<0.001) に改善。Agent 評価には複数 judge + 人手キャリブレーション + runtime mitigation の三段構えが定量的に推奨される（Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench）
SkillsBench: Agent Skills（推論時に手続き的知識を注入するパッケージ）の有効性を測定する初のベンチマーク。86タスク×11ドメインを3ハーネス（Claude Code/Gemini CLI/Codex CLI）×7 agent-model構成で計7,308トラジェクトリ評価し、LLM-as-judgeではなく決定論的verifierで採点して汚染耐性を確保。キュレーションSkillsは平均pass rateを+16.2pp（ドメイン別+4.5〜+51.9pp）向上させる一方、モデル自己生成Skillsは平均効果なし（84タスク中16タスクで負のデルタ）で、少数モジュールに絞ったSkillsが包括ドキュメントを上回り、Skill付与した小型モデルがSkillsなし大型モデルに匹敵（v3 2026年3月13日更新）（SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks）
マルチエージェントのスケーリング則を260構成・6ベンチマーク・5アーキテクチャ（Single-Agent＋Multi-Agent 4種: Independent/Centralized/Decentralized/Hybrid）・3 LLMファミリーで制御評価。相対性能変化は分解可能な金融推論で+80.8%、逐次プランニングで-70.0%、提案フレームワークは交差検証R²=0.373（タスク接地capability指標で0.413）・未知構成の87%で最良アーキテクチャを予測。中央集権的検証のないアーキテクチャはエラーを伝播し、single-agentベースラインが一定性能を超えると協調の収穫が逓減、ツール多用タスクではmulti-agentオーバーヘッドが生じると報告し、「unseen frontier modelsで一貫した相対的アーキテクチャ選好が成立」と一般化を明示（v3 2026年4月8日更新、汚染対策の記述なし）（Towards a Science of Scaling Agent Systems）
協調を「アーキテクチャ層」として情報統制下で検証した実証研究（2026年5月5日）。claude-opus-4-6（temperature 0.3、単一モデル）でPolymarket二値市場100件・494予測を評価し、情報層（モデル・ツール・プロンプト・1呼び出し1,500トークン上限）を固定して協調構造のみ変動。5構成のBrierスコアは0.153–0.181で市場コンセンサスのベースライン0.152に対し全構成が劣後（負のAlpha）、sequential_pipelineが最良（0.153）・consensus_alignmentが最悪（0.181）。汚染対策として学習カットオフ後の市場のみ選定するが、n=100でBonferroni補正後のペア検定は有意とならず、単一モデル検証である点を明記（マルチエージェント協調が単純予測タスクで価値を出さない反例と、構成間差の検出には十分なサンプルが要る示唆）（Coordination as an Architectural Layer for LLM-Based Multi-Agent Systems）
同一thinking-token予算で比較すると、multi-hop推論ではsingle-agentがmulti-agentに一致または上回る。FRAMES/MuSiQueの4-hop評価で、1,000 tokens平均時にSAS 0.418 vs Sequential MAS 0.379、95% bootstrap CIとDPIによる理論説明を提示。トークン予算を揃えるとマルチエージェント化のオーバーヘッドは正当化しにくく、予算固定下ではsingle-agentを基準に設計を検討すべき（Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets）
long-horizonエージェント向けNeuro-Symbolic Dual Memory（進捗と実現可能性を整合させる二重記憶）をGPT-4o-2024-11-20単一モデルで評価し、ALFWorld 94.78%（AWM 88.81%）、WebShop 51%（Reflexion 35%）、TextCraft 94%（ExpeL 88%）と既存記憶手法を上回る。記憶機構の設計が長期タスクの成功率を左右することを示す（Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents）
自動研究（AutoML）タスクでのマルチエージェント協調を実証比較。karpathy/climbmix-400b-shuffle上の単一AutoML研究タスクをGLM-4.7/GLM-4.6vで実行し、T=300s条件でsubagent構成が7回・agent teams構成が3回のeffective improvementsを出し、subagentsがpreflight/crash率最小・valid proposals最多。この設定ではsubagent型がagent teams型を上回ったが、単一研究タスクでの結果のため一般化は限定的（An Empirical Study of Multi-Agent Collaboration for Automated Research）
arXiv掲載のYaoqi Chenらは、MAGEが階層的状態ツリーとGrow/Compress/Maintain/Reviseで実行状態を管理し、MemoryArenaで平均タスク成功率をベースライン比+7.8〜+20.4pp、トークン消費を55.1%削減したと報告（Beyond Semantic Organization: Memory as Execution State Management for Long-Horizon Agents, 2026-06）
arXiv掲載のXianyou Liらは、multi-agent LLMの無駄計算診断で6失敗モードをオンライントレース信号に対応付け、GAIA 165検証トレースで失敗22/53・33/86・12/26、平均トークン8,152（Level 1）〜16,389（Level 3）を報告（Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability, 2026-05）
GPT-5.3・DeepSeek-V3・LLaMA-3-70B-Instructの500カスケード実験（10領域・1,250応答）で、3-agent chainはhallucination scoreを0.422→0.272に下げる一方、factual accuracyは0.789→0.769に低下した（Hallucination Cascade: Analyzing Error Propagation in Multi-Agent LLM Systems, 2026-06）
Stanford・MIT・KRAFTONのMeta-Harnessは、200問×各3サンプルでGPT-5.4系・Gemini 3系など5モデル平均をno-retrieval比+4.7pt改善し、オンライン分類では従来手法比+7.7pt、コンテキストトークンを4分の1に削減した（Meta-Harness: End-to-End Optimization of Model Harnesses, 2026-03）
AnthropicのManaged Agentsはbrain・hands・sessionを分離し、sandboxをexecute(name, input) → stringとして遅延プロビジョニングする自社基盤でTTFTをp50約60%、p95 90%以上短縮した。第三者再現のないAnthropic自社インフラ実測である（Scaling Managed Agents: Decoupling the brain from the hands, 2026-04）
MicrosoftはGPT-5によるDynamics 365の50タスク×5独立実行で、全履歴保持の完了率71.0%・1,480,996トークンから、直近5ツール応答と要約を使う方式の91.6%・553,374トークンへ改善し、Claude Sonnet 4.5でも追試した。単一業務ドメインに限定される（Less Context, Better Agents, 2026-06）
University of Bamberg・Heidelberg University・Singapore Management Universityによる2,853 GitHubリポジトリ、5コーディングツールの調査は8種類の設定機構を分類し、Context Filesが支配的、Skills/Subagentsは少数、AGENTS.mdはツール横断で利用されると報告した。採用実態の記述研究であり効果検証ではない（Harness Engineering for Agentic AI Coding Tools, 2026-06）
Michigan State University・George Mason University・Purdue Universityは8メモリシステムとagentic harnessを5シナリオで比較し、Qwen3-32B単一バックボーン条件でAutoMEMが平均ランク3.10、LoCoMo 67.3を記録した（long context 61.5、DCI-Lite 45.0）（Exploring Cross-Scenario Generality of Agentic Memory Systems, 2026-06）

LLM評価ベンチマーク¶

Judge Reliability Harness: GPT-4o, Claude Sonnet/Opus 4.5, Llama Maverick 4.1 17B, Gemini 2.5 Pro の4 judge を 6種ストレステスト (Label Flip, Format Invariance, Semantic Paraphrase, Verbosity Bias, Stochastic Stability, Synthetic Ordinal) で評価。「どの judge も全ベンチマーク横断で一貫信頼ではない」、Persuade での semantic_paraphrase 精度は Gemini 2.5 Pro で 40%、format_invariance で平均 35%、Claude Sonnet 4.5 標準偏差 17.18%。AgentHarm では Claude Opus 4.5 が agent_perturbation 68.75% vs agent_positives 93.75% と非対称な偽陰性傾向。LLM-as-judge を評価ハーネスに組み込む場合、単一 judge 依存を避け format/長さ正規化と複数 judge 集約が必要（Judge Reliability Harness: Stress Testing the Reliability of LLM Judges）
評価論文の Frontier Lag: 2022年1月〜2026年4月の 112,303 件 LLM キーワードマッチから 18,574 件適格、4,766 件全文の bibliometric audit。論文がフロンティアより遅れたモデルを評価する乖離の中央値は +10.85 ECI (Claude Sonnet 3.7 ↔ Claude Opus 4.5 間距離の約 1.4 倍) で、年間 +5.53 ECI で拡大。さらに推論モード開示は抽象 3.2%/全文 21.2%、52.5% の論文がモデル粒度ではなく「AI」粒度で結論。LLM 評価論文を引用する際は評価時期・対象モデル・推論モードの開示確認が必須（Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation）
攻撃的サイバータスクでの 2026 frontier LLM 性能: NYU CTF Bench 全 200 チャレンジ × 7 プロバイダー 10 モデルを agent harness で評価し、Claude 4.5 Opus が最高 59% solve rate、Gemini 3 Pro 52%、Gemini 3 Flash が最良コスト効率 $0.05/解答。汚染対策の明示記述はないため絶対値の鵜呑みは避けるべきだが、agent-as-attacker 系ハーネスの capability ceiling 参照に利用可能（Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks）
6 frontier model（GPT-4o, GPT-4o-mini, DeepSeek-R1, DeepSeek-V3, Llama-3.3-70B, Qwen3-235B）のMMLU汚染を第三者が原著実証監査。語彙汚染検出（513問）・言い換え/間接参照診断（100問）・TS-Guessing行動プローブの3手法で測定し、全体汚染率13.8%（STEM 18.1%、Philosophy 66.7%）、選択肢を間接参照に書き換えると正答率が平均7.0pp低下（Law/Ethics分野は-19.8pp）、記憶シグナルが72.5%の問題で発火、DeepSeek-R1は伏字部分の76.6%を再構成。ベンチマークスコアの素朴な引用が汚染で水増しされるため、評価ハーネスにparaphrase耐性テストとbehavioral probeを組み込むべきと示す（2026年3月17日、利益相反なし）（Are Large Language Models Truly Smarter Than Humans? Benchmark Contamination, Surface-Pattern Reliance, and Behavioral Memorization Across Six Frontier Models）
LLM agentベンチマーク12本（agent特化8本+古典的静的ベンチ4本）の開示品質を5次元（ベンチマーク同一性・ハーネス仕様・推論設定・コスト報告・失敗内訳）で監査（Texas Tech大/UT Arlington、2026年5月20日）。agent特化ベンチの平均監査スコアは0.38/1.0（古典ベンチ0.66/1.0）、agent特化8本中で推論コストを開示した論文・content-addressedコンテナイメージを完全開示した論文はいずれもゼロで、agent評価の再現性開示が古典ベンチに劣ることを定量化（What Twelve LLM Agent Benchmark Papers Disclose About Themselves: A Pilot Audit and an Open Scoring Schema）
long-horizon LLMエージェントの信頼性はpass@1だけでは捉えられない。23,392 episodes・396タスク・10モデル・3ドメインで評価し、SE（ソフトウェアエンジニアリング）ドメインのGDSが0.90→0.44に低下、frontier clusterでもmeltdown率が最大19%に達する。エージェント評価ハーネスにはpass@1に加え信頼性指標（GDS）とmeltdown率の計測を組み込むべき（Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents）
LLM-as-judgeのバイアス緩和戦略を体系評価。5 judge×3ベンチ（MT-Bench n=400、LLMBar n=200、custom n=225）で、style biasが0.76–0.92とposition bias（≤0.04）を大きく上回り、combined budget戦略はClaude Sonnet 4で+11.2pp改善（p<0.0001）。judgeの主要バイアスは位置より文体であり、緩和にはcombined budget戦略が有効（Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines）
Brittlebenchは意味保存摂動（意味を変えずにプロンプトを変形）への頑健性を6ベンチ・1,800+ inference runsで評価。性能は最大約12%低下し、単一摂動でopen-weightモデルの順位が63%のケースで入れ替わり、摂動由来の分散がopen-weightモデルで全体の約半分を占める。ベンチマーク順位はプロンプト摂動に脆弱で、評価には摂動耐性テストを併用すべき（Brittlebench: Quantifying LLM robustness via prompt sensitivity）
SandboxEscapeBenchはコンテナsandbox脱出能力を18シナリオ（Inspect AI nested sandbox）で評価。difficulty 3でGPT-5/Claude Opus 4.5が0.40 [0.26, 0.56]、difficulty 4–5は成功0、Claude Opus 4.5の総合は0.49 [0.39, 0.59]。frontierモデルでも高難度のsandbox脱出は未到達で、エージェント実行環境の隔離強度の現状ベースラインとして参照可能（Quantifying Frontier LLM Capabilities for Container Sandbox Escape）
Beijing University of Posts and Telecommunications / Shanghai AI Laboratoryらの統一評価フレームワークは、7ベンチマーク・24ドメイン・15モデル・40万超ロールアウト・50億トークンで、スキャフォールドと環境変動がagent評価を大きく動かすことを示し、BFCL Web SearchではQwen3-30B-A3BがOnline 24.5%からOffline 59.0%へ上昇（A Unified Framework for the Evaluation of LLM Agentic Capabilities, 2026-05）
arXiv掲載のYongjie Wangらは、Deep Researchエージェント評価でSearch-Time Contaminationを6公開ベンチマーク上で測定し、Benchmark Metadata Leakage / Question-Context Leakage / Explicit Answer Leakageの3類型と最大4%の性能水増しを報告（Search-Time Contamination in Deep Research Agents: Measuring Performance Inflation in Public Benchmark Evaluation, 2026-06）
arXiv掲載のYujie Zhaoらは、AMA-Benchを長期ホライズンagent memory評価用に提案し、AMA-Agentが57.22%精度で最強ベースラインを11.16%上回ること、既存memoryが因果・目的情報を落とし類似度検索に依存することを報告（AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications, 2026-05）
UC Berkeleyの21 judge・9プロバイダ・118実行・約541,000判定の評価で、MT-Benchではexact matchがCohen's κを33〜41pp過大評価し、judge順位がベンチマーク間で最大14位変動した（Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias, 2026-06）
TraceElephantは3つのagentic systemから380 traces・220 failure tracesを構築し、完全実行トレースによりagent-level accuracy 65.9%、step-level accuracy 30.3%を達成、output-only相当よりstep-levelで最大76%改善した（Seeing the Whole Elephant: A Benchmark for Failure Attribution in LLM-based Multi-Agent Systems, 2026-04）
METRのTH1.1ではタスク数が170→228、8時間以上が14→31となり、post-2023 doubling timeは165.3→130.8日、GPT-5の50% time horizonは138→214分へ変化した。METRの現行ページでもTH1.1が現行スイートとして再確認できる（リリース原典）, 2026-05
Duke University・Together AI・Stanford UniversityのABAは9領域168ベンチマーク・34,285タスクを監査し、8,819タスク（25.7%）に重大問題を検出した。問題タスク除外でSWE-bench Verifiedは9.9%、Terminal-Bench 2は9.6%上昇し、専門家レビューとupstream PRでも検証された（Automated Benchmark Auditing for AI Agents and Large Language Models, 2026-05）
Chung-Ang University関連研究のIRT-GRM診断は7 judgeを比較し、SummEvalでは多くの条件でρ=0.81–0.94程度だった一方、TopicalChat Understandabilityはρ=0.34–0.53に低下し、judge信頼性がモデルだけでなくタスク・評価観点に強く依存することを示した（Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory, 2026-05）

AI検索最適化（GEO）¶

GEO 構造最適化: 6 プラットフォーム (Google SGE, Bing Chat, Perplexity AI, Phind, ChatGPT, Claude) × 200 記事 × 2 バージョン = 2,400 件、377 件実世界クエリ・平均 2,547 語で評価。引用率 +17.3% (p<0.001, Cohen's d=0.64)、主観品質 (G-Eval) +18.5%。アーキテクチャ別では Integrated S-G +19.7% / Search-then-Synthesize +19.2% / Iterative Refinement +14.0%。アブレーションで貢献度はマクロ構造 (見出し階層・セクション分布・内部リンク密度) 44.9% > メソ構造 (段落長 150-300 語・フォーマット多様性) 39.7% > マイクロ構造 (強調マーカー 5-10%) 15.4%。コントロールはベースライン引用率 45.0% → 最適化後 52.8%、BGE-m3 埋め込み類似度 0.843 を保持（Structural Feature Engineering for Generative Engine Optimization: How Content Structure Shapes Citation Behavior）
AgentGEO: 引用失敗モードの分類学（parsing/fetching/generationの3段階）に基づき診断と修復を反復するエージェント手法。ClueWeb22由来204ウェブページ×各60クエリ=計12,240クエリのMIMIQベンチで、in-context引用率79.52%（Vanilla 56.58%、AutoGEO比+10.72pp）を達成しコンテンツ修正量はベースライン25%に対し5%。gpt-4.1-miniとclaude-haiku-4-5で構築した生成エンジンで評価し、引用率はGPT系優位だが効用指標（Precision/Recall/Clarity）はClaude系優位とモデル依存を明示、汎用ルールはlong-tailコンテンツを害しうると報告（浙江大学、2026年3月10日）（Diagnosing and Repairing Citation Failures in Generative Engine Optimization）
MAGEO（Multi-Agent GEO）: 4エージェント（Preference/Planner/Editor/Evaluator）の実行層と再利用可能なskill蒸留の学習層からなる二層構造。MSME-GEO-BenchでWord-Level Visibility（WLV）がGPT-5.2で4.52（最強ベースライン"More Quotes" 1.33の3倍超）・Gemini-3 Proで5.30・Qwen-3 Maxで3.84、同一検索リスト下で最適化有無を比較するTwin-Branchプロトコルでブラックボックスエンジンの編集効果を因果帰属。LLM-as-Judge信頼性はSpearman ρ=0.81（95%CI[0.76,0.85]）、アブレーションでengine preference除去-19%・Skill Bank除去-13%、検索Top-10に原文書が含まれる場合のみクエリ採用する汚染対策あり（Gemini-3 Proが逆クエリ生成に関与するモデル固有バイアスを自己申告、2026年4月21日）（From Experience to Skill: Multi-Agent Generative Engine Optimization via Reusable Strategy Learning）
GEOを「引用選択」と「引用吸収（引用ページが回答にどれだけ深く反映されるか）」の2段階で測定すべきとするフレームワーク。602制御プロンプト×3プラットフォームで21,143件の検索層引用・23,745件の引用特徴を収集し、引用幅と深度が乖離（Perplexity平均16.35件/Google AIO 12.06件は多く引用する一方ChatGPT 6.88件は少数引用だが平均influence高=ChatGPT 0.2713 vs Google 0.0584/Perplexity 0.0646）。証拠ジャンル別influence上昇はコード+76.88%・統計値+61.55%・定義+57.33%、Q&A形式は-5.74%と負で、記述統計のみ（p値・CIは捏造回避として非提示）・再現用データをGitHub公開（2026年4月29日）（From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms）
AI検索可視性（引用シェア）の測定は単一実行では信頼できないことを統計的に実証。Perplexity Search/OpenAI SearchGPT/Google Geminiの3プラットフォームで各トピック200クエリ×3トピックを9日間日次+10分間隔で収集し、引用分布はべき乗則に従い、bootstrap 95%信頼区間の幅がSearchGPTで5-7ppのため引用シェア差5-7pp未満のドメイン間の優劣はノイズフロア内（例: tomsguide.com 9.5%[CI 5.5-12.5%] vs runnersworld.com 6.0%[CI 4.0-8.0%]は統計的に区別不能）。引用カウントと引用シェアのプラットフォーム内Spearman ρ=0.994で、目標CI幅から逆算した最小サンプルサイズ確保を推奨（2026年3月9日, stat.AP）（Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement）
競合下のGEO（2文書RAGでどちらが引用されるか）を6 LLM・252,000 trials・18 content factorsで評価。first citationの最大要因はtopical relevanceとlist position、explicit price（明示価格）とrecent timestamp（新しい更新日時）も一貫して有利な一方、formatting-onlyの編集（書式のみの変更）は影響が小さい。引用獲得には体裁の調整より関連性・掲載順位・価格/鮮度の明示が効く（What Gets Cited: Competitive GEO in AI Answer Engines）
Beihang UniversityらのAgentGEOはMAP-ElitesアーカイブとCo-Evolving Criticを用い、GEO-Bench 1,000クエリでOverall 25.48（AutoGEO 23.71）を達成し、GEO-Benchで26.08〜27.71%、MS MARCOで70.07〜70.31%、E-commerceで36.59〜47.58%のgainを報告；700/1700件のGE feedbackで25.12/25.60の性能を維持（AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization, 2026-03）
arXiv掲載のOjas Nimaseらは、GEO-BenchでTAP/Zero-Shot、STS/RAF/StealthRank、10種のC-SEO戦略を5データセット・Llama-3.1-8B-Instruct固定で評価し、ブラックボックス書き換えが勾配攻撃と同等以上になり得る一方、効果性とstealthがトレードオフになると報告（GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization, 2026-05）