コンテンツにスキップ

AIハーネス設計ベストプラクティス

対象: LLM/エージェントハーネス(Skills、subagents、プロンプト、評価)を構築するシステムエンジニアの実務知見。 原則: 英語論文(arXiv含む)・モデル提供元公式・主要ベンチマーク公式など一次ソースで裏付けが取れた知見のみを収録する。

このファイルはWeb自動収集により毎週月曜に更新されます。手書きの「型」は manual/ai.md 側を参照。

情報収集元

詳細な採否基準は criteria/verification.mdcriteria/verification-ai.md を参照。AI領域はモデル更新が早いため原則2026年3月以降の情報を優先採用します。

最優先 (Tier 1) — 一次ソースのみ: - 学術: arXiv / 査読済み論文(実験コード・データセット・評価手順が再現可能なもの) - モデル提供元公式: Anthropic, OpenAI, Google DeepMind, Meta AI, Mistral 等のリサーチブログ・System Card・Model Card - 主要ベンチマーク公式: SWE-bench, GAIA, MMLU-Pro, HELM, LMSYS Chatbot Arena 等のリーダーボード本体

採用許容 (Tier 2): - 上記 Tier 1 の一次データを引用検証した信頼ある技術メディア - 主要研究機関レポート (Stanford HAI, MIT CSAIL 等)

除外: - 個人ブログ、ベンダー宣伝記事、LinkedIn投稿 - 体験談のみの記事 (「プロンプトに〇〇と書くと精度が上がる」系で評価方法不明) - 一次ソース不明の「ベストプラクティス」まとめ - ベンチマークスコアのみ引用、評価プロトコル変更・汚染対策の記述がないもの - 単一タスクのチェリーピック成功例で一般化している記事

LLMモデル動向

  • 2026年の5 frontier model (Claude Sonnet 4.6, Claude Haiku 4.5, GPT-5.4-mini, Gemini 2.5 Pro, DeepSeek V3.2) のパッケージ名ハルシネーション率は 4.62%(Claude Haiku 4.5) 〜 6.10%(GPT-5.4-mini)、PyPI/npm 公式マスターリストへの 199,845 件ペアプロンプトで測定。5モデル共通ハルシネーションパッケージは 127 個 (PyPI 109/npm 18)。コード生成エージェントの tool-use 信頼性ベースラインに利用可能(The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort

エージェント設計

  • AgentProp-Bench で tool-using LLM agent の評価方式を定量比較。substring 判定は κ=0.049 (chance-level [-0.122, 0.221])、3-LLM ensemble は κ=0.432 (moderate [0.239, 0.622])。9 モデル (GPT-4o/4o-mini/4.1-mini/4.1-nano/3.5-turbo, o3-mini, Gemini-2.0/2.5-Flash, DeepSeek-V3) × 2,000 タスク × 100 件人手アノテーションで検証。意味的パラメータ注入の wrong-answer 伝播率はアンサンブル判定 r=0.78、人手校正 0.62 (0.46–0.73)。Runtime Interceptor で GPT-4o-mini hallucination を 55.8% → 32.8% (23pp 減, n=600, p<0.001) に改善。Agent 評価には複数 judge + 人手キャリブレーション + runtime mitigation の三段構えが定量的に推奨される(Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench

LLM評価ベンチマーク

  • Judge Reliability Harness: GPT-4o, Claude Sonnet/Opus 4.5, Llama Maverick 4.1 17B, Gemini 2.5 Pro の4 judge を 6種ストレステスト (Label Flip, Format Invariance, Semantic Paraphrase, Verbosity Bias, Stochastic Stability, Synthetic Ordinal) で評価。「どの judge も全ベンチマーク横断で一貫信頼ではない」、Persuade での semantic_paraphrase 精度は Gemini 2.5 Pro で 40%、format_invariance で平均 35%、Claude Sonnet 4.5 標準偏差 17.18%。AgentHarm では Claude Opus 4.5 が agent_perturbation 68.75% vs agent_positives 93.75% と非対称な偽陰性傾向。LLM-as-judge を評価ハーネスに組み込む場合、単一 judge 依存を避け format/長さ正規化と複数 judge 集約が必要(Judge Reliability Harness: Stress Testing the Reliability of LLM Judges
  • 評価論文の Frontier Lag: 2022年1月〜2026年4月の 112,303 件 LLM キーワードマッチから 18,574 件適格、4,766 件全文の bibliometric audit。論文がフロンティアより遅れたモデルを評価する乖離の中央値は +10.85 ECI (Claude Sonnet 3.7 ↔ Claude Opus 4.5 間距離の約 1.4 倍) で、年間 +5.53 ECI で拡大。さらに推論モード開示は抽象 3.2%/全文 21.2%、52.5% の論文がモデル粒度ではなく「AI」粒度で結論。LLM 評価論文を引用する際は評価時期・対象モデル・推論モードの開示確認が必須(Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation
  • 攻撃的サイバータスクでの 2026 frontier LLM 性能: NYU CTF Bench 全 200 チャレンジ × 7 プロバイダー 10 モデルを agent harness で評価し、Claude 4.5 Opus が最高 59% solve rate、Gemini 3 Pro 52%、Gemini 3 Flash が最良コスト効率 $0.05/解答。汚染対策の明示記述はないため絶対値の鵜呑みは避けるべきだが、agent-as-attacker 系ハーネスの capability ceiling 参照に利用可能(Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks

AI検索最適化(GEO)

  • GEO 構造最適化: 6 プラットフォーム (Google SGE, Bing Chat, Perplexity AI, Phind, ChatGPT, Claude) × 200 記事 × 2 バージョン = 2,400 件、377 件実世界クエリ・平均 2,547 語で評価。引用率 +17.3% (p<0.001, Cohen's d=0.64)、主観品質 (G-Eval) +18.5%。アーキテクチャ別では Integrated S-G +19.7% / Search-then-Synthesize +19.2% / Iterative Refinement +14.0%。アブレーションで貢献度はマクロ構造 (見出し階層・セクション分布・内部リンク密度) 44.9% > メソ構造 (段落長 150-300 語・フォーマット多様性) 39.7% > マイクロ構造 (強調マーカー 5-10%) 15.4%。コントロールはベースライン引用率 45.0% → 最適化後 52.8%、BGE-m3 埋め込み類似度 0.843 を保持(Structural Feature Engineering for Generative Engine Optimization: How Content Structure Shapes Citation Behavior