AI 理解度ステップ (座学)
現代の LLM エージェントが内部で何をしているかを、理解するための独立資料群。各ファイルは 5 〜 10 分で読めるサイズを目安。
Layer 1: 見取り図
| # |
トピック |
内容 |
| 01 |
登場人物と責任範囲 |
LLM / エージェント / ツール / ガード / 人 の関係図と、LLM 単体の限界 (日時 / 天気 / 計算 等) |
Layer 2: LLM 1 呼び出しの中身
| # |
トピック |
内容 |
| 02 |
LLM の 1 回の呼び出し |
POST /v1/chat/completions の request / response、role、usage の見方、ステートレスであること |
| 03 |
トークンとコンテキストウィンドウ |
トークン化、context window、日本語/英語の差、料金、上限との付き合い方 |
Layer 3: 状態とツール
| # |
トピック |
内容 |
| 04 |
Messages と state |
messages 配列の構造、4 つの role の意味、1 ターンの定義、state = messages 配列、永続化の選択肢、Langfuse session は state ではないこと |
| 05 |
Tool calling (function calling) |
LLM は決めるだけ / 叩くのはエージェント、tools スキーマと tool_calls の往復、道具の品質、ツール呼出は約束でしかない |
| 06 |
エージェントループ |
1 ターン = N イテレーション、5 つの停止条件、並列 tool_calls、無限ループ対策、2 層ループ |
Layer 4: 記憶と永続化
| # |
トピック |
内容 |
| 07 |
記憶の多層モデル |
プロンプトキャッシュ / 会話履歴の再送 / 外部ストレージ等、「記憶」に見える仕組みのレイヤー |
Layer 5: Observability / RAG / 評価
| # |
トピック |
内容 |
| 08 |
Observability / tracing |
trace と span の基本、親子関係の伝搬、Langfuse の実装 3 層、sessionId / userId / tags / metadata の使い分け、観測 ≠ 記憶 |
| 09 |
埋め込みと近傍検索 |
embedding 空間、cosine / dot product / L2、ANN (HNSW 等)、ベクトル DB の役割、埋め込みの限界 |
| 10 |
RAG の基本 |
Retrieval → Augmentation → Generation、チャンク設計、ハイブリッド検索、re-rank、agentic RAG パターン、引用と failure mode |
| 11 |
評価 (LLM-as-a-judge) |
4 つの評価軸 (決定論 / 参照一致 / LLM judge / 人手)、データセット作成、Langfuse の実務フロー、回帰テスト、メトリクス設計 |
Layer 6: サンプリング / プロンプト設計 / 安全性
| # |
トピック |
内容 |
| 12 |
サンプリングパラメータ |
temperature / top_p / top_k / seed / max_tokens / stop / 推論モデル固有パラメータ、決定性と多様性のトレードオフ、実践的な注意 |
| 13 |
system prompt の設計 |
基本 5 原則、典型パターン 4 種、アンチパターン、改善ワークフロー、プロンプトテンプレート管理 |
| 14 |
ガードとプロンプトインジェクション |
インジェクションの種類 (直接 / 間接 / tool 結果 / jailbreak)、ガード 4 層 (入力 / tool_calls / 結果 / 出力)、信頼境界、根本的な限界 |
Layer 7: 深掘り / モダリティ拡張 / 統合視点 (応用編)
| # |
トピック |
内容 |
| 15 |
LLM の仕組み (ざっくり) |
次トークン予測、transformer / self-attention、pretraining / instruction tuning / RLHF、hallucination の原因、推論モデルの仕組み、量子化 / 蒸留 |
| 16 |
マルチモーダルと他のモデル |
VLM / ASR / TTS / 画像生成 / 動画生成 / 埋め込み / omni-modal、マルチモーダルエージェントでの扱い、公式「エージェント = モデル + ツール + state」が変わらない確認 |
| 17 |
エンジニアリングの 3 層 |
プロンプト / コンテキスト / ハーネス エンジニアリングの区別、既存章との対応表、改善アプローチの違い、agent-demo の各要素マッピング、よくある罠 |
| 18 |
ローカル LLM とクラウド LLM |
2 つの選択肢、モデル形式 / ランタイム / 量子化 / ハード要件、クラウド課金 / レート制限 / retention、評価軸、使い分けの実務パターン |
| 19 |
主要 AI ツールの全体像 |
LLM ベンダー純正 (Claude / ChatGPT / Gemini / Grok) × 配信形態 (Web / App / CLI) / サードパーティ (エディタ / ターミナル / 検索 / UI / ワークフロー / 観測 / フレームワーク / ローカル)、評価軸 |
| 20 |
全体の締めくくり |
01-20 章の振り返り、この知識で何ができるか、これから先の進み方 |