Before we begin...
本題に入る前に、ひとつ実験に付き合ってほしい。
Interactive Experience
「シンプルな基準」をブレなく評価できるか?
Scenario
あなたはカスタマーサポートチームのマネージャー。 AIが生成した4つの回答案を確認し、それぞれ5段階で評価してほしい。
同じお客様の問い合わせに対して、4つの回答を用意しました。
どれが「良い回答」か、直感で採点してみてください。
※ 評価基準はあえて決めていません。「何を基準に点数をつけるか」考えながら進めてください。
この「ブレ」こそが、AIエンジニアリングの核心
544ページ。
Chip Huyenの原稿を翻訳しながら、何度「これ、もっと早く知りたかった」と思ったことか。 かくいう私も、LLMを使ったプロダクト開発に日々取り組んでいる身。 さっきの実験で感じた「ブレ」、これをどう制御するかがAIエンジニアリングの本質だ。
翻訳者の特権として、一足先に544ページを読み込んだ私が、 「ここだけは押さえておけ」というエッセンスを凝縮してお届けする。
2023年6月、Latent Spaceが「The Rise of the AI Engineer」を発表した。 基盤モデルのAPI化により、従来5年かかっていたAIタスクが「APIドキュメントと午後の数時間」で実現可能になった。 この変化が、新しい職種「AIエンジニア」を生み出している。
複雑なエージェントやファインチューニングの前に、シンプルなAPIコールで十分に価値あるプロダクトを生み出せる時代。 AIエンジニアリングとは何か、どう始めるか、そして何を避けるべきかを整理する。
About the Author
Chip Huyen
ベトナムの小さな村で育ち、スタンフォード大学でMLコースを創設・教鞭をとった実践者。 NVIDIA、Netflix、Snorkel AIでMLツール開発を経験し、AI基盤スタートアップを創業・売却。 前著『Designing Machine Learning Systems』はAmazon #1ベストセラー、10言語以上に翻訳。
「MLエンジニアと、AIを使いたい開発者の間に橋を架けたい」
O'Reilly Japan
AIエンジニアリング
基盤モデルを用いたAIアプリケーション開発の基礎と実践
544
ページ・全10章
章をクリックして詳細を表示 →
翻訳者のおすすめ:まず3章「評価方法論」で評価の重要性を理解し、6章「RAGとエージェント」で実装イメージを掴むのがおすすめ
3つの核心
カードをクリックして詳細を表示
開発期間の短縮
従来、AIシステムを構築するには、データ収集・前処理・モデル設計・訓練・チューニングに数年を要した。基盤モデルのAPI化により、APIドキュメントを読んで午後の数時間で動くプロトタイプが作れるようになった。
Part 1
なぜ今、AIエンジニアリングなのか
基盤モデル以前 → 以後
0年
データ収集・モデル訓練
0時間
APIドキュメントとプロンプト
「5年かけてモデルを訓練していた時代?そんな時代もありましたね」
— 精神と時の部屋(API経由)にて
この変化により、機械学習エンジニアとフルスタックエンジニアの間に位置する新しい職種「AIエンジニア」が誕生する。 アプリケーションへのAI組み込み・適応に特化し、今後10年間で最も需要の高いエンジニアリング職になる可能性がある。
2023年6月
Latent Space「The Rise of the AI Engineer」
AIエンジニアという職種の提唱。「5年→数時間」のインパクトが業界を揺さぶった。
2024年
TypeScript勢、本格参入
Vercel AI SDK、LangChain.js...フロントエンド開発者がAIの世界に流れ込み始める。
2025年初頭
Anthropic「Building Effective Agents」
「複雑なエージェント?いや、単一のLLM呼び出しで十分なことが多い」。シンプルさへの回帰。
2025年11月
『AIエンジニアリング』日本語版出版
544ページの教科書が上陸。翻訳者(私)は発売前に読破済み。
Part 2
AIエンジニアリングとは何か
書籍『AIエンジニアリング』では、AIエンジニアリングを 「基盤モデルをベースにアプリケーションを構築するプロセス」と定義している。 モデル開発そのものよりも、モデルの適応と評価に重点を置く点がMLエンジニアリングと異なる。
ML時代 vs AI時代
| Item | Before | After |
|---|---|---|
| モデルの扱い | 独自モデルを訓練 | 学習済みモデルを利用 |
| 重点 | モデル開発(訓練・最適化) | モデル適応(プロンプト/RAG/FT) |
| 出力の性質 | クローズドエンド | オープンエンド(正解が無数) |
| インフラ課題 | GPU・クラスター | 効率的な推論最適化 |
では、AIエンジニアとは具体的に何をする人なのか
AIエンジニアとMLエンジニアの違い
端的にまとめると、「APIを叩いてAIをプロダクトに組み込む人」がAIエンジニア。 Model-as-a-Serviceの登場を背景に、私は「APIライン」という概念で説明したい。 これはAIエンジニアにとっての「国境線」のようなものだ。 国境の上(API側)で働くか、下(モデル側)で働くかで、必要なスキルセットがまるで違う。
API Line Concept
AIエンジニア
APIラインの上
プロンプト・RAG・ワークフロー・エージェント
API Layer
Model-as-a-Service
OpenAI / Anthropic / Google
MLエンジニア
APIラインの下
モデル訓練・最適化・インフラ
Part 3
何から始めるか
AIエンジニアリングの成功は、最も洗練されたシステムを構築することではなく、ニーズに最適なシステムを構築することにある。
まず、撃つ (Fire, Ready, Aim)
MLエンジニアリングは「データ収集→モデル訓練→プロダクト化」という順序だが、AIエンジニアリングは逆。「まずデモを作り、迅速にイテレーションを回す」。 私はこれを「AIプロトタイピングの逆転」と呼んでいる。 昔は「データがないと何も始まらない」だったのが、今は「まず動くものを見せてからデータを集める」。 アイデアを素早くデモの形にし、フィードバックを得てイテレーションを回せることが基盤モデルの強み。
プロンプトエンジニアリングのテクニック
- • 明確で直接的な指示
- • 例の提供(Few-Shot)
- • 思考過程の可視化(CoT)
- • タグによる構造化
- • ロール設定
- • 出力のプリフィル
- • 予告(Precognition)
プロンプトの「次」を知る
シンプルなプロンプトで価値が出せたら、次のステップ。 AIエンジニアの腕の見せ所は、プロンプトで足りない部分を RAG、ワークフロー、エージェント、ファインチューニングといったモデル適応技術で補うこと。
モデル適応技術の階層
Prompt
プロンプト
シンプルな指示で始める
明確で直接的な指示、Few-Shot例、Chain-of-Thought、タグによる構造化など。モデルの重みを更新せずに適応させる第一歩。
でも、この図を眺めているだけじゃピンとこない。
実際に「どれを選ぶか」を判断してみよう。
Interactive Decision Tree
モデル適応:次のステップを選ぶ
ボスからの指令:
「チャットボット、もうちょい賢くして」
あなたはAIエンジニア。
さて、何から手をつける?
ワークフロー vs エージェント
| Item | Before | After |
|---|---|---|
| 使用場面 | 明確に順序立てられたステップ | オープンエンドで柔軟性が必要 |
| 実装パターン | チェーン、ルーティング、並列化 | 自律プランニング、動的ツール選択 |
| 処理フロー | 事前定義の順序 | AIが状況判断 |
| 予測可能性 | 高い | 低い(だが強力) |
では、具体的な例で段階的な複雑化を見てみよう
顧客サポートシステムの進化
典型的なユースケースである顧客サポートを例に、段階的に複雑化させる方法を見る。 必要に応じて進化させることがポイント。
段階的な複雑化
シンプルなプロンプト
最小構成
FAQ + システムプロンプトのみ。基盤モデルの能力をそのまま活用。まずはここから始めて、どこまで価値が出せるか検証する。
多くのケースでは、ここだけで十分な価値を提供できる
Part 4
評価する (Evaluation)
冒頭で体験してもらった通り、人間の評価にはブレがある。 同じ回答でも、見る順番や気分で判断が変わる。 「評価は、AIエンジニアリングにおける最も困難な課題の1つ」(『AIエンジニアリング』まえがき)。 評価駆動開発という言葉に表されるように、AIエンジニアリングは評価に始まり評価に終わる。
“evals are surprisingly often all you need”
評価さえあれば、驚くほどそれだけで十分なことが多い
— Greg Brockman, OpenAI共同創業者(2023年12月)
この一言に、AIエンジニアリングの本質が凝縮されている。 複雑なアーキテクチャや最新のテクニックよりも、 まず「良し悪しを測る物差し」を手に入れること。 それがあれば、改善の方向性は自ずと見えてくる。
翻訳者の本音:正直に言うと、翻訳していて最も「これは重要だ」と感じたのがこの評価の章だった。 評価の話は地味に見えるかもしれない。でも、ここを読んで「なるほど、これがないとAIプロダクトは運ゲーになる」と腑に落ちた。プロンプトを書く前に、まず評価基準を決める。この順序が逆だと、永遠に「なんとなく良くなった気がする」ループから抜け出せない。
AIの出力は非決定的(毎回同じとは限らない)であり、 LLMの出力には唯一の絶対的な正解が存在しないことが多い。 「なんとなく良い」という感覚的な開発では、プロダクトの品質は安定しない。
Interactive Explorer
3つの評価手法
AIの出力をどう評価する?3つの手法を見てみよう。
コードベース評価
正規表現やJSONスキーマで機械的にチェック。決定的で再現性が高い。
✓ メリット
- • 速い(ミリ秒)
- • 安い(ほぼ無料)
- • 再現性100%
✗ デメリット
- • 複雑なニュアンスは判定できない
- • ルール設計が必要
使いどころ: フォーマットチェック、禁止ワード検出、長さ制限
Part 5
よくある誤解
もしAIエンジニアリングが難しそうだと感じているなら、以下のような誤解が原因かもしれない。 「真実はいつもひとつ!」とコナンくんは言うけれど、AIの世界では正解が複数あることの方が多い。 だからこそ、よくある思い込みを解いておこう。
避けるべきパターン
| Item | Before | After | Change |
|---|---|---|---|
| 最初から複雑にしすぎる | FT/フレームワーク先行 | シンプルなプロンプトから | リスク↓ |
| 初期の成功を過信する | 80%で満足 | 95%まで継続改善 | LinkedInは4ヶ月 |
| 評価を軽視する | 感覚的に良し悪し | 体系的な評価FW | 品質安定化 |
| AIを万能と考える | 全てにAI適用 | 適切なツール選択 | コスト最適化 |
Conclusion
まとめ
書籍『AIエンジニアリング』で強調されているのは、次の3つ。
1
評価ファースト
品質確保の評価FW構築
2
シンプルに始める
段階的に複雑化
3
モデル適応に重点
訓練より適応
ML・機械学習の知識やベストプラクティスの多くは、基盤モデルを前提としたAIエンジニアリングでも色褪せない先人の知恵。 同時に、プロンプトインジェクションやオープンエンドでの評価、他社モデル依存といった 生成AI/LLMならではの課題も生まれている。
AIエンジニアリングは、AI/LLMの持つ非決定性や確率的な振る舞いを工学によって制御し、 プロダクトの要件を理解し、AIを組み合わせ、高速にアプリケーションを作り、 粘り強く評価する、という「AI時代のソフトウェアエンジニアリング」そのもの。
今日からできる3つのこと
544ページの本を読む時間がない?大丈夫、まずはここから始めてみてほしい。