背景:LLMが普通に使えるようになった。AIを活用したアプリ開発やファインチューニングでAIを自分用にカスタマイズしたい
課題:どう動いているのか内部がよく分からない。仕組みが分からないままに取り組んでも成果が得られず無駄な努力になる可能性あり
取り組み:基本から理解できるように解説本を買って読む
結論:まだパラパラと読んだだけですが、理論に細かく入りすぎず、基礎を押さえてLLMの全体がある程度理解できる良質な解説本と思いました
LLMはいろんな技術が使われているし、いろんな実装があってどこから勉強していいのか分からない。頭のいいひとは、断片的な情報を繋ぎ合わせて理解を深められるのだろうけど、自分のような初心者は道に迷う。できたら、基礎的なところから、細かくなりすぎずポイントを押さえて解説してくれる本があればありがたい。今回購入した、大規模言語モデルの解説本は、難解な理論に入りすぎず、基本概念を説明しつつ、Pythonによるサンプルコードも示しながら、主要な実装例やAPIまでをカバーしてくれていると理解(まだちゃんと読んでいないので)。
本の冒頭に、LLMを使いこなすための本であって、LLMを作るための本ではないと書かれていて、確かに、効果的に使いこなすための最低限の知識が説明され、それをもとに、APIを呼び出して機能を連携させたり、データ投入やらして、カスタマイズすることが可能になると理解しました。
近々発売される、「つくりながら学ぶ!LLM 自作入門」も予約していて、この本を見ながら、フルスクラッチ*1でLLMを作成するつもりでございます。
*1:と言いながらPyTorch等のライブラリは使う