生成AIを戦略的にカスタマイズする方法【Building in the Gen AI age①】
2024.10.07 MPower Partners Team

2024年8月6日に、MPower Partners Fundは「Building in the Gen AI age – Strategies to get started」と題したイベントを開催しました。英語で行われた本イベントの内容をより多くの皆さんに届けるべく、ブログでは3回にわたって各セッションのポイントを紹介します。

第1回目の本記事で取り上げるのは、基調講演「生成AIを戦略的にカスタマイズする方法」です。登壇者はMosaicMLの創業メンバーであり、現在は世界第2位のAIユニコーンDatabricksのチーフAIサイエンティストを務めるジョナサン・フランクル氏。フランクル氏は論文「Lottery Ticket Hypotesis(宝くじ仮説)」の著者としても知られています。

***

プレゼン画面の前に立つジョナサン・フランクル氏

自社の生成AI活用方法について、普遍的な答えはありません。むしろ考えるべきは「何をすべきか」ではなく、自社にとって適切な戦略を持つことです。

そのために重要な点は以下の3点です。

  1. データドリブンであること
  2. 小さく始めること(規模、コスト、時間のいずれも)
  3. 試行錯誤すること

AIでは何が得られるかまったく予測がつきません。それがAIの力であり、大きな欠点の1つでもあります。そのため、生成AI活用の取り組みは経験的な科学だと考えることが大切です。そこで以下の3つのステップが重要になります。

  1. 成功の評価基準を定める
  2. 制約とコストを理解し、デザインスペースを定義する
  3. デザインスペースを最も安いものから最も高いものまで探り、ROI(投資利益率)を追跡する(ROIが得られなくなったら止める)

戦略策定の前に理解しておきたいこと

生成AIの活用に必要なのは初期データセットです。最初に使うモデルを手に入れて、それをRAG(検索拡張生成)や事前学習など、さまざまな方法でカスタマイズします。ある程度満足したら最初の評価に移りますが、結果が思わしくない場合は本番環境に進めません。

そこでデータセットを改善します。そうしていよいよ本番に進んでも、すぐにはうまくいきません。その繰り返しです。これは単なるモデルの構築ではなく、反復的なプロセスです。必要なものをデータから知る方法はなく、評価や本番の動作を見るまでわかりません。そのため、生成AI活用の取り組みは、1年かけてデータを完璧にしてからモデルに移るようなプロセスではないと頭に入れておいてください。

また、モデルとのインタラクション方法の定義も重要です。プロンプティング、メニーショットプロンプティング、RAG、あるいはその組み合わせなどへの理解をすり合わせておきましょう。さらに、モデルをどこで手に入れるのかも考えなければなりません。GPT-4やGeminiを使うのか、ファインチューニング、継続事前学習、あるいは事前学習を行うのか。これらはモデルを自社のドメイン、コンテキスト、言語、状況などに特化したものにするために必要です。

ステップ1:評価(成功の評価基準を定める)

ここでようやく戦略策定が始まります。最初のステップは3つの評価基準を決めることです。

1つ目は安価で自動的に行える評価基準です。これにはコーディングの際のユニットテストなどが該当します。ただテキスト生成などの用途でLLM(大規模言語モデル)を使いたい場合は、正解・不正解で分けきれない曖昧さを許容しなければなりません。

そこでやや複雑かつ現実的な方法として、モデルの生成的な振る舞いの評価が必要になります。ここではLLMを使った回答が基準に対して正しいか、またはゴールデンアンサーと比較して正しいかどうかを判断します。ただし信頼性は劣ります。

そこで最後に現実世界に近い評価として、人間による評価が必要です。既存のワークフローに組み込んでもよいですし、外部に委託してもよいでしょう。これには時間もお金もかかります。そして、ここまで来ても本番活用にはまだほど遠いことを理解しておかなければいけません。

ステップ2:目標(制約とコストを理解し、デザインスペースを定義する)

次の段階では、やりたいことと目標を理解し、その実現に向けた計画を立てます。ROI(投資利益率)、つまりコストに対する質を測るのです。

コストには、システムの構築・使用費用だけでなくスピードも含まれます。コストに対するMMLU(大規模マルチタスク言語理解)の質はパレート図のようになります(縦軸が質、横軸がコスト)。その曲線上に位置するのがLlama3-8Bや70Bなどのモデルです。

ここで考えられるのは3つのシナリオです。

  1. 以前はできなかったことがAIによって可能になると期待し、質のためにコストを度外視するケース
  2. AIが必要なレベルを満たせば十分だというケース。この場合、パレート図の縦軸のどこかに下限を定め、それ以上の範囲でコストが最もかからないモデルを使う
  3. 予算が限られているケース。この場合、パレート図の横軸のどこかに上限を定め、それ以下の範囲でもっともよいモデルを使う

いずれのシナリオでも、小さく始めて、徐々に大きくすることが重要です。

ステップ3:ソリューション(ROIを追跡する)

モデルのスタート地点としては、市販のもの、ファインチューニングや継続事前学習、そして自分のモデルを一から作成する事前学習があります。

必要な時間に関して言えば、市販のモデルなら数時間です。ファインチューニングにはデータの準備が必要なので数日はかかります。継続事前学習はもう少し規模が大きく、数週間必要です。事前学習には何か月もかかります。

また時間だけでなくコストも右肩上がりに増えるうえ、データの理解度、評価の成熟度、組織がAIを受け入れる段階、ROIの提示など求められることもどんどん上がります。そのため、ステップを飛ばさず順を追って試すようにしましょう。

その際、ステップごとにあらゆるインタラクション方法を試してみてください。まずは市販のモデルをプロンプトで試してみて、問題が解決するならそれで終わりです。それでだめならメニーショットプロンプティング、RAG、またはそれらの組み合わせを試します。限界に達したら、ファインチューニングに進み、また各インタラクション方法を試すといった具合です。

最後にもう一度強調したいのは、小さく始めて一歩一歩進んでほしいということです。私のチームも毎日、今日紹介したステップを上がりながら製品を改善しています。そして最先端のオープンソースLLMである「DBRX」をDatabricksの製品だけで構築しました。皆さんが使うのと同じ製品を使って、作ったのです。世界がものすごいスピードで動くなか、これを達成できたことを誇りに思います。

***

第2回の記事では、Databricksのグローバル・バイス・プレジデントである中井淳太氏の講演「データとAIを取り巻くトレンド」の内容をお届けします。