本記事の内容
- プロンプトエンジニアリングの概要を知れるオススメの論文
- プロンプトエンジニアリングの技術を知れるオススメの論文
- その他に読むべきプロンプトエンジニアリング関連の論文
本記事の執筆者
うぃる(@willblog13)
プロンプトエンジニアリングを学ぶなら"論文"は不可欠です。
なぜなら、新しいスキル・知識だから。
新しいスキルの習得には、情報の「新鮮さ」「信頼性」「量」が必要です。そして、それを網羅しているのが"論文"なんです。
ということで、今回はプロンプトエンジニアリングを学ぶうえで、ぜひ読むべき論文を厳選して紹介していきます。
論文を読むことで深い知識を身につけて、スキルの差別化をしていきましょう。
それでは、早速いきます!
プロンプトエンジニアリングの論文を読むべき理由
なぜプロンプトエンジニアリングの知識を身につけるうえで、論文がおすすめなのか理由を解説していきます。それが以下のとおり。
- 最新かつ信頼できる情報を取得できるから
- 予備知識を学ぶことができるから
- プロンプトエンジニアリングのスキルを差別化できるから
それぞれ深掘りしていきます。
最新かつ信頼できる情報を取得できるから
論文を読むべき理由の1つ目は、「最新かつ信頼できる情報を取得できるから」です。
なぜなら、論文は実際にプロンプトエンジニアリングについて研究をしている人が公表しているものであり、公表までに様々な精査を通ってきているからです。
いわゆる「最新」かつ「信頼できる」一次情報を拾うことができます。
特にプロンプトエンジニアリングは新興の技術なので、こういった一次情報を拾うことが何よりも大切になります。
予備知識を学ぶことができるから
論文を読むべき理由の2つ目は、「予備知識を学ぶことができるから」です。
その過程で結果に至るまでの実験や検証が省かれています。
しかし、論文を直接読めば、その結果に至るまでのプロセスもチェックすることができます。
特にプロンプトエンジニアリングの場合は、出力された結果以上に入力する"プロンプト"が大事です。
なので、プロンプトエンジニアリングを学習する場合は、論文を読んで仕組みや実例をチェックするようにしましょう。
プロンプトエンジニアリングのスキルを差別化できるから
論文を読むべき理由の3つ目は、「プロンプトエンジニアリングのスキルを差別化できるから」です。
理由は、先ほど説明した以下の2点です。
- 最新かつ信頼できる情報を取得できるから
- 予備知識を学ぶことができるから
プロンプトエンジニアリングは新しい技術なので、ネット上にも情報は少なめです。
ですが、一次情報となる論文を読めば、「最新情報」「信頼性の高い情報」「予備知識」を取得できます。
ネット上の情報のみで学習している人と比較すれば、明らかにスキルの差別化が図れるでしょう。
プロンプトエンジニアリングの概要を知れるオススメの論文15選
はじめに、プロンプトエンジニアリングの概要を知れる論文を紹介していきます。
まとめる形式は落合陽一の論文の読み方で説明している形式でまとめていきます。
※論文の詳細を知るなら、実際に読んでみることをおすすめします。
ちなみに、選んだ論文ですが、「Prompt Engineering Guide」というサイトの論文集を参考にしています。
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing(Jul 2021)
どういう論文?
- 自然言語処理におけるプロンプトベース学習という新しいパラダイムを体系的に調査・整理した論文
先行研究と比べてどこがすごい?
- プロンプトベース学習は、入力をテキストに変換して言語モデルに予測させる方法で、大量の生テキストで事前学習した言語モデルを利用できる
- プロンプト関数を定義することで、少量のラベル付きデータやラベルなしのデータで新しいタスクに適応できる
技術や方法のポイントはどこ?
- この論文では、プロンプトベース学習の基本原理を紹介し、統一的な数学的表記法を定義する
- 既存の研究を、事前学習された言語モデル、プロンプト、チューニング戦略などのいくつかの次元で分類する
どうやって有効と検証した?
- この論文では、実験や評価は行わず、既存の研究の分析と整理に重点を置いている
議論の内容は?
- プロンプトベース学習は有望なパラダイムだが、まだ多くの課題や未解決の問題がある
- プロンプトの設計や評価、言語モデルの能力や限界、チューニング方法や効率性などについて、今後の研究方向を提案している
A Taxonomy of Prompt Modifiers for Text-To-Image Generation(Apr 2022)
どういう論文?
- テキストから画像を生成するシステムにおけるプロンプト修飾子と呼ばれるキーワードやフレーズの分類を提案した論文
先行研究と比べてどこがすごい?
- テキストから画像を生成するコミュニティの実践に基づいて、プロンプト修飾子の6種類を定義した点
- プロンプト修飾子がどのように「プロンプトエンジニアリング」と呼ばれる創造的な実践に応用されるかを概説した点
技術や方法のポイントはどこ?
- Twitter上でテキストから画像を生成するシステムを使っている人々の投稿を3ヶ月間分析した点
- プロンプト修飾子の分類は、画像のスタイル、内容、品質、複雑さ、サイズ、レイアウトに影響するものとした点
どうやって有効と検証した?
- プロンプト修飾子の分類がテキストから画像を生成するシステムの理解と操作に役立つことを、オンラインコミュニティのメンバーにインタビューして確認した点
議論の内容は?
- プロンプトエンジニアリングが人間とAIの相互作用やAI生成アートにおける新しい創造的な実践であることを指摘した点
- プロンプトエンジニアリングがテキストから画像を生成するシステム以外の応用分野でも重要な役割を果たす可能性があることを示唆した点
» A Taxonomy of Prompt Modifiers for Text-To-Image Generation(Apr 2022)
Emergent Abilities of Large Language Models(Jun 2022)
どういう論文?
- 大規模な言語モデルが持つ予測不可能な現象である「緊急能力」について議論する論文
先行研究と比べてどこがすごい?
- 緊急能力とは、小規模なモデルにはないが大規模なモデルにはある能力のことで、小規模なモデルの性能を単純に外挿することでは予測できない
- 緊急能力の存在は、さらなるスケーリングによって言語モデルの能力の範囲を拡大できる可能性を示唆している
技術や方法のポイントはどこ?
- さまざまなタスクやドメインにおいて、大規模な言語モデルが緊急能力を発揮する例を紹介する
- 緊急能力の発生に関する仮説や分析を提供する
どうやって有効と検証した?
- GPT-3やT5などの大規模な言語モデルを用いて、自然言語理解や生成、数学やプログラミング、画像処理などのタスクを実験した
- モデルのサイズやパラメータ数とタスクの性能やサンプル効率との関係を定量的に評価した
議論の内容は?
- 緊急能力は、言語モデルが学習した知識や表現、推論や合成の能力によって生じると考えられる
- 緊急能力は、言語モデルの汎用性や応用性を高めるが、同時に倫理的や社会的な問題も引き起こす可能性がある
» Emergent Abilities of Large Language Models(Jun 2022)
Reasoning with Language Model Prompting: A Survey(Dec 2022)
どういう論文?
- 言語モデルを使って推論能力を向上させる方法についての包括的な調査論文
先行研究と比べてどこがすごい?
- 推論能力を向上させるためのプロンプト戦略の分類と比較を提供
- プロンプト戦略の背景と理論的な説明を議論
- 初心者のためのシステマティックなリソースと将来の研究方向を提示
技術や方法のポイントはどこ?
- プロンプト戦略を最適化する方法とプロンプト戦略を応用する方法の二つの主要な分野に分けて紹介
- プロンプト戦略を応用する場合は、タスクの種類や難易度に応じて適切なプロンプト戦略を選択することが重要
どうやって有効と検証した?
- 既存のデータセットやベンチマークで実験し、プロンプト戦略が推論能力を向上させることを示した
- プロンプト戦略の性能や限界について定量的・定性的に分析した
議論の内容は?
- プロンプト戦略が推論能力を向上させる可能性のある理由やメカニズムについて考察した
- プロンプト戦略の課題や改善点について指摘した
- プロンプト戦略の応用範囲や社会的影響について展望した
» Reasoning with Language Model Prompting: A Survey(Dec 2022)
Towards Reasoning in Large Language Models: A Survey(Dec 2022)
どういう論文?
- 大規模な言語モデル(LLM)における推論能力に関する包括的な概観を提供する論文
先行研究と比べてどこがすごい?
- LLMの推論能力を向上させる技術や引き出す方法、評価する手法やベンチマーク、過去の研究の発見や示唆、将来の方向性など、幅広いトピックを詳細かつ最新の情報でレビューしている
技術や方法のポイントはどこ?
- LLMの推論能力は、モデルのサイズや学習データ、プリミングやプロンプト、推論タスクや問題領域など、様々な要因に依存することを示している
- LLMの推論能力を改善するためには、推論に関連する知識やルールを明示的に教えることや、推論に必要なスキルを訓練することなどが有効であることを紹介している
どうやって有効と検証した?
- LLMの推論能力を評価するためには、推論の種類や難易度、正解率や信頼度などを考慮する必要があることを説明している
- LLMの推論能力を測定するために開発された様々なベンチマークやデータセットを分析している
議論の内容は?
- LLMの推論能力はまだ限られており、人間の推論能力と比べると大きなギャップがあることを指摘している
- LLMの推論能力に関する研究はまだ発展途上であり、より深い理解やより高度な応用を目指すためには、さらなる探求や協力が必要であることを提言している
» Towards Reasoning in Large Language Models: A Survey(Dec 2022)
A Survey for In-context Learning(Dec 2022)
どういう論文?
- 大規模な言語モデルがコンテキストに含まれる少数の例から予測を行うインコンテキスト学習(ICL)に関する調査論文
先行研究と比べてどこがすごい?
- ICLの定義と関連研究との関係を明確に示した
- ICLの進歩と課題を包括的に整理し、分析した
技術や方法のポイントはどこ?
- ICLのための訓練戦略、デモンストレーション設計戦略、分析手法などの先進的な技術を紹介した
どうやって有効と検証した?
- ICLの性能を評価するためのベンチマークや指標を提案した
- ICLの能力や限界を探るための実験や分析を行った
議論の内容は?
- ICLの課題と可能性について議論した
- ICLの改善や発展に向けて、今後の研究方向を示唆した
» A Survey for In-context Learning(Dec 2022)
Augmented Language Models: a Survey(Feb 2023)
どういう論文?
- 言語モデル(LM)に推論能力やツールの使用能力を付与した拡張言語モデル(ALM)に関するサーベイ論文
先行研究と比べてどこがすごい?
- ALMは、標準的な欠損トークン予測目的に従いながら、外部モジュールを呼び出してコンテキスト処理能力を拡張できる
- ALMは、推論、ツールの使用、さらには行動を学習できるだけでなく、標準的な自然言語タスクでも多くの通常のLMを上回る性能を示す
技術や方法のポイントはどこ?
- ALMは、推論能力やツールの使用能力を別々にもしくは組み合わせて利用できる
- ALMは、ヒューリスティックやデモンストレーションからこれらの能力を利用する方法を学習できる
- ALMは、様々な外部モジュール(コードインタプリタなど)を使用できる
どうやって有効と検証した?
- ALMの性能を様々なタスク(算術、プログラミング、質問応答など)で評価した
- ALMの性能を通常のLMと比較した
議論の内容は?
- ALMは、伝統的なLMの一般的な限界(解釈可能性、一貫性、スケーラビリティなど)に対処する可能性があると結論づけた
- ALMの研究方向性や課題について議論した
» Augmented Language Models: a Survey(Feb 2023)
Nature Language Reasoning, A Survey(Mar 2023)
どういう論文?
- 自然言語処理(NLP)における自然言語推論(NLR)に関する包括的な調査論文
先行研究と比べてどこがすごい?
- NLRの概念的な定義と分類を提供し、哲学とNLPのシナリオに基づいて議論する
技術や方法のポイントはどこ?
- NLPにおけるNLRの主要なタスク(古典的な論理推論、自然言語推論、多段階質問応答、常識推論)を文献レビューする
- 後ろ向き推論という強力な多段階推論のパラダイムを紹介し、NLR研究の重要な将来の方向性として不完全推論を提案する
どうやって有効と検証した?
- NLRのタスクにおける最新の手法とベースラインを比較し、評価指標とデータセットを紹介する
議論の内容は?
- NLRの定義や分類、タスクや手法に関する研究上の課題や未解決の問題を指摘し、今後の展望を述べる
» Nature Language Reasoning, A Survey(Mar 2023)
A Survey of Large Language Models (April 2023)
どういう論文?
- 大規模な言語モデル(LLM)の最近の進歩を紹介する総説論文
先行研究と比べてどこがすごい?
- LLMの背景、主要な発見、主流の技術を4つの側面(事前学習、適応チューニング、利用、能力評価)に分けて詳細に分析する
技術や方法のポイントはどこ?
- トランスフォーマーモデルを大規模なコーパスで事前学習することで、様々な自然言語処理(NLP)タスクに対応できるPLMを開発する
- パラメーターのスケールを増やすことで、性能の向上だけでなく、小規模な言語モデルにはない特別な能力(例:インコンテキスト学習)を発揮するLLMを研究する
どうやって有効と検証した?
- LLMの開発に利用できるリソースをまとめるとともに、将来的な方向性について議論する
議論の内容は?
- LLMの技術的進化がAIコミュニティに重要な影響を与えており、AIアルゴリズムの開発と利用の方法を変革する可能性がある
- LLMにはまだ解決すべき問題が多く、倫理的、社会的、環境的な側面も考慮する必要がある
» A Survey of Large Language Models (April 2023)
A Bibliometric Review of Large Language Models Research from 2017 to 2023 (April 2023)
どういう論文?
- LLMは自然言語処理(NLP)の分野で優れた性能を発揮する言語モデルであり、科学技術に革命をもたらす可能性がある。
- 本論文では、LLMの研究に関する5000件以上の文献を総合的に分析し、LLMの研究動向や応用分野を示す。
先行研究と比べてどこがすごい?
- LLMの研究は特定のNLPタスクや応用に限定されていたが、本論文ではLLMの研究全体を包括的に検討する。
- LLMの研究は急速に進化しており、最新のGPT-4などのモデルやその能力を評価する。
技術や方法のポイントはどこ?
- 文献計量学と論説分析を組み合わせて、LLMの研究に関する文献を収集・分類・可視化する。
- LLMの研究パラダイムや共同研究ネットワークを明らかにする。
- LLMのアルゴリズム開発やNLPタスクだけでなく、医学・工学・社会科学・人文科学などの応用分野も調査する。
どうやって有効と検証した?
- 文献計量学と論説分析の結果を詳細に報告し、LLMの研究トレンドやインパクトを示す。
- LLMの研究における主要な貢献者や国際的なコラボレーションを分析する。
- LLMの応用分野における機会や課題を議論する。
議論の内容は?
- LLMの研究はNLP分野において革新的な成果をもたらしており、多様な応用分野で活用されている。
- LLMの研究は高度な専門知識や大規模な計算資源を必要としており、アクセシビリティやエシカルな問題も存在する。
- LLMの研究は今後も発展し続けると予想されるが、その際には社会的なインパクトや責任も考慮する必要がある。
» A Bibliometric Review of Large Language Models Research from 2017 to 2023 (April 2023)
One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era (April 2023)
どういう論文?
- ChatGPTというOpenAIが開発したGPT-4の別名を持つ人工一般知能(AGI)の技術についての包括的な調査論文
先行研究と比べてどこがすごい?
- ChatGPTは発表以来、多くのユーザーやメディアの注目を集め、500以上の関連論文が出版された
- ChatGPTは生成型AI(GAI)の一歩であり、AGIの大きな飛躍であると示された
技術や方法のポイントはどこ?
- ChatGPTは自然言語処理(NLP)だけでなく、画像生成、音楽生成、コード生成などの多様なタスクに対応できる
- ChatGPTは大規模なデータセットと強力なハードウェアで訓練された深層ニューラルネットワーク(DNN)で構成される
- ChatGPTは自己回帰型(AR)と自己符号化型(AE)の両方のモデルを組み合わせて、高品質なAI生成コンテンツ(AIGC)を作成する
どうやって有効と検証した?
- ChatGPTは様々な評価指標やベンチマークにおいて、他のGAIやAGIの技術を上回る性能を示した
- ChatGPTは実際のユーザーとのインタラクションやフィードバックを通して、その有用性や魅力を検証した
議論の内容は?
- ChatGPTはAGIの発展における重要なマイルストーンであるが、まだ解決すべき課題や限界がある
- ChatGPTは倫理的、社会的、法的な側面に配慮しながら、安全かつ責任ある方法で利用されるべきである
Tool Learning with Foundation Models (April 2023)
どういう論文?
- 人間のようにツールを使えるAIシステムを目指す論文
- ツールと基盤モデルの組み合わせによる問題解決のパラダイムを提案
先行研究と比べてどこがすごい?
- ツール学習の背景、課題、機会、将来展望を包括的に分析
- ツール学習の一般的なフレームワークを定式化
- 18種類の代表的なツールと基盤モデルの実験を行い、ツール使用能力の可能性を示す
技術や方法のポイントはどこ?
- ユーザーの指示を理解し、複雑なタスクをサブタスクに分解する
- 推論によって計画を動的に調整する
- 適切なツールを選択して各サブタスクを効果的に攻略する
どうやって有効と検証した?
- GPT-3, WebCPM, BMToolsなどの基盤モデルと、画像処理、音声合成、数式計算などのツールを用いた
- ユーザーからの自然言語指示に対して、モデルがツールを適切に使用できるかどうかを評価した
議論の内容は?
- ツール学習の一般化と移行性に関する課題と方策を議論した
- ツール学習の倫理的、社会的、法的な側面について言及した
- ツール学習の未来像と研究方向性について展望した
» Tool Learning with Foundation Models (April 2023)
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (April 2023)
どういう論文?
- 大規模言語モデル(LLM)を様々な自然言語処理(NLP)タスクに応用するための実践的なガイドを提供する論文
先行研究と比べてどこがすごい?
- GPTやBERTなどのLLMの概要や特徴を紹介し、事前学習データ、学習データ、テストデータの影響を議論する
- 知識集約的なタスク、伝統的なNLUタスク、NLGタスク、新興能力、特定タスクに関する考慮事項など、多様なNLPタスクにおけるLLMの使用例と非使用例を詳細に説明する
技術や方法のポイントはどこ?
- LLMの実用性と限界を理解するために、データやタスクに関連する重要な問題や課題を明らかにする
- LLMにおける偏見や効率性、コスト、レイテンシーなどの他の重要な考慮事項についても探求する
どうやって有効と検証した?
- LLMの実践的なガイドとして、GitHubで定期的に更新される資源リストを提供する
議論の内容は?
- LLMを幅広いNLPタスクに成功裏に実装するために、研究者や実務者に貴重な洞察やベストプラクティスを提供することを目指す
- LLMの発展と応用における将来的な展望や課題についても言及する
» Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (April 2023)
Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study (May 2023)
どういう論文?
- CHATGPTという大規模言語モデルの制限を回避する方法(ジェイルブレイク)に関する研究
先行研究と比べてどこがすごい?
- ジェイルブレイクのためのプロンプトの種類や効果、CHATGPTの耐性を体系的に調査した
技術や方法のポイントはどこ?
- 既存のプロンプトを分類するモデルを開発し、10種類のパターンと3つのカテゴリーを特定した
- CHATGPT 3.5と4.0に対して、8つの禁止シナリオにおける3,120個のジェイルブレイク質問を用いて、ジェイルブレイク能力を評価した
- 40個のユースケースシナリオで、ジェイルブレイクプロンプトが制限を回避できるかどうかを検証した
どうやって有効と検証した?
- CHATGPTがジェイルブレイクプロンプトに対してどのような応答を生成するかを観察し、制限が回避されたかどうかを判断した
- ジェイルブレイクプロンプトの成功率や失敗パターンを分析し、CHATGPTの弱点や強みを明らかにした
議論の内容は?
- プロンプトの構造がLLMのジェイルブレイクに重要な役割を果たすことを示した
- ジェイルブレイクプロンプトの生成と防止に関する課題や方向性について議論した
» Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study (May 2023)
Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation (May 2023)
どういう論文?
- 事前学習済み言語モデルのタスク適応のための二つの代替戦略である、少ショット微調整とインコンテキスト学習を比較・評価した論文
先行研究と比べてどこがすごい?
- モデルのサイズ、例の数、パラメータの数を一定にして、チャレンジデータセットに対する一般化能力を検証した
- 微調整モデルが実際にはドメイン外でもよく一般化できることを示した
技術や方法のポイントはどこ?
- 125Mから30Bまでの範囲で、GPT-2, GPT-3, GPT-J, GPT-Neoなどのモデルを用いた
- タスク適応のために、少ショット微調整とインコンテキスト学習の両方を試した
- BoolQ, COPA, HellaSwag, LAMA, PIQA, ReCoRD, StoryCloze, Winograndeなどのチャレンジデータセットで性能を評価した
どうやって有効と検証した?
- データセットごとに、正解率やF1スコアなどの指標を計算した
- 両方のアプローチの平均性能と分散性能を比較した
- モデルサイズや例の数によって性能がどう変化するかを分析した
議論の内容は?
- 両方のアプローチは似たような一般化能力を持ち、大きなばらつきがあることがわかった
- モデルサイズや例の数は性能に影響する重要な要因であることがわかった
- 頑健なタスク適応はまだ難しい課題であることがわかった
» Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation (May 2023)
プロンプトエンジニアリングの技術を知れるオススメの論文20選
プロンプトエンジニアリングの技術が知れる論文を紹介していきます。
※Bingチャットを使用
※論文の詳細を知るなら、実際に読んでみることをおすすめします。
ちなみに、選んだ論文ですが、「Prompt Engineering Guide」というサイトの論文集を参考にしています。
ちょっと量は多めですが、一つ一つは簡潔に要約していくので、ご安心ください。
FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS(Feb 2022)
どういう論文?
- 多くのNLPタスクを自然言語で説明した指示に基づいて微調整した言語モデル(FLAN)の提案
先行研究と比べてどこがすごい?
- 見たことのないタスクに対するゼロショット学習能力が大幅に向上
- GPT-3よりも高い性能を達成
技術や方法のポイントはどこ?
- 指示チューニングと呼ばれる手法を用いて、60以上のNLPタスクを混合して微調整
- 自然言語で表現された指示テンプレートを用いてタスクを記述
どうやって有効と検証した?
- 10種類の見たことのないタスクタイプに対して評価
- GPT-3と比較して、25個のデータセットのうち20個で上回った
議論の内容は?
- 微調整するデータセットの数、モデルの規模、自然言語指示が成功に重要であることを明らかにした
- 指示チューニングがゼロショット学習における汎化性能を高めるメカニズムについて考察した
» FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS(Feb 2022)
Deep Reinforcement Learning from Human Preferences(Feb 2023)
どういう論文?
- 人間の好みに基づいて複雑な目標を深層強化学習に伝える方法を提案した論文
先行研究と比べてどこがすごい?
- 人間のフィードバックを1%以下の割合で利用して、報酬関数がなくてもAtariゲームやロボットの歩行などの複雑なタスクを解決できること
- 人間の時間を約1時間で済ませて、これまでに人間のフィードバックから学習したことのないより複雑な行動や環境を学習できること
技術や方法のポイントはどこ?
- 軌道セグメントのペアに対する人間の好みを目標として定義すること
- 好みに基づいて報酬関数を推定し、その推定値を用いて強化学習エージェントを訓練すること
- 報酬関数の不確実さや人間の一貫性の欠如に対処するためにベイズ的な手法を用いること
どうやって有効と検証した?
- Atariゲームやロボットの歩行などの様々なタスクで、人間のフィードバックだけで高い性能を達成したこと
- 人間が与えた好みが報酬関数に反映され、エージェントが目標に沿った行動を学習したこと
- 人間が与えた好みが一貫していなくても、エージェントが適応的に学習したこと
議論の内容は?
- 人間の好みに基づく目標は、自然言語や画像などの他の表現よりも柔軟で効率的である可能性があること
- 人間の好みは、倫理的や社会的な価値観を反映することができるため、安全性や説明可能性にも貢献する可能性があること
- 人間の好みは、時間や状況によって変化する可能性があるため、長期的な目標や一般化性能に影響する可能性があること
» Deep Reinforcement Learning from Human Preferences(Feb 2023)
LLaMA: Open and Efficient Foundation Language Models(Feb 2023)
どういう論文?
- LLaMAという7Bから65Bパラメータの言語モデルのコレクションを紹介する論文
先行研究と比べてどこがすごい?
- 公開されているデータセットだけで最先端のモデルを訓練できることを示した
LLaMA-13BはGPT-3 (175B)よりもほとんどのベンチマークで優れていること
技術や方法のポイントはどこ?
- トリリオン規模のトークンに対してモデルを訓練したこと
- モデルの効率性とスケーラビリティを高めるために、様々な最適化手法を用いたこと
どうやって有効と検証した?
- 一般的な自然言語理解タスクや生成タスクにおけるモデルの性能を評価したこと
- 他の大規模な言語モデルと比較したこと
議論の内容は?
- モデルのサイズやデータセットの量が性能に与える影響について議論したこと
- モデルの公開や再現性に関する課題について言及したこと
» LLaMA: Open and Efficient Foundation Language Models(Feb 2023)
Scaling Laws for Neural Language Models(Jan 2022)
どういう論文?
- 言語モデルの性能がパラメータ数のべき乗則で表されることを実証した論文
先行研究と比べてどこがすごい?
- モデルサイズ、データセットサイズ、学習に使った計算量の3つの変数に対して、ロスがべき乗則でスケールすることを7桁以上の範囲で示したこと
- ネットワークの幅や深さなどの他のアーキテクチャの詳細は広い範囲内ではほとんど影響しないことを明らかにしたこと
- モデルやデータセットのサイズに依存する過学習や学習速度についても単純な方程式で記述したこと
技術や方法のポイントはどこ?
- 大規模な言語モデルを様々なサイズや設定で学習し、ロスやパープレキシティなどの指標を測定したこと
- べき乗則の係数や指数を最小二乗法で推定し、モデルやデータセットの最適な割り当てを決定したこと
どうやって有効と検証した?
- 8種類の言語モデル(GPT-2, GPT-3, T5, BERT, RoBERTa, XLNet, ALBERT, XLM-R)を用いて、異なるサイズやデータセットで実験し、べき乗則が成り立つことを確認したこと
- 固定された計算量予算で最も高い性能を達成するためには、非常に大きなモデルを比較的少量のデータで学習し、収束する前に停止することが必要であることを示したこと
議論の内容は?
- べき乗則は言語モデルの性能に対するスケールの影響を定量的に理解するための強力なツールであること
- べき乗則は言語モデル以外のタスクやドメインにも適用可能である可能性があること
- べき乗則は言語モデルの設計や評価における新しい基準や指針を提供すること
» Scaling Laws for Neural Language Models(Jan 2022)
Language Models are Few-Shot Learners(Jun 2020)
どういう論文?
- 大規模な言語モデルGPT-3を用いて、様々なNLPタスクにおけるfew-shot learningの性能を検証した論文
先行研究と比べてどこがすごい?
- GPT-3は1750億パラメータを持ち、従来の非スパースな言語モデルよりも10倍以上大きい
- GPT-3はfine-tuningやgradient updatesを行わずに、テキストで与えられたタスクとデモンストレーションだけで多くのNLPタスクをこなすことができる
- GPT-3は一部のタスクでは、fine-tuningを行った既存の手法と競合する性能を示した
技術や方法のポイントはどこ?
- GPT-3はTransformerベースの自己回帰型言語モデルであり、大規模なWebコーパスで事前学習されている
- GPT-3はタスクに応じて、zero-shot, one-shot, few-shotのいずれかの方法で推論を行
- zero-shot: タスク指示のみを入力として与える
- one-shot: タスク指示と一つのデモンストレーションを入力として与える
- few-shot: タスク指示と少数(10から100)のデモンストレーションを入力として与える
どうやって有効と検証した?
- 翻訳、質問応答、clozeタスクなどの標準的なNLPタスクや、単語の並び替え、新しい単語の使用、3桁の算数などの推論やドメイン適応が必要なタスクに対して、GPT-3の性能を評価した
- 人間の評価者による評価や既存の手法との比較を行った
議論の内容は?
- GPT-3はfew-shot learningにおいて優れた性能を示したが、まだ人間には及ばない点や、一貫性や公平性に欠ける点があることを指摘した
- GPT-3が大規模なWebコーパスで学習されていることによる利点とリスクについて議論した
- GPT-3が人間に見分けがつかないほどのニュース記事を生成できることを示し、その社会的影響について議論した
» Language Models are Few-Shot Learners(Jun 2020)
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?(Oct 2022)
どういう論文?
- 大規模な言語モデルがいくつかの入力-ラベルのペア(デモ)によって新しいタスクを推論だけで学習できるという現象(インコンテキスト学習)について分析した論文
先行研究と比べてどこがすごい?
- デモのラベルをランダムに置き換えても、分類や多肢選択のタスクでほとんど性能が落ちないことを、GPT-3を含む12種類の言語モデルで実証したこと
技術や方法のポイントはどこ?
- デモが提供するラベル空間、入力テキストの分布、シーケンスの形式などがインコンテキスト学習の性能に重要な役割を果たしていることを明らかにしたこと
どうやって有効と検証した?
- SuperGLUEやRACEなどの様々なデータセットで、デモのラベルを変えたり、デモの数や順序を変えたり、デモの形式を変えたりして、インコンテキスト学習の性能を評価したこと
議論の内容は?
- インコンテキスト学習がどのようにして機能しているか、そして推論だけで大規模な言語モデルからどれだけ学べるかについて、新たな理解と疑問を提起したこと
» Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?(Oct 2022)
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Jan 2023)
どういう論文?
- 大規模な言語モデルが複雑な推論を行う能力を引き出すためのシンプルな方法を提案する論文
先行研究と比べてどこがすごい?
- 数式や記号ではなく、自然言語で中間の推論過程を生成することで、推論の性能と解釈性を向上させる
- 数少ない推論過程の例示をプロンプトに与えるだけで、様々な算数、常識、記号的推論タスクに対応できる
技術や方法のポイントはどこ?
- Chain-of-Thought Promptingという手法を提案する
- 入力、推論過程、出力の3つ組をプロンプトに用いて、言語モデルに推論過程を生成させる
- 推論過程は自然言語で表現され、最終的な答えに至るまでの理由付けを示す
どうやって有効と検証した?
- 3つの大規模な言語モデル(GPT-3, PaLM, GPT-J)を用いて実験を行った
- 算数(GSM8K, MathQA, AQuA-RAT)、常識(CommonsenseQA, HellaSwag)、記号的推論(LAMBADA, PIQA)のタスクにおいて、Chain-of-Thought Promptingが性能を向上させたことを示した
- Chain-of-Thought Promptingがプロンプトの例示数や言語モデルのサイズに対してロバストであることを分析した
議論の内容は?
- Chain-of-Thought Promptingが言語モデルに推論能力を付与するメカニズムについて考察した
- Chain-of-Thought Promptingが他のプロンプト技術とどのように組み合わせられるかについて議論した
- Chain-of-Thought Promptingが将来的にどのような応用や発展が可能かについて展望した
» Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Jan 2023)
Large Language Models are Zero-Shot Reasoners(Jan 2023)
どういう論文?
- 大規模言語モデル(LLM)がゼロショットで複雑な推論を行えることを示した論文
先行研究と比べてどこがすごい?
- LLMが少数の例や説明だけでなく、単純なプロンプトで多様な推論タスクを解けることを発見した
- 「ステップバイステップで考えよう」という一文を追加するだけで、算術や記号推論などの難しいタスクの精度が大幅に向上した
技術や方法のポイントはどこ?
- Zero-shot-CoTというプロンプトを提案した
- LLMに問題文と「ステップバイステップで考えよう」という一文を入力し、答えを出力させる
- 連鎖的な思考過程を促すことで、LLMのゼロショット推論能力を引き出す
どうやって有効と検証した?
- 算術(MultiArith, GSM8K, AQUA-RAT, SVAMP)、記号推論(Last Letter, Coin Flip)、その他の論理推論(Date Understanding, Tracking Shuffled Objects)などのベンチマークタスクで実験した
- InstructGPTやPaLMなどの大規模モデルで評価した
- Zero-shot-CoTがゼロショットやフューショットのベースラインや最先端手法を上回ることを示した
議論の内容は?
- LLMには多くのタスクに対応できるゼロショット知識が隠されていることを指摘した
- シンプルなプロンプトで高レベルな認知能力を引き出せる可能性があることを示唆した
- ファインチューニングやフューショット例を作る前に、LLMのゼロショット能力を注意深く探索・分析することの重要性を強調した
» Large Language Models are Zero-Shot Reasoners(Jan 2023)
AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS(Oct 2022)
どういう論文?
- 大規模言語モデル(LLM)が中間の推論ステップを生成して複雑な推論を行うことを促す、チェーン・オブ・ソート(CoT)プロンプティングという手法についての論文
先行研究と比べてどこがすごい?
- CoTプロンプティングには、単一のプロンプトを使うZero-Shot-CoTと、手動で作成した推論チェーンを使うManual-CoTの二つのパラダイムがあるが、本論文では、LLM自身に推論チェーンを生成させて自動的にデモンストレーションを構築するAuto-CoTという新しいパラダイムを提案している
技術や方法のポイントはどこ?
- Auto-CoTでは、多様性のある質問をサンプリングし、それぞれに対して「Let’s think step by step」というプロンプトを付けてLLMに推論チェーンを生成させる
- 生成された推論チェーンは誤りが含まれる可能性があるため、多様性の高いものを選択してデモンストレーションとして用いる
どうやって有効と検証した?
- GPT-3を用いて、10種類の公開ベンチマーク推論タスクにおいてAuto-CoTの性能を評価した
- Auto-CoTは、Zero-Shot-CoTやManual-CoTと比べて、一貫して同等かそれ以上の性能を示した
議論の内容は?
- Auto-CoTは、LLMの推論能力を引き出すために必要なデモンストレーションを自動的に作成できるため、人間の労力や専門知識を必要としない
- Auto-CoTは、多様性の高い質問や推論チェーンを用いることで、LLMの誤りに対するロバスト性や汎化性能を向上させることができる
» AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS(Oct 2022)
SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS(Mar 2023)
どういう論文?
- 大規模な言語モデルによる複雑な推論タスクにおいて、チェーン・オブ・ソート・プロンプティングという手法を改良した論文
先行研究と比べてどこがすごい?
- 貪欲なデコーディングではなく、自己一貫性という新しいデコーディング戦略を提案した複数の推論パスをサンプリングして、最も一貫した答えを選択することで、正解率を大幅に向上させた
技術や方法のポイントはどこ?
- チェーン・オブ・ソート・プロンプティングは、言語モデルに人間の推論過程を模倣させるためのプロンプトを与える手法
- 自己一貫性は、同じ問題に対して異なる推論パスが存在するという直感に基づいて、言語モデルのデコーダーから多様な推論パスをサンプリングし、それらの中から最も一貫した答えを選択する手法
どうやって有効と検証した?
- 算数や常識推論などのベンチマークデータセットで実験し、先行研究や他の手法と比較して、正解率が大きく向上したことを示した
議論の内容は?
- 自己一貫性は、言語モデルの多様性と信頼性を同時に高めることができる有望な手法である
- 今後は、より高度な推論タスクや他のドメインにも適用できるかどうかを検討する必要がある
» SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS(Mar 2023)
Generated Knowledge Prompting for Commonsense Reasoning(Sep 2022)
どういう論文?
- 大規模な言語モデルから知識を生成し、それを質問に追加することで、常識推論を改善する方法を提案した論文
先行研究と比べてどこがすごい?
- 外部知識の統合にタスク固有の教師あり学習や構造化された知識ベースを必要としない
数値的な常識(NumerSense)、一般的な常識(CommonsenseQA 2.0)、科学的な常識(QASC)のベンチマークで最先端の性能を達成した
技術や方法のポイントはどこ?
- 言語モデルから知識を生成する際に、質問に関連するキーワードやエンティティを入力として与える
- 生成された知識を質問に連結してプロンプトとして用いる
- プロンプトの長さや形式を最適化するために、自動化された探索手法を用いる
どうやって有効と検証した?
- 四つの常識推論タスクにおいて、生成された知識が回答の正確さや信頼性にどのように影響するかを分析した
- 生成された知識が既存の知識ベースや人間の書いた知識よりも優れていることを示した
- 生成された知識が質問に関連する情報や推論の手がかりを提供していることを例示した
議論の内容は?
- 大規模な言語モデルが柔軟な外部知識の源として利用できることを強調した
- 生成された知識が常識推論における一般化性能や頑健性にどのように寄与するかを検討した
- 生成された知識の品質や信頼性を向上させるための方向性や課題を提案した
» Generated Knowledge Prompting for Commonsense Reasoning(Sep 2022)
Tree of Thoughts: Deliberate Problem Solving with Large Language Models(May 2023)
どういう論文?
- 大規模な言語モデルを使って一般的な問題解決を行うための新しい枠組み「Tree of Thoughts(ToT)」を提案した論文
先行研究と比べてどこがすごい?
- 既存の方法は連続した言語列をサンプリングして問題解決するのに対し、ToTは問題解決に向けて中間的なステップとなる一貫した言語列(「思考」)を探索する木構造を維持する
- ToTは言語モデルに複数の推論パスを考慮させ、自己評価や先読み、バックトラックなどを使って意図的な意思決定を行わせる
技術や方法のポイントはどこ?
- ToTは言語モデルに対して「Chain of Thought」と呼ばれる人気のあるプロンプト手法を一般化したものである
- ToTは問題解決の過程を「思考」、「思考木」、「思考選択」、「思考評価」、「思考生成」の5つのコンポーネントに分けて定義する
- ToTは言語モデルに対して特定のプロンプト形式を用いて各コンポーネントを実現する
どうやって有効と検証した?
- 非自明な計画や探索が必要な3つの新規タスク(24ゲーム、クリエイティブライティング、ミニクロスワード)で言語モデルの問題解決能力を評価した
- ToTは既存の方法と比べて大幅に性能を向上させた。例えば、24ゲームではGPT-4で4%しか解けなかったのに対し、ToTでは74%も解けた
議論の内容は?
- ToTは言語モデルに対して意図的な意思決定を可能にすることで、より一般的な問題解決能力を向上させることができる
- ToTは人間の「System 2」に相当するメカニズムとして理解できる
- ToTはまだ改善の余地があり、より高度な探索戦略や思考生成方法、思考評価基準などを検討する必要がある
» Tree of Thoughts: Deliberate Problem Solving with Large Language Models(May 2023)
Large Language Model Guided Tree-of-Thought(May 2023)
どういう論文?
- 自動回帰型の大規模言語モデル(LLM)の問題解決能力を向上させるための新しい手法であるTree-of-Thought(ToT)フレームワークを提案する論文
先行研究と比べてどこがすごい?
- 人間の複雑な推論タスクを試行錯誤で解くときの木構造の思考過程に着想を得たToT技術は、長期的な計画や解探索が必要な長距離推論タスクにおいて、LLMの限界を克服する
技術や方法のポイントはどこ?
- LLMにプロンプターエージェント、チェッカーモジュール、メモリモジュール、ToTコントローラーという追加モジュールを組み込む
- 与えられた問題を解くために、これらのモジュールはLLMと複数回の対話を行う
- メモリモジュールは問題解決過程の対話と状態履歴を記録し、システムが思考過程の前の段階に戻って別の方向から探索できるようにする
どうやって有効と検証した?
- ToTベースの数独パズルソルバーを実装し、実験的にToTフレームワークが数独パズル解決の成功率を大幅に向上させることを示した
議論の内容は?
- ToTフレームワークは他の種類の問題解決タスクにも適用できる可能性がある
- ToTフレームワークはLLMの一般的な知能を高めることに貢献できる
» Large Language Model Guided Tree-of-Thought(May 2023)
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Apr 2021)
どういう論文?
- 大規模な事前学習済みのseq2seqモデルに、Wikipediaの密なベクトルインデックスを用いた非パラメトリックなメモリを組み合わせた、Retrieval-Augmented Generation (RAG) という手法を提案した論文
先行研究と比べてどこがすごい?
- 知識集約的なNLPタスクにおいて、パラメトリックなseq2seqモデルやタスク固有の検索・抽出アーキテクチャを上回る性能を達成した
- 言語生成タスクにおいて、RAGモデルは、最先端のパラメトリックのみのseq2seqモデルよりも、より具体的で多様で事実に基づいた言語を生成した
技術や方法のポイントはどこ?
- RAGモデルは、入力文に対して関連するWikipediaの記事を検索し、それらを生成モデルのコンテキストに追加する
- RAGモデルには、固定された記事セットを用いるRAG-Tokenと、トークンごとに異なる記事セットを用いるRAG-Sequenceという2種類のバリエーションがある
- RAGモデルは、事前学習済みのseq2seqモデル(BART)と事前学習済みのニューラル検索器(DPR)から構成される
どうやって有効と検証した?
- オープンドメインの質問応答タスク(Natural Questions, WebQuestions, TriviaQA)、事実性チェックタスク(Fever)、テキスト要約タスク(XSum)、ダイアログ応答生成タスク(DialoGPT)など、幅広い知識集約的なNLPタスクでRAGモデルを評価した
- RAGモデルは、3つのオープンドメインの質問応答タスクで最先端の性能を達成し、他のタスクでも強力なベースラインと競合するかそれ以上の性能を示した
- RAGモデルは、生成されたテキストに含まれる事実の正確さや多様さにおいても、パラメトリックのみのseq2seqモデルよりも優れていることが人間による評価で確認された
議論の内容は?
- RAGモデルは、知識集約的なNLPタスクにおいて有効であることが示されたが、まだ改善すべき点がある
- RAGモデルは、検索された記事と生成されたテキストとの間に矛盾が生じる場合がある
- RAGモデルは、検索された記事の信頼性やバイアスに依存する場合がある
- RAGモデルは、生成されたテキストに対する根拠や出典を提供する方法が必要である
» Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks(Apr 2021)
ART: Automatic multi-step reasoning and tool-use for large language models(Mar 2023)
どういう論文?
- 大規模言語モデル(LLM)が外部ツールを使って複雑な推論を自動的に行うフレームワーク(ART)を提案する論文
先行研究と比べてどこがすごい?
- LLMに与えられた新しいタスクに対して、適切な推論ステップとツールの使用例をタスクライブラリから選択し、プログラムとして生成する
- プログラムの実行中に外部ツールが呼び出されるときは生成を一時停止し、ツールの出力を統合して再開する
- 人間がプログラムのエラーを修正したり、新しいツールを追加したりすることで性能を向上させることが容易
技術や方法のポイントはどこ?
- LLMに凍結された状態で、タスクの入力と出力を自然言語で記述したデモンストレーションを与える
- デモンストレーションには、推論ステップの生成、コードの生成、コードの実行、検索などの外部ツールの呼び出し、終了などの特殊なタグが含まれる
- 新しいタスクに対して、タスクライブラリから類似したデモンストレーションを選択し、入力と出力を置き換えてプログラムを生成する
- プログラムを実行する際には、特殊なタグに従ってLLMの生成や外部ツールの呼び出しを行い、最終的な答えを得る
どうやって有効と検証した?
- BigBenchとMMLUという二つのベンチマークで、ARTの性能を少数例提示や自動的な推論チェーン(CoT)と比較した
- ARTは未見のタスクで大幅な改善を達成し、手作りのCoTプロンプトと多くのタスクで同等の性能を示した
- 人間がプログラムやツールを修正・追加することで、一部のタスクで性能を大きく向上させることも実証した
議論の内容は?
- ARTはLLMが新しいタスクに対応するために必要な推論ステップとツール使用法を自動的に学習することができる
- ARTはLLMが持つ限界や欠点を補うために外部ツールを活用することができる
- ARTは人間が容易に介入して性能や信頼性を向上させることができる
» ART: Automatic multi-step reasoning and tool-use for large language models(Mar 2023)
LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS(Mar 2023)
どういう論文?
- 大規模な言語モデル(LLM)に自動的に命令を生成・選択するアルゴリズムを提案した論文
先行研究と比べてどこがすごい?
- LLMの性能は命令の質に大きく依存するが,従来の命令は人間が手作業で作っていた
- 提案手法はLLM自身に命令候補を生成させ,スコア関数を最大化するように探索する
- 人間のプロンプトエンジニアリングと古典的なプログラム合成にインスパイアされた手法
技術や方法のポイントはどこ?
- 命令を「プログラム」とみなし,別のLLMのゼロショット性能を評価することで命令の品質を測る
- Automatic Prompt Engineer(APE)という手法を提案し,24種類のNLPタスクで評価した
どうやって有効と検証した?
- 人間が作った命令と比較して,APEが生成した命令は19/24タスクで同等かそれ以上の性能を示した
- APEが生成した命令は,真実性や情報量の向上,少ショット学習の改善,ゼロショット連鎖思考プロンプトの発見などにも有効であることを示した
議論の内容は?
- LLMの制御性や汎用性に関する課題や可能性について議論した
- LLMの倫理的・社会的な影響やリスクについても言及した
» LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS(Mar 2023)
Active Prompting with Chain-of-Thought for Large Language Models(May 2023)
どういう論文?
- 大規模言語モデル(LLM)に対して、タスク固有の例題プロンプト(人間が設計した推論過程を含む)を適応させる新しい方法を提案する論文
先行研究と比べてどこがすごい?
- 例題プロンプトの選択において、不確実性に基づく主動学習のアイデアを導入し、最も不確実な質問を注釈付けすることで、LLMの推論能力を最大限に引き出すことができる
技術や方法のポイントはどこ?
- Active-Promptという手法を提案し、LLMに対してk回のクエリを発行して可能な回答と中間ステップを生成し、それらの不確実性を測定する
- 不確実性の高い質問に対して人間がチェーンオブソート(CoT)と回答を注釈付けし、それらを例題プロンプトとしてLLMに与える
どうやって有効と検証した?
- 八つの複雑な推論タスクにおいて、Active-Promptが既存のCoT手法や他のプロンプティング手法よりも優れた性能を示した
- 不確実性指標やプールサイズやゼロショット学習や精度不確実性関係などの分析を行った
議論の内容は?
- Active-PromptはLLMの推論能力を向上させるだけでなく、人間の注釈付けコストも削減できる
- Active-Promptは他のタスクやモデルにも適用可能であり、将来的には自動化されたCoT生成や多言語対応などの拡張が可能である
» Active Prompting with Chain-of-Thought for Large Language Models(May 2023)
Guiding Large Language Models via Directional Stimulus Prompting(Jul 2023)
どういう論文?
- 黒箱の大規模言語モデル(LLM)を望ましい出力に導くための新しいプロンプトフレームワークであるDirectional Stimulus Promptingを紹介する論文
先行研究と比べてどこがすごい?
- プロンプトに新しい要素であるdirectional stimulusを導入し、LLMに対してより細かいガイダンスと制御を提供する
- directional stimulusは、各入力クエリに対してLLMに望ましい出力に向かわせるためのヒントや手がかりとして機能する
- 小さなチューニング可能なモデル(例えばT5)を用いて、各クエリに対してdirectional stimulusを生成し、小さなポリシーモデルを最適化することで、黒箱のLLMを最適化することができる
技術や方法のポイントはどこ?
- ポリシーモデルは、1) ラベル付きデータを用いた教師ありファインチューニングと2) オフラインやオンラインの報酬から強化学習を行って、LLMの望ましい振る舞いにより一致するdirectional stimulusを探索することで訓練することができる
- directional stimulusは、要約すべきキーワードなど、タスクに応じて柔軟に定義することができる
どうやって有効と検証した?
- 要約と対話応答生成のタスクでフレームワークを評価した
- 実験結果は、少量の訓練データで標準的なプロンプトよりもChatGPTの性能を一貫して改善し、強化学習がさらに性能を向上させることを示した
- 特に、MultWOZデータセットでは、80個の対話だけでChatGPTの組み合わせスコアを41.4%も向上させることができ、一部の完全に訓練された最先端のモデルと同等かそれ以上の性能を達成した
議論の内容は?
- LLMの振る舞いをより制御可能にするために、directional stimulusの生成方法や形式をさらに改善する可能性がある
- LLMの内部表現やメカニズムに関する洞察を得るために、directional stimulusがLLMに与える影響を分析する必要がある
- LLMの多様性や倫理性などの他の側面にもフレームワークを適用してみる価値がある
» Guiding Large Language Models via Directional Stimulus Prompting(Jul 2023)
REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS(Mar 2023)
どういう論文?
- 大規模な言語モデル(LLM)を使って、推論と行動を相互に補完する一般的なタスク解決法を提案する論文
先行研究と比べてどこがすごい?
- 推論と行動を別々に扱っていた先行研究とは異なり、推論の過程とタスク固有の行動を交互に生成することで、より高い相乗効果を得ることができる
- 推論の過程は、行動計画の導出、追跡、更新や例外処理に役立ち、行動は外部の情報源(知識ベースや環境など)とやり取りして必要な情報を得ることができる
技術や方法のポイントはどこ?
- LLMに対して、タスクの目的や入力、出力の形式を示すプロンプトを与える
- LLMはプロンプトに従って、推論の過程と行動を交互に生成する
- 行動が外部の情報源とのインタラクションを要求する場合は、その結果を次の入力として与える
- タスクが完了するまでこのプロセスを繰り返す
どうやって有効と検証した?
- 質問応答(HotpotQA)や事実検証(Fever)などの言語理解タスクや、ALFWorldやWebShopなどのインタラクティブな意思決定タスクにおいて、ReActを適用し、性能や解釈性や信頼性を評価した
- ReActは、先行研究のベースラインよりも優れた結果を示し、人間に近いタスク解決の過程を生成した
議論の内容は?
- ReActは、LLMが持つ推論と行動の能力を統合することで、一般的なタスク解決法として有効であることを示した
- ReActは、少数のインコンテキスト例から学習できるため、データ不足やドメイン変化に強い
- ReActは、推論の過程を明示的に生成することで、モデルの内部状態や意図を人間に理解しやすくする
- ReActは、外部の情報源とインタラクションすることで、情報不足や不確実性に対処できる
» REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS(Mar 2023)
Multimodal Chain-of-Thought Reasoning in Language Models(Feb 2023)
どういう論文?
- 言語と画像の両方を使って複雑な推論を行うための枠組みであるMultimodal-CoTを提案した論文
先行研究と比べてどこがすごい?
- 言語だけでなく画像も含めた多様なデータモダリティを利用して、中間の推論過程(根拠)を生成し、答えを導くことができる
- 10億パラメータ以下の小さなモデルで、GPT-3.5よりも16ポイント高い精度を達成し、人間のパフォーマンスも超えた
技術や方法のポイントはどこ?
- 根拠生成と答え推論を分離した二段階のフレームワークを採用し、根拠生成には言語と画像の両方の情報を利用し、答え推論には根拠生成の結果を利用する
- 多様なタスクに対応できるように、柔軟なプロンプト設計を行った
どうやって有効と検証した?
- ScienceQAという科学的な質問応答のベンチマークデータセットを用いて、Multimodal-CoTの性能を評価した
- Multimodal-CoTは、言語だけでなく画像も含めた根拠を生成することで、質問に対する正しい答えを導くことができた
議論の内容は?
- Multimodal-CoTは、多様なデータモダリティを利用して複雑な推論を行うことができる強力な枠組みであることを示した
- Multimodal-CoTは、まだ改善の余地がある点も指摘し、将来的には他のモダリティやタスクにも拡張できる可能性があることを述べた
» Multimodal Chain-of-Thought Reasoning in Language Models(Feb 2023)
その他に読むべきプロンプトエンジニアリングに関する論文
ここまで示した論文のほかに読むべきプロンプトエンジニアリングに関する論文を3つほど紹介します。
時間ある時にチェックしてくださいね。
Experimental evidence on the productivity effects of generative artificial intelligence
どういう論文?
- 中級レベルのプロフェッショナルな文章作成タスクにおける生成型AI技術(アシスタントチャットボットChatGPT)の生産性への影響を調べた論文
先行研究と比べてどこがすごい?
- 生成型AI技術が創造的で難易度の高いタスクに対しても効果的に機能することを実験的に示した点
ChatGPTが生産性を向上させるだけでなく、労働者間の不平等を減らし、仕事満足度や自己効力感を高めることを明らかにした点
技術や方法のポイントはどこ?
- 職種別にインセンティブ付きの文章作成タスクを444人の大卒プロフェッショナルに割り当て、半数にChatGPTを提供するというオンライン実験を行った点
- タスクの時間と品質を測定し、ChatGPTの使用者と非使用者の生産性を比較した点
- 職種や能力レベルなどの異質性や、ChatGPTがタスク構造や労働者の態度に与える影響を分析した点
どうやって有効と検証した?
- ChatGPTは平均的な生産性を大幅に向上させた:時間は0.8 SD減り、品質は0.4 SD上がった
- 能力の低い労働者により多くの恩恵をもたらすことで、労働者間の不平等を減らした
- ChatGPTは労働者の努力を代替することが多く、スキルを補完することは少なかった
- ChatGPTはタスクをアイデア生成や編集に向けて再構成し、草稿作成から離れさせた
- ChatGPTに触れた労働者は仕事満足度や自己効力感が高まり、自動化技術に対して懸念と興奮の両方が高まった
議論の内容は?
- 生成型AI技術は創造的なタスクにおいても人間の代替ではなく補完として機能する可能性があることを示唆した
- 生成型AI技術は生産性だけでなく福祉や不平等にも影響を与えることを示した
- 生成型AI技術は労働市場や教育政策に対する新たな課題や機会を提起することを示した
» Experimental evidence on the productivity effects of generative artificial intelligence
Training Compute-Optimal Large Language Models
どういう論文?
- 与えられた計算量のもとで、最適なモデルサイズとトークン数を探るトランスフォーマー言語モデルの学習についての論文
先行研究と比べてどこがすごい?
- 現在の大規模言語モデルは、学習データ量を一定にしてモデルサイズを増やすことに注力しているため、大幅に未学習であることを示した
- 計算量最適な学習では、モデルサイズと学習トークン数は等しくスケールするべきであることを発見した
技術や方法のポイントはどこ?
- 70億から1600億パラメータの範囲で400以上の言語モデルを5兆から500兆トークンのデータで学習させた
- Gopherと同じ計算量で、70Bパラメータと4倍のデータ量で学習したChinchillaという予測された計算量最適モデルを提案した
どうやって有効と検証した?
- Chinchillaは、Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B)、Megatron-Turing NLG (530B)などの先行研究よりも、多様な下流タスクで一貫してかつ有意に性能を向上させたことを示した
- Chinchillaは、微調整や推論にも大幅に少ない計算量を必要とするため、下流タスクの利用を大きく容易にした
- Chinchillaは、MMLUベンチマークで67.5%という最先端の平均精度を達成し、Gopherよりも7%以上の改善を見せた
議論の内容は?
- 計算量最適な学習は、言語モデルの性能だけでなく、エコロジカル・バリディティや社会的影響にも関わる重要な問題であることを指摘した
- 言語モデルのスケーリングにおけるトレードオフや限界について議論し、将来的な研究方向性を提案した
» Training Compute-Optimal Large Language Models
PaLM 2 Technical Report
どういう論文?
- PaLM 2は、多言語性と推論能力に優れた大規模言語モデルである
先行研究と比べてどこがすごい?
- PaLM 2は、PaLMやUL2といった先行研究よりも、品質と効率性の両面で優れている
- PaLM 2は、25のGoogleサービスに導入されており、幅広い応用が可能である
技術や方法のポイントはどこ?
- PaLM 2は、Transformerベースのモデルであり、様々な目的関数を用いて学習されている
- PaLM 2は、トレーニングデータに多言語のテキストや画像を含めており、自然言語理解と生成の能力を高めている
- PaLM 2は、推論時に毒性を制御する機能を備えており、責任あるAIの実現に貢献している
どうやって有効と検証した?
- PaLM 2は、英語や多言語の言語能力試験や分類・質問応答・推論・コーディング・翻訳・自然言語生成などのタスクで評価されている
- PaLM 2は、PaLMやUL2と比較して、ほとんどのタスクで高い性能を示しており、特にBIG-Benchや他の推論タスクで大きな改善が見られる
議論の内容は?
- PaLM 2は、多様なタスクと能力において最先端の性能を達成しており、多言語性と推論能力に優れた大規模言語モデルであることを示している
- PaLM 2は、効率性と責任性を高めることで、より広く展開される可能性がある
- PaLM 2は、まだ改善の余地があり、将来的にはさらなる品質向上や新しい応用分野への挑戦が期待される
論文以外にもプロンプトエンジニアリングを学ぶ方法はある
ここまで「論文を読もう」という話をしてきましたが、論文以外にも学ぶ方法はいくらでもあります。それが以下のとおり。
それぞれ一長一短はあるので、どれか一つに絞るのではなく、組み合わせて学習していくべきですね。
各学習方法のメリット・デメリットをまとめたのが、下記の記事となります。こちらも合わせてご覧ください。
プロンプトエンジニアリングの効果的な学習方法5選【まとめ】
続きを見る
特に論文は情報の鮮度と信頼性は高いものの、体系的に学べないのがツラいところ。
そのデメリットを補うなら、少しお金を払ってでもオンラインの講座やスクールを受けてみるのがオススメです。
ちなみに、ぼくもTechAcademyというオンラインプログラミングスクールのコースを受講しました。
体験した感想やレビューは下記記事で見られます。
はじめてのプロンプトエンジニアリングコースの体験レビュー【TechAcademy】
続きを見る
それでは、また。