はじめに

こんにちは。TIG DXユニットの村上です。
世界中で話題となっているChatGPTですが、その開発元であるOpenAIから大規模言語モデル(LLM)が労働市場に与える影響について分析した論文が公開されました。

https://arxiv.org/abs/2303.10130

この論文ではLLMの影響度を評価する方法を提案し、それによって評価した結果を分析しています。

今回はこの論文で述べられたLLMの影響についてご紹介したいと思います。これから世界の労働市場がAIによってどのように変わっていくのか、自分は一人の労働者としてどのように動くべきかを考える参考なれば幸いです。

主要な結果

先に主要な結果を掲載します。
以下の表はLLMの影響を受けない可能性の高い職種です。逆にこれら以外の職種は少なからず影響を受けると考えられます。

影響を職種全体で集計すると以下のようになります。

米国の労働者の約80％がLLMの導入により少なくとも10％の業務に影響を受ける可能性がある
約19％の労働者は少なくとも50％の業務に影響を受ける可能性がある
高所得の職種ほどLLMの機能やLLMを搭載したプロダクトに触れる機会が多くなる可能性がある
米国の労働者の全タスクの約15％が同じ品質で大幅に早く完了できる可能性がある。LLMのさらに上に構築したシステムを用いる場合はこの割合が47％~56％に増加する

LLMの影響の評価方法

本論文では評価方法の提案が主要な内容の1つになります。前提とする条件から順に見ていきたいと思います。

用語の定義

論文では 「品質を保った状態でタスクを完了するのにかかる時間を50％削減できる可能性があること」 を 「LLMの影響がある」 と定義しています。実際にはもう少し削減率が減少すると考えて大きめの値で設定したという背景があるようです。
「品質を保った状態」 とは、「人間が自力で完成させたのか、LLMの支援を受けて完成させたのか、レビューする人が見わけがつかない」 ことを指します。

想定するLLMの仕様

テキストの入力と出力が存在し、入力には最大2000語を与えることができる
モデルの獲得している知識には直近1年以内のものが存在しないが、入力に直近1年以内の情報を含めることでそれを考慮した処理を行うことはできる

想定する労働者

与えられたタスクを完了するために必要なスキルを平均的なレベルで習得済み
LLMとタスクで必要とされるあらゆる道具を利用できる
一般的なノートPCに備わっているマイクやスピーカーなどのハードウェアを利用できる
上記以外の物理的な道具は用いることができない

タスクのカテゴリ分け

LLMとそれに付随するシステムを仮定し、LLMの影響を受けるかどうかで分類を行います。

カテゴリ	概要	タスクの例
E1	LLMのみで影響を与える	仕様に沿ったソースコードの編集や生成、テキスト翻訳や文章の要約など
E2	LLMだけでは影響を与えることはないが、LLMを搭載したアプリケーションなら影響を与える	プレゼンテーション資料の作成、データベース管理など
E3	LLMに加えて画像の閲覧、説明、生成ができるシステムを利用可能であれば影響を与えることができる	PDFからテキストを読み取る、指示に従って画像の編集や生成を行うなど
E0	上記のいずれのカテゴリにも該当しないタスク。どのカテゴリか迷った場合はこれになる	ハードウェアの修理や清掃、雇用の決定や試験の採点など

E0の例について補足します。雇用の決定や試験の採点など、人間の人生を大きく左右するようなタスクには影響があってはならないという考えが導入されています。LLMはあくまで推奨にとどまり、最終的な決定を行うのは人間であるべきという考え方です。

評価方法

OpenAIの誇る人間のアノテーターと分類器としてのGPT-4を用意し、それぞれにE0~E3のカテゴリ分けを行ってもらい、人間とGPT-4の分類結果をもとに影響の有無を分析していきます。人間だけのカテゴリ分けではその作業者の主観が少なからず反映されてしまうため、GPT-4のカテゴリ分けも合わせて考慮します。

データセット

米国の職業とタスクのデータを用います。データソースはO*NETデータベースです。このデータセットには職業に関する情報とその職業のあるタスクを完了するための包括的な行動が含まれています。
また、職業データに加えて賃金、雇用、人口統計のデータも利用します。このデータセットには各職の労働者数や職で必要とされる教育、OJTなどの情報が含まれています。

LLMによる影響の分析結果

この章ではLLMやそれを搭載したアプリケーションによる影響の分析結果を解説します。

人間とGPT-4の評価結果の比較

人間とGPT-4の評価結果を比較してみると、両者で高い一致率を示しました。

表のの列の説明は以下です。

	説明
	E1だけの評価
	E1に加えてE2を半分考慮した評価
	E1とE2の両方を考慮した評価

Agreementの項目に注目すると、人間とGPT-4の評価の一致率が高いことが分かります。
ピアソンの相関係数も正の値を示しているため、全体的な傾向として人間とGPT-4が同じような評価をしていることが分かります。

賃金と影響の関係

賃金と影響の関係は以下のような結果になりました。

横軸が賃金(logスケール)、縦軸が影響度です。
人間、GPT-4ともに賃金が高くなるにつれて影響が大きいと判断しています。

ジョブゾーンごとの影響分析

ジョブゾーンとは以下の観点に従って職種をグループ分けしたものになります。

その職業に就くために必要な教育レベル
その職業に就くために必要な経験
その仕事をこなせるようになるために必要なOJTの量

O*NETデータセットではジョブゾーンが5段階に分類されており、ジョブゾーン1からジョブゾーン5にかけて上記3点の必要量が増加します。つまり、ジョブゾーン5が最も求められる知識や能力が高く、参入障壁の高い職業であるということになります。

こちらのグラフはジョブゾーンごとに見た影響度を示しています。縦軸がジョブゾーンごとの職業の割合、横軸が影響を受けるタスクの割合の最小値です。つまり、右に行くほどLLMの影響を受けるタスクの割合が多いことになります。

基本的にジョブゾーンの数値が大きくなるほど（参入障壁の高い職種ほど）影響を受けるということになりますが、ジョブゾーン5はジョブゾーン4よりも影響が小さいという結果になりました。

特に影響を受ける職業の分析

各カテゴリで特に影響を受ける職業のリストは以下になります。

これらはあくまで「影響がある」の定義に特に当てはまることを示しており、その職業のタスクが完全に人間からLLMに代替されることを示唆しているわけではありません。

その他論文で示唆された事実

科学やクリティカルシンキングスキルは影響を受けにくい
プログラミングとライティングのスキルは強く影響を受ける
IT業界は影響が大きい
製造業、農業、鉱業は影響が小さい

現在のLLMの課題と補完技術の重要性

現在のLLMには以下のような特徴が存在することで、総じて信憑性の観点で課題が残っています。

LLMが不正確な事実を知識として獲得する可能性がある
RLHFの性質上、少なからずバイアスが存在する
プライバシー周りが整っていない
LLMが意図的な偽情報をつかまされる可能性がある

上記考察から、これらの課題を補完する技術を組み合わせることは非常に重要であり、LLMの影響を飛躍的に拡大することにつながります。

GPTはGPTなのか

最後に論文のタイトルでもある「Generative Pre-trained Transformers (GPT) は General Purpose Technology (GPT) なのか」という観点の考察です。

ここまでの議論からLLMは労働市場に多大な影響を与えることが分かったため、総合的に見て Generative Pre-trained Transformers は General Purpose Technologyである と著者らは結論付けています。

また、Goldfarbらの研究では広義の意味での機械学習は汎用技術である可能性が高いと主張していますが、今回の研究はそれを支持する結果となりました。

おわりに

最後まで読んでいただきありがとうございました！

確かに今回の研究でGPT-4を分類器として機能させたことは汎用技術という主張の材料になりますので、納得感がありました。事前学習済みモデルの威力が発揮された形です。

また、確かにもともと機械学習はどちらかと言うとある特定領域に特化したモデルで人間を代替することを期待されていた節があるため、本研究によって機械学習が汎用技術になりうると主張することには意義があるように思いました。

ChatGPTなどの大規模言語モデルが労働市場に与える影響の分析