はじめに
みなさんこんにちは! フューチャー株式会社の藤井と申します。大学4年次より自然言語処理 (NLP) を専門とし、フューチャー入社以降はStrategic AI Group (SAIG) の一員として多種多様な業種・業界のお客様が抱える課題に対するAIの社会応用を推進しています。
さて、今回は遅ればせながら、2023年3月13日(月)〜3月17日(金)において沖縄県は宜野湾市で開催された言語処理学会第29回年次大会 (NLP2023) に参加してきましたのでご報告いたします。
当社はゴールドスポンサーとして参加し、総勢8名、オンサイトでの聴講を行いました。
この記事では主に、SAIGから参加した5名より特に興味深かった発表・セッションを紹介していきたいと思います。どうぞよろしくお願いします!
言語処理学会とは
言語処理学会は、自然言語処理(NLP)分野における国内最大の学会で毎年3月に開催されています。年次大会は今年で29回目を数え、発表件数、参加者数ともに右肩上がりで推移する勢いのある学会です。
近年は新型コロナウィルスの影響でオンライン開催でしたが、第29回大会では現地会場とオンラインのハイブリッド形式となり、国内の多くの自然言語処理研究者が一堂に会しました。口頭発表、ポスター発表に加え、近年ではワークショップも併設されNLPに関する幅広いトピックが活発に議論されています。
また、昨年11月に登場し、未だかつてないスピードで登録者1億人を突破するなど話題となったChatGPTの出現は本大会にも大きな衝撃を与えました。
大会2日目には緊急パネル「ChatGPTで自然言語処理は終わるのか」が企画されるなど “新たな” 自然言語処理に注目が集まっています。
興味深かった発表・セッションの紹介
本セクションはSAIGから参加した5名のオムニバス形式でお送りします。
- [H5-2] クエリ指向要約におけるクエリと要約の統合的な生成
この研究では、文章の中からクエリに対する回答となる部分を要約して提示する「クエリ志向要約」タスクにおいて、クエリが未知のシチュエーションを想定し、クエリの候補とその要約を統合的に生成する「クエリ推薦付き要約」を提案しています。
手法自体はシンプルでOpenDomain QAに用いられるFusion-in-Decoderにおいて、クエリ生成・回答生成のシーンに応じた接頭辞を使い分け、クエリ→回答の順で生成を行うというものです (論文中では逆順や同時生成についても触れられています)。
実社会においては、例えば新たな製品を買ったとき、新たなプロジェクトに参加したときなど、そもそも何が書かれているのか分からない膨大なマニュアルに遭遇することが多々あります。
また、コールセンター業務などでも、リアルタイムに交わされる会話に基づいて、どのような質問があり、なんと答えたのかをその場で構造化された状態で閲覧できると高い業務削減効果を見込むことができると考えられます。
今後の課題としてあげられていたとおり、クエリ・要約作成時の処理単位など改善の余地はありますが、潜在ニーズが大きく今後の発展が期待できること、デモアプリとして動くものに落とし込む技術力を評価して挙げさせていただきました。 (藤井) - [H7-1] 対話行為の分布を利用した雑談対話システムの評価指標
この研究では、雑談システムの評価において、人手評価を含む多くの指標がシングルターンの対話に閉じていることに着目し、システムのふるまい全体の評価を目的とした新たな評価指標を提案しています。
Twitterのリプライチェーンから収集した人間の対話と、同様のデータでfine-tuningしたT5モデルによる生成結果に対話行為 (あいさつ、質問など各発話の役割) のアノテーションを付与し、人間がシステムに比べ多様な対話行為を使い分けていることや、人間の対話では相手の発言に応じて遷移しやすい対話行為があるのに対し、システムの対話には遷移の一貫性がないことを明らかにしました。
論文では上記の観測に基づき、対話行為のエントロピー (どれだけ多様か) および、相互情報量 (どれだけ決定的か) に基づく評価指標の有効性を検証しています。
対話行為と従来指標を相互に考慮した指標の提案や、人間の遷移パターンとの類似性を考慮することでさらなる発展が見込める話だと感じました。
また、人間とシステムの対話の違いを新たな観点から分析したことで、次に来るべき対話行為に誘導するようなインストラクションを与えるなど、より人間らしい対話の実現に向けた可能性も切り拓かれたと思います。 (藤井) - [H5-1] 忠実性向上のためにn-gramの抽出性を報酬とする強化学習を用いる抽象型要約
要約文生成タスクにおいて、原文書 (要約の元となる文書) と異なる事実を含む要約文をモデルが生成することがあります。
このようにモデルの入力に対して誤った事実を含む内容を出力してしまう現象をhallucinationと言いますが、この研究では忠実性を向上させhallucinationを抑える手法を提案しています。
著者らは、主流なデータセット中には原文書と異なる事実を含む正解要約文が多く存在しており、データセットのみに基づいた学習では不十分だと述べています。
提案手法は、データセットの学習に加えモデルが生成した要約文と原文書の一致率を報酬とした強化学習を組み合わせるというものです。
提案手法により忠実性が向上したと報告されています。
近年、ChatGPTを始めとした生成系AIが流行していますが、生成系AIにおいてhallucinationは見過ごせない問題です。
この研究のように、hallucinationを扱う研究はより重要になってくると思います。
今後が楽しみな研究です。 (加藤) - [B7-4] Free Donut: E2E文書理解モデルにおけるAttentionを用いた文字領域アノテーション不要なテキスト検出手法の提案
この研究では、既存のE2E文書理解モデルにおいて課題となっている、認識結果のテキスト位置情報を取得できないという問題を、推論時のモデル内のAttentionマップに着目することで解決する手法を提案しています。
E2E文書理解モデルは、テキストの検出、認識をそれぞれ別のモデルで行う従来の文書理解モデルと異なり、単一のモデルでテキストの検出、認識を行います。
そのため、モデルの学習に必要なアノテーションは、画像とそこに書かれているテキストの表層情報のみでよく、コストの高いテキスト位置のアノテーションが必要ないという点で優れています。
一方で、テキストの検出を明示的に行わないため、テキストの位置情報を取得できないという課題もあります。
この研究では、推論時のモデル内のAttentionマップに着目することで、この課題を解決しようとしています。
どの層のAttentionマップを用いるのが良いのか、Multi-headなAttentionマップに対してどのように平均を取るのが良いのか、などの分析が行われていたりと、とても興味深い研究でした。
最近話題となっているGPT4 (ChatGPT) も画像を入力可能になっていることを踏まえると、自然言語 + 画像の分野は今後もさらに発展していくことが期待されます。 (佐良) - [B1-1] 計算資源が限られた複数組織での出力選択による協働の検討
高度な計算資源と大量のデータを持たない小さな組織には、高性能な大規模ニューラルモデルの開発は難しいものです。
この論文では、そのような小さな組織がそれぞれ独自に開発したモデルを組み合わせた際のモデルの性能を検証しています。
独立に訓練された少訓練データかつ小サイズのモデル群と、多訓練データかつ大サイズの単独大モデルの英日翻訳の性能比較を行った結果、小モデル10個を組み合わせたモデルは、小モデルの10倍のデータ・3倍の規模のモデルの能力に匹敵する性能が達成されることが確認されました。
この研究を含め、巨大IT企業のデータに依存しないことを目的として、小規模のモデルを組み合わせることで高性能のモデルを作り出す研究が多数発表されていました。
これは、現在急速に発展しているブロックチェーンなどの分散型データベースの技術の目的と呼応したものとなっており、今後の発展が期待されます。 (細井) - [B8-2] 画像キャプションを介した脳活動からの視覚体験再構成
まず最初にこの論文の先行研究 (同じ著者) は、2023年6月開催予定のCVPR2023で採択されており、世界的にも注目されています。 (https://cinet.jp/japanese/news/20230323_9502/)
この研究の概要としては、脳の血流から活動状況を調べる機能的磁気共鳴画像法 (fMRI) の画像から視覚情報を読み取り映像化する内容となっております。
先行研究では脳活動情報から画像を生成していたようですが、脳活動情報の一部を言語化 (キャプション) してから画像生成することで先行研究より高精細で意味的に妥当な画像を出力する再構成性能 (デコード性能) を示すようになりました。
内容が複雑なので概要はざっくりとなってしまいましたが、研究自体がユニークで発想が面白いので個人的には必読な論文だと思います。
一方「NLPの研究というより画像や脳科学で別分野の研究では?」という意見もあると思いますが、NLP2023の発表の中にはStable DiffusionなどのText2Image技術を用いた「NLPの応用」を題材とした発表はいくつもありました。
これはStable DiffusionやChatGPTによる「AIの民主化」より別分野の研究者でも簡単に利用ができ、自由な発想が実現可能になった証でもあるのかなと思ったので、さまざまな分野が加速することを願いこの論文を紹介しました。 (岡本) - 緊急パネル : ChatGPTで自然言語処理は終わるのか?
緊急パネル「ChatGPTで自然言語処理は終わるのか」では、日本におけるNLPの第一人者6名による白熱の議論が展開されました。
なぜこれほどまで急激な性能向上が起こったのか、誰ひとり分かっていないことも多く、現場には戸惑いの声も大きいように感じました。
世間では、AI (やそのひとつであるChatGPT) によって人間の仕事が奪われるのではないか、と危惧する声も聞こえます。
しかし、実際には未だ (少なくとも現代の弱い) AIは人間のように考えたり、感情を持つことはありません。
人間が「人間にしかできないこと」をするために、AIで解決できる課題にはAIを活用していくのが正しい向き合い方ではないかと思います。
これまで研究されてきた多くの問題は「ChatGPTで良いのでは?」と言われてしまうかもしれません。
しかし、その存在をネガティブに捉えず、ChatGPTで解決されうる課題には積極的にChatGPTを活用していくことで、新たな課題も浮き彫りになっていくのではないかと考えます。
大きな流れが変わる今こそチャンス、この姿勢を大事にしたいと思いました。
おわりに
私はフューチャーに入社してからは初めて、個人としても約4年ぶりのオンサイト学会参加でしたが、現地ならではの盛り上がり、会場の一体感を感じることで自身のモチベーションにもつながるとても有意義な時間を過ごすことができました。
ChatGPTを始めとする大規模言語モデル (LLM)の出現により、アカデミア、産業界を問わず未だかつてない注目が自然言語処理に集まっています。
「ChatGPTで自然言語処理は終わったのか」
自分なりの答えを出すならば、「持てるものの自然言語処理」は終わったのではないかと思います。途方も無い資源・計算リソースを持つ一部の組織に閉じず、いかなる個人、企業も自己の業務・生産活動の効率化、洗練のため大規模モデルの恩恵に預かることができるようになったことは大きなチャンスです。
しかしながら、事実に沿わない文章の生成、プライバシーや倫理的な問題など、LLMを実社会で使われるシステムに組み込むためには乗り越えなくてはならない障壁も多数あります。そのような課題を乗り越え、非連続的な成長を遂げるためには、技術的な側面はもちろん、日々の業務の中でどのようにAIと人間の協調の可能性を見出していくかも重要と考えます。
SAIGでは技術と業務の両輪でLLMの実社会応用を推進していく仲間を募集しています。
興味のある方、ぜひ一緒に働きましょう!
新卒採用 : https://www.future.co.jp/recruit/recruit/rec-fresh/
キャリア採用 : https://www.future.co.jp/recruit/recruit/rec-career/