言語処理学会 (NLP2024) でポスター発表を行いました

はじめに

みなさんこんにちは！フューチャー株式会社の岸波と申します。学生時代は自然言語処理、特に雑談対話システムの研究をしておりました。フューチャー入社後はStrategic AI Group (SAIG) の一員として、主に自然言語処理に関する研究開発や社会実装に取り組んでいます。

先日、言語処理学会第30回年次大会 (NLP2024) に参加し、当社で取り組んだ研究内容についてポスター発表を行いました。

言語処理学会は自然言語処理分野における国内最大の学会で、ChatGPTをはじめとする大規模言語モデルが大きな注目を集めていることもあり、今年は参加者数・発表論文数が過去最多となりました。

当社はプラチナスポンサーとして参加し、スポンサーブースも出展しました。学会全体を通しての参加報告については言語処理学会 (NLP2024) 参加報告にまとめていますのでぜひお読みください！

このブログでは、主にポスター発表を行った研究の内容と、当日の発表の様子についてご紹介できればと思います。

発表内容

今回私たちは「機密情報検知における生成AIを用いたデータ拡張」というタイトルで発表を行いました。研究の概要としては、文章中から機密情報 (この研究では企業名) を検知するタスクにおいて、生成AIを用いて事実性に捉われない多様なデータ拡張を行うことで、企業名の検知精度が大幅に向上したというものです。

日々新しい企業が誕生したり、既に存在する企業が新しい事業を展開したりと、企業に関する事実というのは永続的に増えていくものです。そのため、そのような新たに発生した事実に関しても、機密情報は機密情報として検知される必要があります。そこで、機密情報検知モデルを学習するためのデータは現時点で事実として正しいものに限定すべきではないのではないか、というアイデアのもと、事実性に捉われないデータ拡張手法を提案しました。

具体的には、ある企業名を含むような文脈を生成AIを用いて増やす手法、架空の企業名を生成AIを用いて増やす手法の2つを提案しています。生成AIが事実に反する内容を生成してしまう現象、いわゆるハルシネーションを逆手に取った手法です。

これらの手法でデータを拡張し、拡張したデータセットで機密情報検知モデルを学習した結果、企業名検知タスクのF1スコアが最大2.5％向上する結果が得られました。

発表資料はこちらです。

機密情報検知における生成AIを用いたデータ拡張の概要、背景、本研究のアイデア、提案手法、実験

この研究で特に面白いと思っているポイントは以下の2つです。

1つは幅広い応用の可能性があることです。今回は企業名の検知に着目しましたが、提案している事実性に捉われないデータ拡張は、他の機密情報 (例えば人名など) のデータ拡張にも簡単に適用できます。また、同様の考え方で文書分類や機械翻訳など、他の自然言語処理タスクにも応用できるかもしれません。

そしてもう1つは、人間が行うには少し難しいデータ拡張を生成AIを用いて行える可能性を示している点です。例えば「ユートピア食品」などの架空の企業名を考えるのは、数十個程度なら頑張ればできるかもしれないですが、数百・数千と大量にリストアップすることは人間には少し難しい作業です。それを生成AIを用いて行うことで、低コストでデータを拡張できるのは嬉しい話です。さらにこういったデータが実際に精度向上にも寄与するという点も面白いと感じています。

当日の様子

ありがたいことに発表当日は多くの方にポスター会場へ足を運んでいただき、コメント・アドバイスをいただくことができました。以下はいただいたコメントの抜粋ですが、この他にも今後の研究に繋がるコメントを多数いただくことができ、大変有意義な時間でした。

今までにない新しい考え方のデータ拡張だと感じた。それでいて性能も上がっており今後の可能性を感じた
他のデータ拡張手法との組み合わせや、拡張するデータ量の観点での分析ができそう
今回は企業名に着目しているが、同じ固有表現でも文脈に応じて機密情報ではなくなるケースや、そもそも固有表現ではない機密情報もあると思う。今後企業名以外に拡張していくうえで色々な展開がありそうだと感じた