フューチャー技術ブログ

第20回言語処理若手シンポジウム (YANS2025) 参加報告

はじめに

はじめまして。フューチャー株式会社の肥合と申します。私は2025年1月に入社し、現在はStrategic AI Group (SAIG) に所属し、主に自然言語処理 (NLP) に関する業務に携わっております。

2025年9月17日(水)から9月19日(金)にかけて開催されたYANS2025に参加しましたので、その様子をご報告します。当社はプラチナスポンサーとして参加しており、スポンサーブースでの会社紹介やポスター・チュートリアルの聴講などを行いました。

言語処理若手シンポジウム (YANS) とは

YANSは、NLPおよびその関連分野の研究発表が行われるシンポジウムです。若手の相互交流や研究推進をはかり、培われた研究開発の成果が実社会に応用されることを奨励し、学問および産業の進歩発展に貢献する目的で、年に一回開催されています。例年、ハッカソンやチュートリアル、ポスター発表等様々なプログラムが開催されています。

今年で20回目の開催となる本シンポジウムは静岡県のアクトシティ浜松にて開催されました。「研究と実装をつなぐ自然言語処理」をキーワードとして、自然言語処理分野の研究から実社会への実装をつなぐことをテーマに実施されました。参加・発表ともに過去最多の570名の参加と257件の発表となったとのことで、会場は大盛況でした。

1000001125_clipped.jpg

スポンサー参加

フューチャーはプラチナスポンサーとして参加し、主にスポンサーブースでの会社紹介をしました。ブースに来られた方々に、当社のNLPやAI関連の取り組みについてご紹介させていただきました。

ノベルティとしてパンフレットと当社のロゴ入りの扇子を配布させていただいたのですが、ご好評いただき、扇子が早々に品切れとなりました。当社の取り組みについて多くの方に知っていただく機会になったと思います。改めてブースに足を運んでくださった皆様に感謝申し上げます。

IMG_7410_clipped.jpg

スポンサー賞

当社のスポンサー賞には [S4-P18] CEFRに基づく文難易度を連続的に制御可能なテキスト平易化 の発表を選定させていただきました。この研究は、テキストの難易度を連続値で制御できる平易化モデルを提案するものです。従来手法は目標の難易度を段階的(離散的)にしか指定できませんでした。本手法では難易度をベクトルの長さで表現し、連続値で制御します。

選定理由は以下の通りです。

まず「LLMの出力品質をコントロールしたい」というモチベーションが非常に明確で分かりやすい点を高く評価しました。さらに、先行研究が離散的な制御に留まっていた中で、それを連続値で扱えるようにした技術的な新規性も素晴らしく、「子供新聞の見出し作成」といった具体的な応用例にも大いに期待が持てます。発表当日は丁寧な導入から分かりやすく解説いただき、その真摯な発表姿勢も受賞を決定づける大きな要因となりました。

副賞として、開催地にちなみ、浜松うなぎと浜松餃子を贈呈させていただきました。

発表紹介

スポンサー賞の他に、当社から参加したメンバーが特に面白いと感じた発表をいくつか紹介します。

[S4-P10] 大規模言語モデルにおける文化理解のニューロンレベル分析

この研究では、大規模モデルの文化理解のメカニズムについて分析しています。文化理解に寄与するニューロンを特定し、メカニズムを分析しています。

文化全体の理解に寄与するニューロン(文化全体ニューロン)、特定の文化理解に寄与する(個別文化ニューロン)を特定し、分析を行っています。実験の結果、文化全体ニューロンについては、マスクすると文化ベンチマークの精度が低下することが示されています。また、個別文化ニューロンについては、マスクするとその文化の問題に対する精度が低下するだけではなく、地理的・歴史的に近い文化の問題の精度低下も大きいことが示されています。(例:メキシコ文化のニューロンをマスクすると、歴史的に関係のあるスペインの問題も精度が大きく低下)

個別文化ニューロンに関する実験が特に興味深く、様々な観点からも検証を行っており、今後の展開に期待ができる研究だと思いました。

[S4-P27] 物語性が大規模言語モデルの記憶再生に与える影響の検証

この研究では、人間の記憶研究においてストーリー性のある文章は干渉に強く、要素の羅列は干渉に脆弱という背景から、文章の物語性に着目し、LLMにおいても物語性の違いによって記憶保持能力に差が生まれるのかを検証しています。

実験では小説風の高物語性の文、箇条書き形式の低物語性の文のいずれかを提示したうえで、その文について場所や時間などに関する質問の回答を生成するQAタスクを用意し、意味のない文を与えるなどの干渉条件の元でQA性能がどう変化するかを調査しています。

実験の結果、高物語性の文を提示すると人間同様に干渉に対して頑健であり、一方で低物語性の文では干渉に弱いことが示されています。物語性というユニークな着眼点で実際に人間と同様の傾向が見えるという興味深い結果が得られており、また実験設定やデータセットの拡張によってさらなる知見獲得の可能性を秘めていることから、今後の展開に期待できる発表だと感じました。

[S4-P33] 視覚言語モデルを活用したWebフロントエンドコード生成におけるデザイン忠実度の改善

この研究では、入力画像のデザインを忠実に反映したWebサイトを生成するためのVLM学習手法を検討しています。
従来より、Webサイト画像と当該サイトを生成するコードのペアを用いた教師あり学習は提案されてきましたが、本研究では生成コードのレンダリング結果を視覚的に正解と比較することで、デザイン忠実度の改善を図っています。

具体的にはGRPO (Group Relative Policy Optimization) を用いて、配色や要素の位置が正解と似ている生成結果を選好するように最適化することで、モデルの生成するコードがどのように変化するかを検証しています。

昨今、Code LLMsのケイパビリティは急速に拡大していますが、デザインに関する部分は未だ、比較的苦手としている印象があります。
これに対する一つの理由としては、正しさの評価が困難である、という点が挙げられます。実際に、本研究では、テキスト要素に着目した結果、それ以外の箇所における忠実性の低下が見られたことも触れられています。忠実性をどのようにモデリングするか、今後の展開に期待できる研究だと感じました。

[S1-P13] 多目的問題でのGRPOにおける報酬ハッキングの緩和について

この研究は、GRPOで複数報酬を最適化する場合の課題である報酬ハッキングの緩和に取り組んだものです。GRPOは、文章生成モデルの学習において、複数の候補を生成し、報酬関数で点数づけして、相対的な良し悪しで学習をすすめる強化学習の一種です。GRPOの課題として、複数の報酬関数を適用する際に、一部の報酬だけに過剰に最適化し、 他の報酬を犠牲にしてしまう報酬ハッキングがあります。この研究では、各報酬関数の正規化によって、バランスの良い学習に寄与するMO-GRPOを提案しています。

機械翻訳タスクでの評価実験において、読みやすさの評価指標 (jReadability) と翻訳の評価指標 (BLEURT) を報酬関数とした訓練をした結果、GRPOではjReadabilityが向上、BLEURTが低下した一方、提案手法では両方の指標でバランスの取れたスコアを達成し、評価用の別指標 (GPT-Eval) でも高精度となりました。
複数の観点で同時に良くしたいという状況は普遍的なもので、そこに取り組んだシンプルかつ実用的な研究だと考え、この研究を挙げさせていただきました。

おわりに

YANS2025は、過去最多の参加者・発表件数の、非常に密度の高いシンポジウムでした。ポスターセッションをはじめ、会場の各所で活発な議論が交わされており、大変良い刺激を受けることができました。ポスター発表で議論させていただいた皆様はもちろんのこと、スポンサーブースや懇親会などの企画で交流させていただいた皆様、そしてこの盛況な場を準備・運営してくださった運営・委員の皆様にも心より感謝申し上げます。今後もぜひ、このような活気ある場に参加し続けていきたいと考えています。

現在SAIGではともに働くメンバーを募集しています。特にNLP分野における社会実装のニーズは根強く、多くの仲間を必要としているところです。キャリア採用ページではシニアNLPエンジニアをはじめ、NLPリサーチエンジニア及びNLPエンジニアも同じく絶賛募集中です。条件等応相談ですので、我こそはという方は是非先のリンクよりご応募をお待ちしております。

ほかにも幅広く新卒採用およびキャリア採用を募集中です。興味のある方は是非一緒に働きましょう。よろしくお願いします!