はじめに

みなさんはじめまして。フューチャー株式会社の佐良と申します。

普段はStrategic AI Group (SAIG)の一員として、主にAI-OCRサービス事業を中心に携わっています。

この度は、2024年8月6日(火)〜8月9日(金)において熊本城ホールにて開催されました第27回画像の認識・理解シンポジウム(MIRU2024)に参加してきたので、その様子を報告します。

当社はシルバースポンサーとして、SAIGから7名が参加しました。
学会期間中は発表の聴講に加えて、スポンサーブースを出展し、学会に参加している学生や他企業の方々と交流を行いました。

画像の認識・理解シンポジウムとは

画像の認識・理解シンポジウム（MIRU）は、画像の認識と理解技術に関する国内最大規模の会議です。今回の開催で27回目となり、ポスター発表件数も629件と過去最多となっていました。

個人的な感想としては、口頭発表が1つの会場のみで実施されていたため、興味のある発表の時間が被って聞き逃すといったことがなく非常に助かりました。

スポンサーブース

スポンサーブースでは、画像処理に関わる案件にとどまらず、SAIGで取り組んできた様々なAI案件を中心に実績を紹介しました。

ブースにお越しいただいた方々には、当社がITコンサルティング会社であるという強みを活かして、画像処理だけでなく幅広い分野での実績があることに興味を示してくださる方が多かったです。

発表聴講

参加メンバーのそれぞれが聴講した発表の中で印象に残ったものについていくつか紹介します。

[OS-1E-09] Human-drawable and Interpretable Adversarial Attack

この研究では、人間が解釈可能な敵対的攻撃を得るために、人間が落書きとして再現しても誤分類を発生させるような敵対的攻撃の生成手法を提案しています。

従来の敵対的攻撃に関する研究では敵対的攻撃の解釈性よりも、どれだけ誤認識を引き起こせるか・どれだけ知覚しづらい攻撃かに主眼を置いており、結果として画像分類器が何故誤分類したかの理由について洞察を得ることが難しいという課題がありました。
本研究では、”敵対的落書き”と命名された人間がフリーハンドで再現可能な攻撃手法を提案しています。”敵対的落書き”はベジェ曲線の集合であり、入力画像にベジェ曲線の集合を重ねたものをモデルの入力とし、モデルが入力画像をターゲットクラスに誤分類するようにクロスエントロピー損失をとり、これを元にベジェ曲線のパラメータを最適化しています。本研究内の実験では、敵対的攻撃を成功させるために最適化されたベジェ曲線の集合を人間が真似して同じクラスの別画像に落書きをしたところ、モデルが同様の誤認識をすることを確認しました。

ユニークなアプローチで解釈性のある敵対的攻撃を実現したところが非常に興味深かったです。落書きもシンプルなもののみで構成されているため、敵対的攻撃が成功したものを人間が洞察し特徴を把握することを可能としていました。人間が再現して同じ誤りを引き起こすことに成功していることから、モデルの解析にも応用可能な技術と感じました。(勝村)

[IS-2-051]:Symmetry breaking in parallelized MLP-Mixer

多層パーセプトロンのみを用いて、Attentionと同等の精度を出したMLP-Mixerの重みの対称性の破れと精度の関係についての研究です。
Hopfield-NetworkはCNNなどにみられるfeed-fowardなモデルではなく、実際の脳を模した神経学的なモデルです。
古典的なHopfield-Networkは解析的な解をもち、重み(相互作用)は単純な計算で求まります。これに対し、モダンなHopfield-Networkを3層重ねたものは解析的でない、非自明な解をもちます。この研究では、非自明かつ最もシンプルなネットワークとして、このモデルに着目しています。

通常、パーセプトロン間のエネルギー関数(コスト関数)の相互作用は、対称性をもちます。それに対し、今回のモデルには対称性を壊すようなパラメータを導入し、対称性の破れ具合と精度の関係性を調べています。

その結果、対称性の破れていないモデルでは精度があまり出ないことが分かりました。

つまり、今回のParallelized　MLP-Mixierの精度において対称性の破れが寄与しているという考察が得られます。これは、実際の脳のニューロンの相互作用が、対称性を持たないことに対してもコンシステントな結果であり、非常に面白いです。(発表者から聞いたのですが、ちゃんとしたソースは見つからず・・・)(市村)

[IS-2-150]:非言語依存なフォントスタイル変換へ向けて

未学習のフォントスタイルを用いて、未学習フォントを変換する手法を提案した研究です。学習済のフォントスタイルで未学習・学習済のフォントを変換する手法は、過去に研究されていましたが、変換元・変換先両方で未学習の手法は提案されていませんでした。

この研究では、フォントのスタイルの特徴を抽出するモデルと、フォントの生成部分をわけ、スタイル抽出分を工夫したことに新規性があります。

まず、第一段階としてスタイル抽出器にフォントが同じか異なるかを判定するモデルを結合し、事前学習します。その後、フォントの言語依存性を無くすために、後続に言語を判定するモデルを結合させ、学習を進めます。この時に言語情報が学習されるため、逆勾配を特徴抽出器にかけ、言語とは関係ないスタイルの本質を学習します。

この手法を用いることで、未学習スタイルで未学習フォントを変換することに成功しています。実際に画像を構成する要素として、いくつか軸が考えられますが、本質的に学習したい軸とそれ以外を分けて学習をするときに広く使える手法と考えられます。シンプルな構成ながらも発想が素晴らしい研究です。(市村)

[OS-1B-05] SimGlue: スケールや回転変化の大きい画像ペアに対するTransformerを用いた特徴点マッチング

特徴点マッチングによる画像内のパターン抽出において、特徴点の特徴ベクトルを座標系を正規化したうえで求めることで、スケールや回転角の大きく異なるようなケースにおいても高精度な特徴点マッチングを可能とする手法を提案する研究でした。

従来の Transformer 系の位置エンコーディングは特徴点の位置座標に基づいており、スケールや回転角が大きく異なるとマッチすべきふたつの特徴点に対応する特徴ベクトルに全く異なる位置関係がエンコーディングされてしまい、マッチングに失敗するという問題点がありました。

そこでこの研究では、特徴点集合の座標の情報のみから回転中心、回転角、スケールを求め、それらを用いて正規化してから位置エンコーディングを行うことで上記の問題を回避していました。オブジェクトが画像のどこにどの向きで置かれているか、といったような問題はそこまで突飛でもないように思うので、これに対する古典的な手法としてどのようなものがあるのか、およびこの研究の手法がそのような問題にどの程度強いのか、などは気になりましたが、シンプルでありながらかなり妥当な手法に感じました。画像内から完全一致でなくとも似ているパターンを抽出する、といったような問題は様々なところで頻出かつバリエーションも豊富なので、方針や手法など参考になる部分の多い研究と感じました。(久保田)

[IS-1-079] 馬術における動作認識手法の比較と評価

本研究では、馬術競技における動作認識の課題を明らかにし、既存の人間動作認識手法を馬術に適用する試みを行いました。

馬術競技では運動の正確性が採点に重要であり、コンピュータによる動作認識が有用ですが、既存の手法は人間を対象としており、馬を主体とする馬術には適用が難しいです。

本研究では、馬術のデータセットを作成し、RGB画像、オプティカルフロー画像、関節位置ヒートマップの3つのモダリティを用いて動作認識の性能を評価しました。その結果、RGB画像とオプティカルフロー画像は同程度の精度を示したが、関節位置ヒートマップはやや精度が劣ることが判明しました。また、馬が正面または後ろを向いている場合や四肢部分にノイズがある場合に認識が失敗しやすいことが分かりました。今後は、これらの課題を解決することで、実用的なモデルの構築が期待されています。

馬術という新しい領域において人間の動作認識に用いられている既存のモデルを用い評価を行った興味深い研究であると感じました。正面から見た際に四肢が重なって見えるなど、人間とは異なる馬ならではの課題を明確にできたこと、独自でデータセットを作成したことも高く評価できる部分だと思います。(長山)

[IS-2-038] 演奏音復元のための手書き邦楽譜文字認識

独自文字や記号が使用される手書き邦楽譜における文字認識の精度向上を目指し、物体検出技術を応用して文字認識を行う研究です。
対象のデータは、数字・漢数字・記号といった異なる属性の文字を含んでいることから，手法としては多ラベル分類モデルと物体検出モデル（YOLOv8）を用いた二段階の文字認識を提案しています。

YOLOv8の単体手法と比較しても、本研究で提案している二段階での文字認識が数値的にも上回る結果となっています。まずは種類を大別することにより、各文字の種類のデータの偏りが減ったことが考えられ、後にそれらに特化したモデルで判別することへの恩恵があったと感じました。

全体的なスループットにどう影響するか等は気になりますが、複雑で難しいタスクにおいて、異なる属性で大別してからより特化したもので読みに行くという手法は有用だと感じました。(鈴木)

[IS-2-111] Erasing Scene Text with Foundation Models

風景画像に映り込んだ文字領域を特定し、その領域を修正することで、文字を自然に削除する研究です。タスクとしては大きく2つに分かれており、（1）文字領域の特定、（2）特定箇所の修正によって構成されています。文字領域の特定においては、文字を囲う bounding boxの特定後、segmentationモデルを利用し、より正確な文字のストロークに沿ったマスクを取得することで、より忠実に背景領域の情報を保持します。修正フェーズでは、拡散モデルベースの手法を複数比較しています。

実験結果のうち興味深かったのが、この修正フェーズでのモデルごとの挙動の違いでした。単純に文字領域を消去し、代わりに背景と同色系に置換するモデルもあれば、その領域が文字領域であることを理解し、別の文字(っぽい形)を生成するモデルも存在しています。

文字に限らず、コンテキスト情報をコントロールした画像生成・変換手法の扱いを考える良い例になる研究であると感じました。(菅野)

[IS-1-182] Cross-Lingual Learning in Multilingual Scene Text Recognition

この研究では、STR（Scene Text Recognition）における、CLL（Cross-Lingual Learning）について、CLLの一般的な洞察がSTRのタスクにも適用されるかを広域的な実験を通じて調査しています。

一般的に、CLLでは(1)高リソース言語と低リソース言語を共同学習することで、低リソース言語の性能が低下する可能性がある、(2)共同学習は類型論的に類似した言語間で最も効果的に機能する可能性がある、という2つの洞察が存在します。しかしながら、本研究では複数の言語を用いたCLLの広域的な実験を行うことで、これらの一般的な洞察がSTRには適用されないことが示されていました。

また実験を通じて、言語間の形状的類似性についてもSTRのCLLでは重要ではなく、真に重要であるのは言語の種類ではなく学習に用いる高リソース言語のデータ量であることが示されています。

直観的には言語の文字の形状が似ていることが学習にはポジティブに働きそうに感じていましたが、本研究ではそうではないと示されており非常に興味深かったです。また、言語情報を取り入れることができるようなマルチモーダルなモデルだとどのような結果になるのかも気になりました。(佐良)

おわりに

本記事では、MIRU2024の参加記録を執筆させていただきました。

私自身が学生時代は自然言語処理の研究に携わっていたこともあり、画像処理系の学会に参加するのは今回が初めてだったのですが、興味が引かれる研究がたくさんあり、非常に楽しい学会期間を過ごすことが出来ました！

発表の中では、近年のLLMの発展の影響もあり、画像処理+言語処理のマルチモーダルな研究も多く見られた印象があります。LLMとのシナジーで画像処理分野の研究がどのような方向に発展をしていくのか非常に楽しみです。

SAIGでは技術と業務の両輪でAIの実社会応用を推進していく仲間を募集しています。
興味のある方、ぜひ一緒に働きましょう！

新卒採用 : https://www.future.co.jp/recruit/recruit/rec-fresh/
キャリア採用 : https://www.future.co.jp/recruit/recruit/rec-career/

熊本グルメも堪能しました。↓写真は馬肉

画像の認識・理解シンポジウム（MIRU2024）参加報告