フューチャー技術ブログ

Future Tech Night #17 embeddingを用いた分析・検索・推薦の技術

はじめに

こんにちは。Strategic AI Group所属の金子剛士です。

2021年11月26日にFuture Tech Night #17「embeddingの活用」と「MLOps」のAI勉強会を開催し、「embeddingを用いた分析・検索・推薦の技術」というタイトルで発表しました。

当日の勉強会の様子はYouTubeで公開しており、発表スライドも公開しています。

発表の概要

深層学習のモデルは画像や自然言語に対して高い精度の予測を行うことが可能ですが、その処理の過程で様々な意味を含んだベクトル(=embedding)を作ります。これを活用することで、どのデータとどのデータが意味的に似ているかを計算し分析できるようになります。

本発表の前半では学習済みの自然言語モデルを用いて技術ブログの文章をembeddingに変換し、類似記事の検索や記事のクラスタリングを行いました。embeddingを活用することで、過去の類似記事やタグを効率的に探すことができ、かつ意味的にクラスタリングすることで記事の傾向について考察できました。これと同様の分析は画像やログデータのデータベースにも適用可能で、人の手で付与したラベルやカテゴリを越えた多くの気づきを与えてくれます。

本発表の後半ではgensimや対照学習によるembeddingを作成するモデルの学習方法や、embeddingを高速に検索するための近似近傍探索といった最先端のトピックを紹介しました。ログデータからのembeddingを学習・分析は医薬品副作用データベースから医薬品同士の関係を学習・評価・可視化するの記事で紹介したこともありますが、例えidだけでもログデータを用いて適切に学習すればそれだけで意味のあるembeddingを学習でき、かつ深層学習モデルをスクラッチで組めばデータのカテゴリ情報や画像・言語情報も考慮したうえでデータ同士の関係性を分析できます。また、Vertex Matching Engineにも採用されている、コサイン類似度に適した近似近傍探索手法のScaNNについても紹介・実験を行いパフォーマンスを比較しました。

まとめ

普段自身で研究していたembedding関連の技術の一部をTechNightの場を借りて発表させていただきました。多くの方から反応をいただき嬉しかったです。また、参加者の方とのdiscussionでよりembeddingに関連した技術の幅を広げられました。感謝しております。

深層学習を通じて得られるembeddingには多種多様な可能性があり、非常にホットな分野です。
今後も動向を追いつつ、社会実装を行っていきたいと思います。