本記事は「珠玉のアドベントカレンダー記事をリバイバル公開します」企画のために、以前Qiitaに投稿した記事を一部ブラッシュアップしたものになります。

はじめに

最近は鶏胸肉弁当のバリエーションを増やすことに情熱を捧げている、HealthCare Innovation Groupの山本です。

今回はリバイバル企画ということで、2022年12月に書いた「画像生成AIは医療の未来を創れるのか？」の記事から、時代の流れを追ってセルフリバイバルします。

2年弱の時が過ぎ去ったわけですが、果たして画像生成AIは医療の未来を作れたのでしょうか？あるいは、より広い医療の未来を作れるようになったのでしょうか？

画像生成AIの歴史

医療における画像生成の話をする前に、直近の画像生成AIのトレンドを振り返ってみます。

以下に、代表的なものを一部だけ抜き出してみました。

時系列	技術・サービス名称	概要
2013.12	VAE	データの潜在表現を学習し、デコーダーで類似画像のを生成する
2014.06	GAN	Genarator(生成ネットワーク)とDiscriminator(識別ネットワーク)の2つで敵対的学習をさせることで、高品質画像生成にアプローチ
2018.12	StyleGAN	GeneratorとDiscriminatorを段階的に追加することでより高品質画像生成を可能に
2021.02	CLIP	テキストと画像のペアから学習した、マルチモーダルモデル。事前学習モデルとして活用可能
2022.04	DALL-E2	CLIPとVAEを使用することで、テキスト指示で画像を生成可能に。個人のサービスとして利用可能
2022.07	Midjourney	テキスト指示で画像を生成可能に。個人のサービスとして利用可能。
2022.08	Stable Diffusion	CLIP、U-Net、VAEなどを組み合わせた拡散モデルの画像生成
2023.02	ControlNet	拡散モデルを制御するためのニューラルネットワーク。追加の入力条件に対応させることなどが可能に
2023.03	Adobe Firefly	Adobe性のtext2imageのモデルおよびサービス
2023.07	SDXL(Stable Diffusion XL)	Base, Refinerという２層構造でより高画質に生成可能に
2023.09	DALL-E3	DALL-E2から更に高画質な出力が可能に。拡散モデルを適用
2024.02	Stable Diffusion3	Stable Diffusionの最新モデル

2014年ごろにはVAE、GAN、CLIPなどが代表的なトレンドとして挙げられると思います。(犬猫の画像をGANで生成してわいわいしてた時代が懐かしいですね。。)

そこから、これらの技術を組み合わせて改善する他に、大きなトレンドとしてStable Diffusionなどのような拡散モデルの進出が挙げられると思います。

これは、高品質な画像生成が可能になったほか、text-to-imageの技術が成熟してユーザーがテキストで画像生成の指示を与えられるようになったことが大きなインパクトであると思います。更には、ユーザーがWeb上で使用可能なサービスとして提供されたことで一般ユーザーに普及が広がりました。

前回記事を書いた2022年ごろは、まさにこれらの技術・サービスが爆発的に拡大した黎明期といったイメージでした。
今に至るまでの差分を振り返ると、更にユーザーライクに、高品質に出力できる画像生成AIが活用されるようになったのではないかと感じます。

また、画像生成AIだけでなく、2024年にはSoRAに挙げられるような動画生成AIのモデル・サービスの進出したことがあると思います。

技術の進歩もここまで極まれり、という感じですね。

医療×画像生成AIを調べてみる

ここからは、リバイバル企画の本題に入っていきます。2022年12月に記事を執筆した際には、以下のような論文やユースケースを私は調べていたようです。

GANによる脳腫瘍画像データ合成

Brain tumor image generation using an aggregation of GAN models with style transfer

Paper: https://www.nature.com/articles/s41598-022-12646-y

この論文では、公開されている２つの脳腫瘍データセットを学習データとして、AGGrGANというGANベースの画像生成手法を提案しています。

この手法の特徴としては。３つのGAN(レイヤーを変えたDCGAN、WGAN)で生成した３つの画像から、SSIM(２つの画像の類似度)を評価とし２つの画像を選択、合成した後に、学習済みのVGG-19ネットワークを用いてスタイル転送することで画像を生成しています。