医療画像は、機械学習でよく用いられるImageNetなどの現実世界における画像とは特徴が大きく異なる。例えば、レントゲン写真などの白黒画像、対象とするものが写真中に少ししかない、ドメインが大きく異なる(特徴が局所的)、解像度が高いなどが挙げられる。そのため、「最先端機械学習技術の医療画像応用」のテーマでは、ImageNetでSOTA(State-of-the-Art)をとったモデルや最新の論文に記載された機械学習手法に対して、医療画像に適用させられるかを検証していく。
第1回は、ドメインが大きく異なり、ImageNetなどのビッグデータが医療用画像では存在しないことへの解答になりうる、Kataoka et al.(1)という論文のデータセットを医療画像に用いてみた。
1.始めに
Kataoka et al.(1)は数式駆動型教師あり学習についての論文である。数式によって生成された画像は、プライバシー/著作権の問題、ラベリングコストと誤差および偏見といった実画像が持つ問題を回避することができるため、非常に大きな潜在能力を持っていると考えられている。この論文では、輪郭により焦点を当てたデータベースRCDBと3次元フラクタル画像のランダムな視点から2次元平面への写像をとった画像データから構築されたデータベースExFractalDBを作成し、それらを用いて事前学習を行い、ファインチューニングした際の精度をImageNet-21kと比べている。結果として、ImageNet-21kの事前学習済みモデルと比べてRCDBまたはEXFractalDBを用いた事前学習済みモデルは同等以上の精度が得られている。
今回は数式駆動型教師あり学習の医療画像データに対する有効性を検証するため、RCDBとExFractalDBで事前学習済みのモデルを用いて胸部X線画像の分類を行った。
2.方法
実画像データセットImageNet(2)、合成画像データセットRCDB(1)及びExFractalDB(1)それぞれで事前学習したVision Transformer (ViT)のDeiT(3)と事前学習を行わなかったランダムな重みパラメータのDeiTで、医療画像データの予測がどの程度変わるかを検証した。事前学習済みモデルについては配布されているモデルを使用した。医療画像データはアメリカ国立衛生研究所が提供する胸部X線画像データセット(NIH Chest X-rays(4))を用いており、データを学習用とテスト用に分け、疾患ありとなしの2値分類を行い、事前学習に用いた各データセットの違いによる学習結果の違いを評価した。学習は50epochまでとし、その中で検証用データに対する精度が最も高い重みをテストデータで使用した。
3.結果
テストデータ25596枚に対する予測結果から混同行列を作成し、accuracy、マクロ平均precision、recall、f1-scoreの精度を算出し、事前学習に用いたデータセット別に結果を比較した。50エポック学習した結果としてはImageNet、RCDB、ExFractalDBで精度差は見られず、事前学習なしのモデルよりは精度が高いという結果が得られた。
モデルによって事前学習の有無の違いがあるため、収束速度(学習時間)についてImageNet、ExFractalDB、事前学習なし(Random)の比較を図2に示した。50epochという範囲において、収束速度として最も早いのはImageNetであり、他モデルに関しては50epochの範囲では差がみられない。ExFractalDBとImageNetを比べると初期値はほぼ同程度で収束速度の違いでImageNetの方が精度の改善が早い結果となった。また事前学習なしのモデルとExFractalDBを比べると精度に関しては収束速度に差はないように見えるが、初期精度の差でExFractalDBの精度は事前学習なしのモデルよりも高いことがわかる。
図1. 事前学習済みデータセット毎の混同行列
表1 事前学習済みデータセット毎の精度
図2. 収束速度(学習速度)の比較
4.議論
M.Raghu et al.5によれば医療画像においてImageNetの転移学習は分類精度向上に寄与しないが、収束速度は早くなるとある。図2の結果はその傾向を表しているデータと考えられる。50epoch以降も学習を進めればRandomもImageNetと同程度になる可能性はあるが、ExFractalDBを使った方が事前学習なしのモデルに比べてImageNetの事前学習済みモデルと同程度の精度になる速さは早かった。
ImageNet、RCDB、ExFractalDBの間で、どの評価指標の値も大きな違いは見られず、数式から作った合成データを用いるだけで、ImageNetと同等の精度が得られたことが言える。ImageNetからの転移学習と比べてepoch数は増えるが、ExFractalDBはImageNetと同程度の精度になる可能性を医療画像でも確認できた。この事からも、医療データに適した合成データを作成する数式を開発することで、さらに良い結果が得られる可能性がある。
参考文献
1 Kataoka, Hirokatsu and Hayamizu, Ryo and Yamada, Ryosuke and Nakashima, Kodai and Takashima, Sora and Zhang, Xinyu and Martinez-Noriega, Edgar Josafat and Inoue, Nakamasa and Yokota, Rio, “Replacing Labeled Real-Image Datasets With Auto-Generated Contours”, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June, 2022, 21232-21241
2 Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. 2009. ImageNet: a large-scale hierarchical image database. IEEE Conf. CVPR.
3 Seyed Ali Jalalifar and Ali Sadeghi-Naini. 2022. Data-Efficient Training of Pure Vision Transformers for the Task of Chest X-ray Abnormality Detection Using Knowledge Distillation. 44th Annual International Conference of the IEEE EMBC.
4 Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, Ronald Summers, ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, IEEE CVPR, pp. 3462-3471, 2017
5 Maithra Raghu, Chiyuan Zhang, Jon Kleinberg, Samy Bengio, Transfusion: Understanding Transfer Learning for Medical Imaging, arXiv:1902.07208