医薬品評価委員会 機械学習始めました。

データサイエンス部会

2020年5月

本報告書では、製薬企業に関わる広い意味でのデータサイエンティストがデータ解析や臨床データを含む身近なデータを用いたサービスの開発に機械学習及びそれによるAIを用いる場面を想定して、企画、データの加工、機械学習の実行について実際のデータを用いて紹介する。また、AIの開発で大きな障害となる学習データの量及び質の不足を補うデータを増やす方法及び、深層学習については、学習済みモデルを利用する方法を紹介する。深層学習をはじめから行うのはデータ確保の困難さから本書では扱わないこととした。
「第1章 機械学習を含むプロジェクト」では、機械学習を利用する場合に通常のシステム開発とは異なる点について概観している。「第2章開発データの入手、加工(アノテーション)」及び「第3章学習のためのデータ分割と学習方法」では、データの入手、増やし方、データの加工方法、機械学習のためのデータの分割まで、第4章及び第5章で用いている方法を含めて説明している。「第4章臨床試験データやRWDに機械学習を活用する実装例」では、インスリンを使用する糖尿病患者の血糖値などのデータを用いて、実際に機械学習を行い、サービスに用いるまでを詳細に紹介している。そして「第5章学習済みモデルの利用に関する解説・実用例の紹介」では学習済モデルを改修して流用する転移学習及びファインチューニングの概念と実際を画像及び自然言語の事例を用いて紹介し、本書で行った機械学習についてはプログラムコードを添付している。いずれも最先端の手法や事例ではないが、その分、オープンソースのライブラリなどが充実しており、WEB上には参考となる情報も多くある。興味を持った読者はとりあえず身近で簡単なこと(例えば、ロジスティック回帰分析を単層のニューラルネットワークで実行する)から始めてはいかがだろう。本書が製薬企業の特に臨床開発から市販後の場面において機械学習の手法を利用しようとするユーザーの後押しになれば幸いである。

日本製薬工業協会 医薬品評価委員会 データサイエンス部会
タスクフォース1 Machine Learning Team

機械学習始めました。(6.5MB)

このページをシェア

TOP