【目的】医療データにはしばしば欠損値が存在する.欠損値は検査機器の故障や人為的ミス,その他様々な理由により発生する.医療データにおける欠損値は解析の大きな障壁となり,解析精度の低下や,結果にバイアスをもたらすことが危惧される.したがって,欠損値に対しては除去ないし代替値による補完処理を施す必要がある.この課題に対し本研究は,時系列医療データに対する多様な欠損に対応した,AIによる補完モデルの構築を目的とする.そこで,生成AIの一つである拡散モデルと,時系列データを扱うのに適した状態空間モデルを組み合わせたSSSDによる欠損値補完に取り組む.時系列医療データの一つに心電図がある.心電図は,患者の年齢に依存し,身体の成熟度を反映した特性をもつ.先行研究であるSSSDS4は,比較的安定して得られる12誘導心電図の欠損値に対して優れた補完性能を示した.一方で,推論時間は検討されておらず,様々な現場での応用について考慮すると,リアルタイム性が重要だと考えた.よって本研究では,時系列医療データに対する拡散モデルに基づいた欠損値補完の効率化を図り,その有効性を検証した.
【方法】SSSDS4における状態空間モデルを効率化したSSSDS4Dを提案し,インターネット上で出典元が利用および加工を許可している心電図データを用いてSSSDS4とSSSDS4Dそれぞれを学習して,推論時間および補完精度を比較した.データは訓練用,検証用,評価用に分割した.学習は訓練用に対して欠損位置および欠損率などの設定を変更した複数の条件で実施し,評価用に対する欠損値補完の精度で評価した.評価指標として平均二乗平方根誤差(RMSE)を用いた.
【結果・考察】SSSDS4とSSSDS4Dの評価用に対するRMSEはそれぞれ0.248,0.252となり,どちらも優れた補完性能を示した.また,平均の推論時間について,SSSDS4は126秒,SSSDS4Dは28秒となった.よって,SSSDS4Dは補完精度をおおよそ維持しながら,推論時間を75%程度削減できることが確認できた.これは,効率化した状態空間モデルにおいても,時系列医療データの性質を適切に捕捉したためと考える.
【結論】SSSDS4における状態空間モデルを効率化したSSSDS4Dを提案し,時系列医療データとして,12誘導心電図を学習した.SSSDS4Dは従来手法と同等の精度で欠損値補完ができ,かつ高い効率性を示した.今後は,より変動の激しい新生児モニター心電図の欠損値補完に取り組む.