【背景】
jRCTは臨床研究法に規定された厚生労働大臣に対する実施計画の提出などの行政手続を行うためのシステムと,世界保健機関(WHO)が指定する臨床研究データベースの役割を担っている.そして,現在では治験,臨床研究法に加え,倫理指針下の研究も網羅しつつある.その中でも臨床研究法で実施される臨床研究(以下,「臨床研究」)については施行時から全ての情報が集約されているものの,データの集計機能や構造化データの提供機能等が実装されていないため,それら情報の利活用は期待されているほど行われていない.
【目的】
(1)Pythonを用いてjRCTの登録情報を自動収集するためのシステムを開発する.
(2)臨床研究の実施状況について,地域による格差や医療機関の属性等との関連を調査する.
【方法】
(1)jRCTページのhtml構造を分析し,pythonによるWebスクレイピングに適した外部パッケージ・ライブラリを選定する.臨床研究のデータの収集から構造化データ作成までを自動化するシステムをpythonにより開発し,得られた構造化データをcsvファイルにより出力する.
(2)構造化データから臨床研究の公表件数と研究代表医師の所属医療機関のある都道府県との関係,e-statから取得した500床以上の病院数(2019年度)との関係,臨床研究中核病院や医療機関の属性等との関係を可視化しその傾向を把握する.
【結果・考察】
(1)Webスクレイピングに用いる外部パッケージは,検索条件の入力や動的に生成されるURLのデータ取得が可能なSeleniumを用いた.Python+SeleniumによりjRCTでの条件検索入力,検索結果および該当する臨床研究の詳細情報取得から構造化データ作成までの一連の行程が自動化できた.
(2)2022年4月16日時点のデータ総数は,特定臨床研究が2369件,非特定臨床研究が208件であった.件数が多い上位3都道府県は,特定臨床研究で東京都487件・愛知県228件・大阪府190件,非特定臨床研究で東京都31件・愛知県27件・京都府21件であった.また,500床以上の病院数が多い県ほど臨床研究の件数が多いことが示唆された.
【結論】
PythonによりjRCTに公表されたデータ収集の自動化が可能であった.臨床研究の研究代表医師は大都市圏,とくに首都圏に集中していることが示唆された.