野田 昌生, 上野 貴雄, 甲州 亮太, 島田 Dias茉莉, 伊藤 真人, 矢本 成恒, 吉崎 智一, 野村 章洋
日本耳鼻咽喉科頭頸部外科学会会報 126(11) 1217-1223 2023年11月 査読有り
近年,医療分野において画像認識や自然言語処理など人工知能(AI)の活用が進んでおり,どのように活用し,危険があるのかについて理解することが,安全で有効な医療応用に必要である.ChatGPTは2022年にリリースされた自然言語処理技術の一つで,入力された指示(プロンプト)に対して文章を生成し,命令方法によって,その精度をさらに上げることが可能である.米国における司法試験や医師免許試験では合格ラインに達する報告がなされているが,非英語言語である日本語の医療分野における有効性についての報告は少ない.今回,2022年度耳鼻咽喉科専門医試験におけるChatGPTのパフォーマンスについて評価し,日本語の耳鼻咽喉科領域においての有効性とAI活用の課題について検討した.2022年度耳鼻咽喉科専門医試験の選択肢問題に関して,図表問題を除外した48問を対象とした.問題文のみを入力したものに加えて,日本語のプロンプトを加えたもの,英訳を命令したもの,さらに英語のプロンプトを加えたものの4通りの方法について行った.ChatGPTではGPT-3.5,GPT-4の2種類のバージョンがあるため,合計8種類の方法について,それぞれ5回ずつの検証を行い,正答と比較した精度について評価し,分析を行った.ChatGPT-3.5,GPT-4に対して,問題文のみを入力した場合の精度は平均で31.67%,45.42%であった.日本語のプロンプトを加えた場合は35.00%,43.75%,英訳を命令したものでは39.58%,52.08%,さらに英語のプロンプトを加えたものでは50.42%,65.00%であった.GPTのバージョンや英訳により正答率が向上した.誤答の割合が多い問題の特徴としては,耳科学やめまい平衡,音声に関連した問題や,制度に関する問題が多い傾向があった.ChatGPTを用いて,耳鼻咽喉科専門医試験で最大65%の正答率を達成した.今後,GPTの精度向上や新規プロンプトの開発により,さらに高い正答率を実現できる可能性がある.また,非英語言語の日本語でも,耳鼻咽喉科領域において一定の水準を達成できることが確認され,耳鼻咽喉科臨床におけるAIの有用性や課題を考える上で一助となる.一方で,必ずしも正答するわけではなく,入力するプロンプトによって正答率が異なり,必ずしも正答するともかぎらないことから,それを正確に判断することが求められる.耳鼻咽喉科領域における活用については,リスクの少ない診療の補助などから円滑な活用方法を模索していく必要がある.(著者抄録)