AIチャットボットの医療相談にリスク、質問次第で回答が変化
ネット検索と精度変わらず 英オックスフォード大学の研究グループが報告

AI(人工知能)チャットボットを医療相談に利用することのリスクが研究から明らかになった。
英オックスフォード大学のオックスフォード・インターネット研究所とナフィールド・プライマリケア健康科学部門の研究グループが2026年2月に発表した。
テストでは高得点を取っても実際の相談で機能せず

- 生成AIや大規模言語モデルは医療知識テストでは高い成績を示すことがあり、一般の人が症状を相談するツールとしての活用が期待されている。
- 研究では約1300人の参加者を対象に、具体的な症状のシナリオを提示し、考えられる病気や取るべき行動を判断する試験を実施した。
- 参加者をLLMを使うグループと従来のネット検索などを使うグループに分け、医療判断の正確性を比較した。
生成AIや大規模言語モデルは、医療知識に関するテストに解答させると高い成績を示すことが話題になることもある。こうした点もあり、一般の人が症状について相談するツールとしての活用が期待されている。
今回、研究グループは、オンラインからの約1300人の参加者を対象にランダムにグループに割り付ける試験を実施した。
参加者には、友人と外出した後に激しい頭痛を感じる若い男性、息切れと強い疲労感に悩む産後の女性など、医師が作成した具体的な医療に関する問題を含んだシナリオが示された。
その上で、彼らは、それに基づいて考えられる病気や取るべき行動を判断するよう求められた。
その際に、参加者は、LLMを利用して判断するグループと、通常のインターネット検索や自己判断など従来の方法を用いるグループに分けられ、その判断の正確性が比較された。
質問次第で回答が変化、良い助言と悪い助言が混在

- LLMを利用しても、従来のネット検索などと比べて医療判断の正確性が高くなるわけではないことが分かった。
- ユーザーが適切な情報の伝え方を理解していない場合が多く、質問のわずかな違いでAIの回答が大きく変わる問題が確認された。
- 回答には良い助言と不適切な助言が混在し見分けが難しく、医療分野で安全に活用するには実際の利用環境での厳格な評価が必要と指摘された。
結果として、LLMを利用したからといって、従来のネット検索などの方法を用いるよりも、正確な医療判断ができるわけではないことが分かった。
さらに、AIチャットボットの利用において3つの課題が確認された。
第一は、ユーザーがAIにどの情報を伝えれば適切な助言が得られるのか理解していないケースが多かったこと。第二は、質問のわずかな違いによってAIの回答が大きく変わる場合のあること。第三は、回答の中に適切な助言と不適切な助言が混在し、利用者がそれを見分けるのが難しいという問題があったこと。
医療知識に解答させて性能を測るベンチマークテストで高い性能を示すAIモデルでも、実際に人間と対話する状況ではパフォーマンスが低下する傾向が確認された。
研究グループは、AIを医療分野で安全に活用するには、薬の臨床試験と同様に、実際の利用環境での厳格な評価が必要だと指摘している。
AIは医療知識テストでは高い性能を示すものの、実際のユーザーが自分の症状を相談する場面では誤った判断を招くリスクが確認された。
AIを医療で活用していく上では課題となりそうだ。
研究成果は主要医学誌である「Nature Medicine」に掲載された。
参考文献
New study warns of risks in AI chatbots giving medical advice(University of Oxford)
https://www.ox.ac.uk/news/2026-02-10-new-study-warns-risks-ai-chatbots-giving-medical-advice
この記事の執筆者
星良孝
PRENOVO編集長。東京大学農学部獣医学課程卒。日経BPにて「日経メディカル」「日経バイオテク」「日経ビジネス」の編集・記者を担当後、エムスリーなどを経て2017年にステラ・メディックスを設立。ヘルスケア分野を中心に取材・発信を続ける。獣医師。





