インプラント補綴における人工知能（AI）生成回答と系統的レビューとの整合性に関する研究

インプラント補綴学におけるAIツールのエビデンスとの整合性に関する研究

研究の背景と目的

インプラント補綴学分野では研究が急速に増加しており、臨床家が情報を整理し、臨床推論を支援するために大規模言語モデル（LLM）ベースの人工知能（AI）ツールを活用する可能性が浮上しています。しかし、これらのツールが体系的に評価されたエビデンスとどの程度一致するかは不明瞭でした。この課題に対処するため、新しい研究では、ChatGPTとGoogle Geminiの回答を最近のシステマティックレビューの結論と比較し、その整合性を評価しました。

研究方法と主要な発見

研究者らは、2023年から2025年の間に発表された74のシステマティックレビューの結論をベンチマークとして使用しました。これらのレビューは、補綴物の設計、インプラントコンポーネント、生物学的および機械的合併症、臨床プロトコル、補綴物の維持という5つの領域をカバーしていました。研究者らは、システマティックレビューの目的から臨床質問を作成し、これらの質問を同一のプロンプトでChatGPTとGoogle Geminiの両AIプラットフォームに提出しました。AIの回答は、2人の盲検評価者によって独立してレビューの結論と比較評価されました。

結果として、ChatGPTとGeminiは、5つの臨床領域すべてにおいて、システマティックレビューの結論と概ね高いレベルで一致する回答を生成しました。両プラットフォーム間の合意度には統計的に有意な差は認められませんでした。

回答の確信度と臨床上の注意点

しかし、AIプラットフォームが回答に付与する確信度には重要な違いが見られました。ChatGPTは回答を「中程度の確信度」で記述することが最も多かったのに対し、Geminiは「高い確信度」を表明する傾向がありました。この確信度の違いはレビューの結論との一致度には影響しませんでしたが、著者らは、確信度がエビデンスの質の尺度として解釈されるべきではないと警告しています。

広範な懸念と結論

この研究は、医療におけるAIの使用に関するより広範な懸念も浮き彫りにしました。大規模言語モデルは、もっともらしいが不正確な回答を生成する可能性があり、ユーザーは高い確信度を示す回答を過度に信頼する可能性があります。

結論として、AIチャットボットはインプラント補綴学におけるエビデンス統合の支援ツールとして有望であるものの、エビデンスに基づいた臨床ワークフローに統合するには、臨床現場での慎重な監督と批判的な解釈が必要であると著者らは述べました。

この研究は、「Alignment of artificial intelligence-generated responses with systematic reviews in implant prosthodontics」と題され、2026年6月2日にJournal of Prosthetic Dentistryにオンライン公開されました。

元記事：AI chatbots align closely with implant prosthodontic evidence