Gemini 1.0がAMR健康情報で他LLMをリード、専門家による監督の必要性浮き彫りに
第18回欧州公衆衛生会議で発表された新たな研究によると、大規模言語モデル(LLM)のGemini 1.0が、ChatGPT-3.5、4.0、Claude 2.0を含む主要なLLMと比較して、抗菌薬耐性(AMR)に関する最高品質の健康情報を生成したことが明らかになりました。研究を主導したマルチェロ・ディ・プンポ医師は、Geminiの設計がユーザーの安全性とアクセシビリティを優先し、情報と注意のバランスが取れていると評価しています。
LLMの評価とGeminiの強み
研究では、ChatGPT-3.5、4.0、Claude 2.0、Gemini 1.0の3つの市販LLMを対象に、コンテンツの質、アクセシビリティ、文脈への意識を評価しました。Gemini 1.0は、最も読みやすく、文脈に即し、語彙が豊富なコンテンツを提供し、全体的に最高のパフォーマンスを示しました。特に、「私は単なるチャットボットです。専門家にご相談ください」という自己抑制機能は、リスクの高い不適切なアドバイスを避ける倫理的セーフガードとして注目されました。
全LLMに共通する課題と限界
しかし、この研究はLLMが生成する健康情報には専門家によるレビューが不可欠であることを強調しています。
- AMR固有の知識の弱さ: すべてのモデルにおいてAMR固有のコンテンツのスコアが最も低く、この分野での継続的な弱点を示しました。Geminiが最も優れていたものの、専門家と比較すると依然として不十分でした。
- 可読性の課題: 生成された情報はすべて「高校教育レベル」の可読性であり、低リテラシー層へのアクセシビリティが制限されると指摘されています。
- トーンの偏り: すべてのモデルで「過度に肯定的」なトーンが見られ、臨床現場でのニュアンスやリスクを覆い隠す可能性が示唆されました。
公衆衛生への示唆と今後の展望
LLMはパーソナライズされた24時間体制の健康情報を提供することで、健康コミュニケーションを変革する大きな可能性を秘めています。しかし、ディ・プンポ医師は、LLMによって提供される情報の公衆衛生への影響は科学的専門家によってまだ十分に評価されていないため、専門家の監督が不可欠であると強調しています。
セッションのモデレーターであるアンジュム・メモン教授は、これらのツールが患者のAMRに関する知識を深め、セルフケアを促進するのに非常に有用であるとしながらも、完全に依存したり、自己治療を奨励したりすべきではないとコメントし、常に家庭医に相談することの重要性を訴えました。