向ChatGPT尋求醫療建議？研究：一半信息出錯

2024年08月25日 | 要聞

【記者楚方明／多倫多報導】

人們好像覺得生成式人工智慧（AI）的發展快極了，但加拿大安省倫敦西安大略大學研究人員的最新研究顯示，聊天機器人在提供準確的醫療資訊方面，還存在很多不足。

這項研究於7月底發表在《公共科學圖書館綜合》（PLOS One）雜誌上，旨在調查ChatGPT在醫學教育中的診斷準確性和實用性。

ChatGPT由OpenAI開發，它使用一個大型語言模型，該模型是根據網際網路上蒐集到的大量數據訓練而成，可以快速生成文字稿、回答用戶的詢問。

西安大略大學兒科學助理教授、該研究的首席研究員基爾帕拉尼（Amrit Kirpalani）說：「這種東西無處不在。」

「我們已經看到，人們用它通過了執照考試，用ChatGPT通過了醫學院入學考試（MCAT）。」他說，「我們想知道，它如何處理更複雜的病例，那些我們在醫學上看到的複雜病例，以及它如何使其答案合理化？」

在這項研究中，ChatGPT分析了150個複雜的臨床病例，並被提示在選項中選擇正確的診斷，然後提供一個解釋，說明它是如何得到答案的。

基爾帕拉尼說，在49%的情況下，它的答案正確。研究人員發現，不管答案是對是錯，它都善於簡化解釋，讓人相信它的答案。

「它可以被當作一種工具，但我認為，它不應該被用於醫療建議。」他也承認，在其他方面它可能是有用的。

這項研究是在2023年使用ChatGPT和GPT-3.5大語言模型進行的，該模型後來被GPT-4和GPT-4o所取代。目前尚不清楚如果使用新版模型，ChatGPT的回答是否會更準確。

基爾帕拉尼說，需要更廣泛的人工智慧知識，讓民眾了解人工智慧的好處和缺陷。

今年早些時候，哥倫比亞大學的研究小組測試五種大型語言模型，包括GPT-4、Gemini和Meta的Llama 2，產出與美國初選相關問題的回答。參與者認為聊天機器人的回答中有一半以上錯誤，40%被歸類為有害和不準確的。◇