向ChatGPT尋求醫療建議?研究:一半信息出錯
人們好像覺得生成式人工智慧(AI)的發展快極了,但加拿大安省倫敦西安大略大學研究人員的最新研究顯示,聊天機器人在提供準確的醫療資訊方面,還存在很多不足。
這項研究於7月底發表在《公共科學圖書館綜合》(PLOS One)雜誌上,旨在調查ChatGPT在醫學教育中的診斷準確性和實用性。
ChatGPT由OpenAI開發,它使用一個大型語言模型,該模型是根據網際網路上蒐集到的大量數據訓練而成,可以快速生成文字稿、回答用戶的詢問。
西安大略大學兒科學助理教授、該研究的首席研究員基爾帕拉尼(Amrit Kirpalani)說:「這種東西無處不在。」
「我們已經看到,人們用它通過了執照考試,用ChatGPT通過了醫學院入學考試(MCAT)。」他說,「我們想知道,它如何處理更複雜的病例,那些我們在醫學上看到的複雜病例,以及它如何使其答案合理化?」
在這項研究中,ChatGPT分析了150個複雜的臨床病例,並被提示在選項中選擇正確的診斷,然後提供一個解釋,說明它是如何得到答案的。
基爾帕拉尼說,在49%的情況下,它的答案正確。研究人員發現,不管答案是對是錯,它都善於簡化解釋,讓人相信它的答案。
「它可以被當作一種工具,但我認為,它不應該被用於醫療建議。」他也承認,在其他方面它可能是有用的。
這項研究是在2023年使用ChatGPT和GPT-3.5大語言模型進行的,該模型後來被GPT-4和GPT-4o所取代。目前尚不清楚如果使用新版模型,ChatGPT的回答是否會更準確。
基爾帕拉尼說,需要更廣泛的人工智慧知識,讓民眾了解人工智慧的好處和缺陷。
今年早些時候,哥倫比亞大學的研究小組測試五種大型語言模型,包括GPT-4、Gemini和Meta的Llama 2,產出與美國初選相關問題的回答。參與者認為聊天機器人的回答中有一半以上錯誤,40%被歸類為有害和不準確的。◇