新研究:醫(yī)用AI評估精神分裂新患者治療效果近乎盲猜
分類: 最新資訊
作文詞典
編輯 : 大寶
發(fā)布 : 01-13
閱讀 :34
1月12日消息,一項最新研究發(fā)現(xiàn),用于協(xié)助醫(yī)生治療精神分裂癥患者的計算機(jī)算法不能很好適應(yīng)之前開發(fā)過程中未見過的新鮮數(shù)據(jù)。因此這種醫(yī)用人工智能在評估未曾接觸過的患者的治療效果時,表現(xiàn)十分糟糕。這些醫(yī)用工具利用人工智能來發(fā)現(xiàn)大數(shù)據(jù)集中的特征,并預(yù)測個體對特定治療的反應(yīng),這是精準(zhǔn)醫(yī)療的核心。醫(yī)療保健專業(yè)人員希望使用這種工具為每位患者量身定制治療方案。在一篇發(fā)表在《科學(xué)》雜志上的文章中,研究人員指出,人工智能模型可以高度準(zhǔn)確地預(yù)測訓(xùn)練樣本中所涉及患者的治療結(jié)果。但是,在處理之前未見過的患者數(shù)據(jù)時,該模型的性能會顯著下降,甚至只比隨機(jī)猜測略高。為了確保精準(zhǔn)醫(yī)療的有效性,預(yù)測模型需要在不同情況下保持穩(wěn)定準(zhǔn)確性,并將偏差或隨機(jī)結(jié)果出現(xiàn)的可能性降至最低。“這是一個人們還沒有意識到的大問題,”研究報告的合著者、康涅狄格州紐黑文耶魯大學(xué)精神病學(xué)家亞當(dāng)·切克魯?shù)拢ˋdam Chekroud)表示。“這項研究基本上證明了算法仍需要在多個樣本上進(jìn)行測試。”算法的準(zhǔn)確性研究人員評估了一種通常用于精神病預(yù)測模型的算法。他們使用了五項抗精神病藥物臨床試驗(yàn)的數(shù)據(jù),涉及北美、亞洲、歐洲和非洲1513名被診斷患有精神分裂癥的志愿者。這些試驗(yàn)在2004年至2009年間進(jìn)行,測量志愿者服用三種抗精神病藥物中的一種之前以及四周后的癥狀。研究團(tuán)隊用數(shù)據(jù)集訓(xùn)練算法,來預(yù)測患者經(jīng)過四周抗精神病藥物治療后的癥狀改善程度。首先,研究人員在開發(fā)算法的試驗(yàn)中測試了算法的準(zhǔn)確性,將預(yù)測結(jié)果與試驗(yàn)中記錄的實(shí)際效果進(jìn)行比較,發(fā)現(xiàn)準(zhǔn)確率很高。然后,他們使用了多種方法來評估這一人工智能模型分析新數(shù)據(jù)的準(zhǔn)確性。研究人員用一個臨床試驗(yàn)的數(shù)據(jù)子集訓(xùn)練模型,然后將其應(yīng)用于同一試驗(yàn)的另一個數(shù)據(jù)子集。他們還用一次試驗(yàn)或一組試驗(yàn)的所有數(shù)據(jù)訓(xùn)練算法,然后通過其他臨床試驗(yàn)數(shù)據(jù)測試模型性能。結(jié)果發(fā)現(xiàn),人工智能模型在這些測試中表現(xiàn)不佳,當(dāng)應(yīng)用于未經(jīng)訓(xùn)練的數(shù)據(jù)集時,模型產(chǎn)生的預(yù)測似乎幾乎是隨機(jī)的。研究團(tuán)隊使用不同的預(yù)測算法重復(fù)進(jìn)行,但得到的結(jié)果都差不多。更好的測試這項研究的作者表示,他們的發(fā)現(xiàn)凸顯出臨床預(yù)測模型應(yīng)該如何在大型數(shù)據(jù)集上進(jìn)行嚴(yán)格測試,確保它們的可靠性。一項對308個精神病預(yù)后臨床預(yù)測模型的系統(tǒng)評測發(fā)現(xiàn),只有大約20%的模型在開發(fā)所用樣本之外的數(shù)據(jù)集上進(jìn)行了驗(yàn)證。“我們應(yīng)該更像研發(fā)藥物那樣思考模型開發(fā),”切克魯?shù)抡f。他解釋說,許多藥物在早期臨床試驗(yàn)中表現(xiàn)不錯,但在后期階段就會出現(xiàn)問題。“我們必須嚴(yán)格遵守如何開發(fā)以及測試這些算法的原則,不能只做一次就認(rèn)為這是真的。”(辰辰)