Umělá inteligence diagnostikovala lépe než lékaři. Někteří její potenciál využít nechtějí, jiní to neumí

1 year ago

Možnosti umělé inteligence v oblasti diagnostiky jsou slibné. Alespoň to ukázala studie z letošního podzimu, kdy chatbot s umělou inteligencí (ChatGPT) při posuzování lékařských kazuistik předčil samotné lékaře – a to i v případě, že sami tento nástroj využívali. Studii zveřejnil časopis Americké lékařské společnosti (JAMA).

Původní předpoklad autorů studie, že chatboti s umělou inteligencí pomohou lékařům diagnostikovat nemoci, se ukázal jako mylný. A výsledky byly pro celý tým šokující. „Chatbot od společnosti OpenAI dosáhl při diagnostice zdravotního stavu na základě kazuistiky v průměru 90 procent. Lékaři, kterým byl chatbot náhodně přidělen, dosáhli průměrného skóre 76 procent. Zbytek, který nástroj umělé inteligence nepoužil, dosáhl na průměrně 74 procent,“ shrnul zásadní výsledky studie deník The New York Times.

Náročná, nikoli nemožná diagnostika

Malé studie se účastnilo celkem 50 lékařů. Dostali šest kazuistik a jejich úkolem bylo navrhnout u každé z nich tři možné diagnózy spolu s vysvětlením, proč je upřednostnili a proč jiné vylučují. Součástí bylo také stanovení konečné a správné diagnózy. Hodnocení měli na starost zdravotníci, kteří neměli k dispozici údaje o tom, zda je autorem odpovědí jen lékař, lékař s pomocí ChatGPT nebo nástroj samotný.

Vycházelo se ze skutečných případů, které jsou součástí rozsáhlého souboru s více než 100 kazuistikami. Nebyly nikdy zveřejněné – kromě toho, že od 90. let slouží právě pro výzkumné účely, využívané jsou i na testování mediků. Znamená to, že na nich nemohl být trénován ani ChatGPT.

Jeden z případů ale výzkumníci pro ilustracu zveřejnili. Týkal se 76letého muže, který měl při chůzi silné bolesti v dolní části zad, hýždí a lýtek, dále popisoval horečnost a únavu. Bolesti u něj začaly několik dní po provedení balónkové angioplastiky k rozšíření koronární tepny. Po zákroku dostával 48 hodin heparin na ředění krve. Kardiologické vyšetření ukázalo nový výskyt anémie a nahromadění odpadních produktů ledvin v krvi. Muž také před deseti lety podstoupil operaci bypassu kvůli srdečnímu onemocnění.

Správnou diagnózou byla cholesterolová embolie – stav, při kterém se z plaku v tepnách odlamují úlomky cholesterolu a ucpávají cévy. Stejně jako u publikovaného případu nebylo stanovení diagnózy jednoduché ani ve zbývajících pěti případech. Nešlo však o tak vzácné nemoci, o kterých by lékaři nikdy neslyšeli. Přesto si v průměru vedli hůře než chatbot.

Sebevědomí lékařů

Proč si lékaři, kteří měli k dispozici umělou inteligenci, nevedli lépe? Odpověď podle výzkumníků tkví v tom, jakým způsobem se pro diagnózu rozhodují a také jak chatbota využívají. Adam Rodman, odborník na interní medicínu a spoluautor studie, odkázal na skutečné záznamy zpráv mezi lékaři a ChatGPT.

Ukázalo se, že pokud bylo zjištění chatbota v rozporu s jejich diagnózami, lékaře to nijak neovlivnilo a měli tendenci neochvějně se držet vlastních představ o správné diagnóze. „Neposlouchali umělou inteligenci, když jim říkala věci, se kterými nesouhlasili,“ řekl Rodman. „Lidé jsou obecně příliš sebevědomí, když si myslí, že mají pravdu,“ doplnila komentář Laura Zwaanová, která studuje klinické uvažování a diagnostické chyby na Erasmus Medical Center v Rotterdamu, na studii se však nepodílela.

Kromě neochoty vzít v potaz názor ChatGPT se ukázal ještě jeden zásadní problém. Mnoho zapojených odborníků nevědělo, jak potenciál chatbota plně využít. Podle lékaře a počítačového vědce Jonathana Chena se k němu lékaři chovali pouze jako k vyhledávači cílených otázek typu „Jaké jsou možné diagnózy bolesti očí?“

„Jen zlomek z nich si uvědomil, že mohou do chatu doslova zkopírovat a vložit celou anamnézu případu a jen ho požádat, aby poskytl vyčerpávající odpověď na celou otázku,“ dodal Chen s tím, že málo lékařů tak skutečně vidělo vyčerpávající a překvapivě chytré odpovědi, které byl chatbot schopný vyprodukovat.

Dlouhá historie vědeckých pokusů

Jeden z nejznámějších pokusů vytvořit program, který by myslel jako lékař, začal v 70. letech na Pittsburské univerzitě. Tamní počítačoví vědci oslovili ke spolupráci Jacka Myerse, předsedu Katedry vnitřního lékařství, známého jako mistra diagnostiky. Měl fotografickou paměť a trávil 20 hodin týdně v lékařské knihovně, kde se snažil naučit všechny možné medicínské poznatky,“ popsal The New York Times.

Myers dostal lékařské detaily případů, a když vysvětloval své úvahy o diagnózách, vědci převáděli jeho logické řetězce do kódů. Vznikl program nazvaný INTERNIST-1, který obsahoval více než 500 nemocí a asi 3 500 příznaků onemocnění. Přestože v testech si program vedl dobře, nikdy se v praxi neujal. Na vině bylo mimo jiné časově náročné zadávání informací potřebných k určení diagnózy.

V polovině 90. let už existovalo několik počítačových programů, které se pokoušely stanovit lékařskou diagnózu. Používat se však nezačal žádný. Vedou se od té doby také debaty o tom, nakolik by měl počítačový program napodobovat lidské uvažování a zda by vůbec měl stanovovat diagnózy stejným způsobem jako lidé.

Velké jazykové modely jako je ChatGPT však směr uvažování zcela změnily. Nesnaží se totiž explicitně kopírovat myšlení lékařů, jejich diagnostické schopnosti vycházejí z předvídání jazyka. Potenciál, kdy lze do programu vložit celý případ a využít toho, že na rozdíl od dřívějších počítačů rozumí jazyku, ale mnozí lékaři nevyužívají.

Otevřít článek