Probírání hromad pacientských záznamů zvládne počítač. Vědci vynalezli efektivnější metodu vytěžování dat

3 years ago

Sběr, vytěžování a analýza dat jsou, jak už jsme opakovaně psali také ve Zdravotnickém deníku, budoucností medicíny. Dnes je ale vyhodnocování klinických dat, které by pomohlo s rozvojem personalizované medicíny, velmi náročné. Pomoci by do budoucna mohla metoda vyvinutá odborníky z lékařské fakulty při nemocnicích Mount Sinai v New Yorku, která dělá práci, jíž by za normálních okolností museli dělat lidé. Z elektronických zdravotních záznamů totiž umí vyhodnotit data charakterizující určité onemocnění, a vytvořit tak tzv. fenotyp, díky němuž je možno onemocnění ze záznamů rozpoznat.

Vědci z Icahn School of Medicine při Mount Sinai vyvinuli automatickou metodu studia elektronických zdravotních záznamů, která výrazně šetří čas a práci. Podle studie publikované nyní v odborném časopise Patterns je metoda stejně efektivní jako standardní postup při klasifikaci diagnózy.

Při svém výzkumu vědci popsali nový, automatický algoritmus založený na umělé inteligenci, který umí pročítat pacientská data z elektronických zdravotních záznamů. Nová metoda nazvaná Phe2vec přitom dokázala identifikovat určité choroby stejně přesně jako tradiční postup, který ovšem vyžaduje mnohem více ruční práce.

„Pokračuje exploze množství a typů dat elektronicky shromažďovaných v pacientských zdravotních záznamech. Rozplétání této složité sítě dat může být velmi zatěžující, což zpomaluje pokroky v klinickém výzkumu. V této studii jsme vytvořili novou metodu pro vytěžování dat z elektronických zdravotních záznamů za pomoci strojového učení, která je rychlejší a méně pracná než běžný standard. Doufáme, že to bude cenný nástroj, který umožní další, méně ovlivnitelný výzkum v klinické informatice,“ popisuje genetik a jeden z autorů studie Benjamin S. Glicksberg z Institutu Hassa Plattnera pro digitální zdraví při Mount Sinai.

Fenotyp vynalezne počítač sám

V současné době spoléhají vědci při vytěžování dat z elektronických zdravotních záznamů na sadu zavedených počítačových programů nebo algoritmů. Vývoj a ukládání těchto algoritmů se provádí systémem zvaným Phenotype Knowledgebase (PheKB, tj. znalostní databáze fenotypů). I když je systém velmi efektivní při správné identifikaci pacientovy diagnózy, proces vývoje algoritmu může být velmi zdlouhavý a neflexibilní.

Při studiu určité choroby totiž výzkumníci musí nejprve pročesat stohy zdravotních záznamů, aby vyhledali data, jako jsou některé laboratorní testy nebo předpisy, které jsou jedinečně spjaté s daným onemocněním. Potom naprogramují algoritmus, který navádí počítač, aby hledal pacienty, kteří tyto údaje specifické pro danou chorobu (čili fenotyp) v záznamu mají. Seznam pacientů identifikovaných počítačem pak ještě musí být ručně znovu zkontrolován výzkumníky. Pokaždé, když přitom vědci chtějí studovat nové onemocnění, musejí celý tento proces opakovat.

V nové studii ale výzkumníci zkusili jiný přístup. Ten využívá strojového učení k tomu, aby sám rozpoznal fenotyp daného onemocnění, čímž šetří vědcům čas a námahu. Nová metoda je přitom založena na studiích, které již tým provedl v minulosti.

„Již dříve jsme ukázali, že i strojové učení, na které nedohlížíme, může být velmi efektivní a vhodnou strategií pro vytěžování elektronických zdravotních záznamů. Potenciální přínos našeho přístupu je, že zjišťuje to, co onemocnění reprezentuje, z dat sám. Díky tomu přístroj udělá většinu práce, kterou by normálně museli udělat vědci, aby z elektronických záznamů definovali kombinaci jednotlivých datových prvků nejlépe vystihujících onemocnění,“ vysvětluje další autor studie Riccardo Miotto.

Více času na analýzy

Počítač tak byl v zásadě naprogramován k tomu, aby prošel miliony elektronických zdravotních záznamů a zjistil, jak najít spojení mezi daty a onemocněním. Takovéto programování spoléhá na algoritmy, které byly vytvořeny dříve jinými výzkumníky, například lingvisty, ke studiu slovních sítí v různých jazycích (velmi efektivní je zejména algoritmus zvaný word2vec). Poté byl počítač naprogramován, aby využíval to, co zjistil, a identifikoval diagnózy u skoro dvou milionů pacientů, jejichž data jsou uložena ve zdravotnickém systému Mount Sinai.

Nakonec odborníci srovnali efektivitu nového a starého přístupu. U devíti z deseti onemocnění přitom zjistili, že nový Phe2vec systém byl stejně efektivní nebo dokonce o něco málo lepší než běžně používaný postup používaný ke správné identifikaci diagnózy z elektronického zdravotního záznamu. Mezi zahrnutá onemocnění patřila například demence, roztroušená skleróza či srpkovitá anémie.

„Celkově jsou naše výsledky povzbudivé a naznačují, že Phe2vec je slibnou technologií pro fenotypování nemocí z elektronických zdravotních záznamů ve velkém měřítku. Doufáme, že s dalšími testy a upřesněními by mohla být používána k automatizaci mnoha úvodních kroků klinického informatického výzkumu, a tak umožnila vědcům, aby zaměřili své úsilí na navazující analýzy, jako je prediktivní modelování,” dodává Glicksberg.

mk

Příspěvek Probírání hromad pacientských záznamů zvládne počítač. Vědci vynalezli efektivnější metodu vytěžování dat pochází z Zdravotnický deník

Otevřít článek