Технологии комплексного интеллектуального анализа клинических данных
- Авторы: Баранов А.А.1, Намазова-Баранова Л.С.1, Смирнов И.В.2, Девяткин Д.А.2, Шелманов А.О.2, Вишнёва Е.А.1, Антонова Е.В.1, Смирнов В.И.1
-
Учреждения:
- Научный центр здоровья детей, Москва
- Институт системного анализа Федерального исследовательского центра «Информатика и управление» Российской академии наук, Москва
- Выпуск: Том 71, № 2 (2016)
- Страницы: 160-171
- Раздел: СОСТОЯНИЕ МЕДИЦИНСКОЙ НАУКИ
- Дата публикации: 22.04.2016
- URL: https://vestnikramn.spr-journal.ru/jour/article/view/663
- DOI: https://doi.org/10.15690/vramn663
- ID: 663
Цитировать
Полный текст
Аннотация
Обоснование. Медицинские учреждения генерируют большой поток как структурированных, так и неструктурированных данных, содержащих важную информацию о пациентах. В структурированном виде, как правило, хранятся результаты анализов, однако подавляющее количество данных хранится в неструктурированной форме в виде текстов на естественном языке (анамнезы, результаты осмотров, описания результатов обследований, таких как УЗИ, ЭКГ, рентгеновских исследований и др.). Используя методы интеллектуальной обработки накопленных массивов структурированных и неструктурированных данных, можно автоматизировать решение многих задач, возникающих в клинической практике и повысить качество медицинской помощи.
Цель исследования: создание комплексной системы интеллектуальной обработки данных в многопрофильном педиатрическом центре.
Методы. Извлечение информации из клинических текстов на русском языке осуществляется на основе полного лингвистического анализа. Извлекаются упоминания заболеваний, симптомов, областей тела, лекарственных препаратов. В тексте также распознаются атрибуты заболеваний: «отрицание» (указывает на то, что заболевание отсутствует), «не пациент» (указывает на то, что заболевание относится не к пациенту, а к его родственнику), «тяжесть заболевания», «течение заболевания», «область тела, к которой относится заболевание». Для извлечения информации используются медицинские тезаурусы, набор вручную составленных шаблонов, а также различные методы на основе машинного обучения. Полученные из текстов данные используются для решения задачи автоматической диагностики хронических заболеваний. Предложен метод на основе машинного обучения для классификации пациентов со схожими нозологиями, а также метод для определения наиболее информативных признаков.
Результаты. Экспериментальное исследование разработанных методов проводилось на обезличенных историях болезни пациентов педиатрического центра. Проведена оценка качества разработанных методов извлечения информации из клинических текстов на русском языке. Проведена экспериментальная оценка метода автоматической диагностики на данных пациентов с аллергическими заболеваниями и болезными органов дыхания, нефрологическими и ревматическими заболеваниями. Определены наиболее подходящие методы машинного обучения для классификации пациентов для каждой группы заболеваний, а также наиболее информативные признаки. Использование данных, извлеченных из клинических текстов совместно со структурированными данными, позволило повысить качество диагностики хронических заболеваний по сравнению с использованием лишь доступных структурированных данных. Получены также шаблонные комбинации признаков заболеваний.
Заключение. Разработанные методы были реализованы в системе интеллектуальной обработки данных в многопрофильном педиатрическом центре. Проведенные исследования свидетельствуют о перспективности использования системы для повышения качества медицинской помощи пациентам детской возрастной категории.
Об авторах
Александр Александрович Баранов
Научный центр здоровья детей, Москва
Email: baranov@nczd.ru
Доктор медицинских наук, профессор, академик РАН, директор.
Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1
РоссияЛейла Сеймуровна Намазова-Баранова
Научный центр здоровья детей, Москва
Email: namazova@nczd.ru
Доктор медицинских наук, профессор, член-корреспондент РАН, заместитель директора по научной работе, директор НИИ педиатрии.
Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1
РоссияИван Валентинович Смирнов
Институт системного анализа Федерального исследовательского центра «Информатика и управление» Российской академии наук, Москва
Email: ivs@isa.ru
Кандидат физико-математических наук, доцент, заведующий лабораторией «Компьютерная лингвистика и интеллектуальный анализ информации».
Адрес: 117312, Москва, проспект 60-летия Октября, д. 9
РоссияДмитрий Алексеевич Девяткин
Институт системного анализа Федерального исследовательского центра «Информатика и управление» Российской академии наук, Москва
Email: devyatkin@isa.ru
Младший научный сотрудник лаборатории «Интеллектуальные технологии и системы».
Адрес: 117312, Москва, проспект 60-летия Октября, д. 9
РоссияАртем Олегович Шелманов
Институт системного анализа Федерального исследовательского центра «Информатика и управление» Российской академии наук, Москва
Email: shelmanov@isa.ru
Кандидат технических наук, младший научный сотрудник лаборатории «Компьютерная лингвистика и интеллектуальный анализ информации».
Адрес: 117312, Москва, проспект 60-летия Октября, д. 9
РоссияЕлена Александровна Вишнёва
Научный центр здоровья детей, Москва
Email: vishneva@nczd.ru
Кандидат медицинских наук, зав. отделом стандартизации и клинической фармакологии.
Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1
РоссияЕлена Вадимовна Антонова
Научный центр здоровья детей, Москва
Автор, ответственный за переписку.
Email: antonova@nczd.ru
Доктор медицинских наук, заведующая отделом прогнозирования и планирования научных исследований; ученый секретарь.
Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1
РоссияВладимир Иванович Смирнов
Научный центр здоровья детей, Москва
Email: support@nczd.ru
Кандидат экономических наук, заместитель директора по информационным технологиям.
Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1
РоссияСписок литературы
- Musen MA, Middleton B, Greenes RA. Clinical decision-support systems. In: Biomedical informatics. Springer; 2014. p. 643–674. doi: 10.1007/978-1-4471-4474-8_22.
- I sa NAM. Towards intelligent diagnostic system employing integration of mathematical and engineering model. In: Proceedings of International Conference on Mathematics, Engineering and Industrial Applications. AIP Publishing; 2015. p. 030002–1– 030002–13. doi: 10.1063/1.4915633.
- Abee r YA, Ahmad MA, Majid AA. Clinical decision support system for diagnosis and management of chronic renal failure. In: Proceedings of Applied Electrical Engineering and Computing Technologies. IEEE; 2013. p. 1–6. doi: 10.1109/aeect.2013.6716440.
- Zaran di MHF, Zolnoori M, Moin M, Heidarnejad H. A fuzzy rule-based expert system for diagnosing asthma. Transaction E: Industrial Engineering. 2010;17(2):129–142.
- Prospe ri MC, Marinho S, Simpson A, Custovic A, Buchan IE. Predicting phenotypes of asthma and eczema with machine learning. BMC medical genomics. 2014;7(1). doi: 10.1186/1755-8794-7-s1-s7.
- Carrol l RJ, Thompson WK, Eyler AE, Mandelin AM, Cai T, Zink RM, et al. Portability of an algorithm to identify rheumatoid arthritis in electronic health records. Journal of the American Medical Informatics Association. 2012;19(e1):e162–e169. doi: 10.1136/amiajnl-2011-000583.
- Wright A, Chen ES, Maloney FL. An automated technique for identifying associations between medications, laboratory results and problems. Journal of biomedical informatics. 2010;43(6):891–901. doi: 10.1016/j.jbi.2010.09.009.
- Doddi S, Marathe A, Ravi SS, T DC. Discovery of association rules in medical data. Informatics for Health and Social Care. 2001;26(1):25–33. doi: 10.1080/14639230117529.
- Stilou S, Bamidis P, Maglaveras N, Pappas C. Mining association rules from clinical databases: an intelligent diagnostic process in healthcare. Studies in health technology and informatics. 2001;(2):1399–1403.
- Dligach D, Bethard S, Becker L, Miller TA, Savova GK. Discovering body site and severity modifiers in clinical texts. Journal of the American Medical Informatics Association (JAMIA). 2014;p. 448–454. doi: 10.1136/amiajnl-2013-001766.
- Chikka VR, Mariyasagayam N, Niwa Y, Karlapalem K. Information Extraction from Clinical Documents: Towards Disease/Disorder Template Filling. In: Experimental IR Meets Multilinguality, Multimodality, and Interaction. Springer; 2015. p. 389–401. doi: 10.1007/978-3-319-24027-5_41.
- Баранов АА, Намазова-Баранова ЛС, Смирнов ИВ, Девяткин ДА, Шелманов АО, Вишнева ЕА, et al. Методы и средства комплексного интеллектуального анализа медицинских данных. Труды ИСА РАН. 2015;65(2):81–93.
- Gudgin M, Had ley M, Mendelsohn N, Moreau JJ, Nielsen HF, Karmarkar A, et al. Soap version 1.2 part 1: Messaging framework. W3C Working Draft, DevelopMentor, Sun, IBM, Canon, Microsoft. 2002.
- Shelmanov AO, Smirnov IV. Methods for semantic role labeling of Russian texts. In: Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue» (2014). 13; 2014. p. 607–620.
- Osipov G, Smir nov I, Tikhomirov I, Shelmanov A. Relationalsituational method for intelligent search and analysis of scientific publications. In: Proceedings of the Integrating IR Technologies for Professional Search Workshop; 2013. p. 57–64. doi: 10.3103/s0147688210060080.
- Shelmanov AO, S mirnov IV, Vishneva EA. Information Extraction from Clinical Texts in Russian. In: Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue» (2015). 13; 2015. p. 560–572.
- Aronson AR, Lang FM. An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association. 2010;17(3):229–236. doi: 10.1136/jamia.2009.002733.
- Schuyler PL, Hole WT, Tuttle MS, Sherertz DD. The UMLS Metathesaurus: representing different views of biomedical concepts. Bulletin of the Medical Library Association. 1993;81(2).
- 2014AA UMLS MeSH Russian Source Information URL: http:// www.nlm.nih.gov/research/umls/sourcereleasedocs/current/ MSHRUS/; 2015.
- Государственный р еестр лекарственных средств (ГРЛС) URL: http://grls.rosminzdrav.ru/Default.aspx; 2015.
- Breiman L, Friedm an J, Stone CJ, Olshen RA. Classification and regression trees. CRC press; 1984. doi: 10.2307/2530946.
- Breiman L. Random forests. Machine learning. 2001;45(1):5–32. doi: 10.1023/A:1010933404324.
- Friedman JH. Greed y function approximation: a gradient boosting machine. Annals of statistics. 2001;p. 1189–1232. Doi:10.1214/ aos/1013203451.
- Breiman L. Technica l note: Some properties of splitting criteria. Machine Learning. 1996;24(1):41–47. doi: 10.1007/bf00117831.
- Agrawal R, Inski T, Swami A. Mining association rules between sets of items in large databases. Ín: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. vol. 22. ACM; 1993. p. 207–216. doi: 10.1145/170036.170072.
- Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Proceedings of 20th International Conference on Very Large Data Bases. vol. 1215; 1994. p. 487–499.
- Vapnik V. The nature of statistical learning theory. Springer Science & Business Media; 1998.
- Воронцов КВ. Комбинаторный подход к оценке качества обучаемых алгоритмов. Математические вопросы кибернетики. 2004;13:5–36.
- Kelly L, Goeuriot L, Suominen H, Schreck T, Leroy G, Mowery DL, et al. Overview of the SHARE/CLEF eHealth evaluation lab 2014. In: Information Access Evaluation. Multilinguality, Multimodality, and Interaction. Springer; 2014. p. 172–191. doi: 10.1007/978-3-319-11382-1_17.
- Powers DM. Evaluation: fr om precision, recall and F-measure to ROC, informedness, markedness and correlation. 2011;2(1):37–63.