<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="other" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Annals of the Russian academy of medical sciences</journal-id><journal-title-group><journal-title xml:lang="en">Annals of the Russian academy of medical sciences</journal-title><trans-title-group xml:lang="ru"><trans-title>Вестник Российской академии медицинских наук</trans-title></trans-title-group></journal-title-group><issn publication-format="print">0869-6047</issn><issn publication-format="electronic">2414-3545</issn><publisher><publisher-name xml:lang="en">"Paediatrician" Publishers LLC</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">663</article-id><article-id pub-id-type="doi">10.15690/vramn663</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>STATE OF MEDICAL SCIENCES</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>СОСТОЯНИЕ МЕДИЦИНСКОЙ НАУКИ</subject></subj-group><subj-group subj-group-type="article-type"><subject></subject></subj-group></article-categories><title-group><article-title xml:lang="en">Technologies for Complex Intelligent Clinical Data Analysis</article-title><trans-title-group xml:lang="ru"><trans-title>Технологии комплексного интеллектуального анализа клинических данных</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Baranov</surname><given-names>A. A.</given-names></name><name xml:lang="ru"><surname>Баранов</surname><given-names>Александр Александрович</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>MD, PhD, Professor, Academician of RAS, Director</p></bio><bio xml:lang="ru"><p>Доктор медицинских наук, профессор, академик РАН, директор. </p><p>Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1</p></bio><email>baranov@nczd.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Namazova-Baranova</surname><given-names>L. S.</given-names></name><name xml:lang="ru"><surname>Намазова-Баранова</surname><given-names>Лейла Сеймуровна</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>MD, PhD, Professor, Corresponding Member of RAS, Deputy Director</p></bio><bio xml:lang="ru"><p>Доктор медицинских наук, профессор, член-корреспондент РАН, заместитель директора по научной работе, директор НИИ педиатрии. </p><p>Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1</p></bio><email>namazova@nczd.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Smirnov</surname><given-names>I. V.</given-names></name><name xml:lang="ru"><surname>Смирнов</surname><given-names>Иван Валентинович</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>PhD in Physics and Mathematics, Associate Professor, Head of Laboratory</p></bio><bio xml:lang="ru"><p>Кандидат физико-математических наук, доцент, заведующий лабораторией «Компьютерная лингвистика и интеллектуальный анализ информации». </p><p>Адрес: 117312, Москва, проспект 60-летия Октября, д. 9</p></bio><email>ivs@isa.ru</email><xref ref-type="aff" rid="aff2"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Devyatkin</surname><given-names>D. A.</given-names></name><name xml:lang="ru"><surname>Девяткин</surname><given-names>Дмитрий Алексеевич</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Junior Researcher</p></bio><bio xml:lang="ru"><p>Младший научный сотрудник лаборатории «Интеллектуальные технологии и системы». </p><p>Адрес: 117312, Москва, проспект 60-летия Октября, д. 9</p></bio><email>devyatkin@isa.ru</email><xref ref-type="aff" rid="aff2"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Shelmanov</surname><given-names>A. O.</given-names></name><name xml:lang="ru"><surname>Шелманов</surname><given-names>Артем Олегович</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>PhD in Engineering, Junior Researcher</p></bio><bio xml:lang="ru"><p>Кандидат технических наук, младший научный сотрудник лаборатории «Компьютерная лингвистика и интеллектуальный анализ информации». </p><p>Адрес: 117312, Москва, проспект 60-летия Октября, д. 9</p></bio><email>shelmanov@isa.ru</email><xref ref-type="aff" rid="aff2"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Vishneva</surname><given-names>E. A.</given-names></name><name xml:lang="ru"><surname>Вишнёва</surname><given-names>Елена Александровна</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>MD, PhD, Head of Department</p></bio><bio xml:lang="ru"><p>Кандидат медицинских наук, зав. отделом стандартизации и клинической фармакологии. </p><p>Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1</p></bio><email>vishneva@nczd.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Antonova</surname><given-names>E. V.</given-names></name><name xml:lang="ru"><surname>Антонова</surname><given-names>Елена Вадимовна</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>MD, PhD, Professor, Head of Department</p></bio><bio xml:lang="ru"><p>Доктор медицинских наук, заведующая отделом прогнозирования и планирования научных исследований; ученый секретарь. </p><p>Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1</p></bio><email>antonova@nczd.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Smirnov</surname><given-names>V. I.</given-names></name><name xml:lang="ru"><surname>Смирнов</surname><given-names>Владимир Иванович</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>PhD in Economics, Deputy Director</p><p> </p></bio><bio xml:lang="ru"><p>Кандидат экономических наук, заместитель директора по информационным технологиям. </p><p>Адрес: 119991, Москва, Ломоносовский проспект, д. 2, стр. 1</p></bio><email>support@nczd.ru</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Scientific Center of Children’s Health, Moscow</institution></aff><aff><institution xml:lang="ru">Научный центр здоровья детей, Москва</institution></aff></aff-alternatives><aff-alternatives id="aff2"><aff><institution xml:lang="en">Institute for Systems Analysis, Federal Research Center «Computer Science and Control»&#13;
of Russian Academy of Sciences, Moscow</institution></aff><aff><institution xml:lang="ru">Институт системного анализа Федерального исследовательского центра «Информатика и управление» Российской академии наук, Москва</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2016-05-07" publication-format="electronic"><day>07</day><month>05</month><year>2016</year></pub-date><volume>71</volume><issue>2</issue><issue-title xml:lang="en"/><issue-title xml:lang="ru"/><fpage>160</fpage><lpage>171</lpage><history><date date-type="received" iso-8601-date="2016-04-22"><day>22</day><month>04</month><year>2016</year></date><date date-type="accepted" iso-8601-date="2016-04-22"><day>22</day><month>04</month><year>2016</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2016, "Paediatrician" Publishers LLC</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2016, Издательство "Педиатръ"</copyright-statement><copyright-year>2016</copyright-year><copyright-holder xml:lang="en">"Paediatrician" Publishers LLC</copyright-holder><copyright-holder xml:lang="ru">Издательство "Педиатръ"</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/" start_date="2017-05-07"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://vestnikramn.spr-journal.ru/jour/about/submissions</ali:license_ref></license></permissions><self-uri xlink:href="https://vestnikramn.spr-journal.ru/jour/article/view/663">https://vestnikramn.spr-journal.ru/jour/article/view/663</self-uri><abstract xml:lang="en"><p>The paper presents the system for intelligent analysis of clinical information. Authors describe methods implemented in the system for clinical information retrieval, intelligent diagnostics of chronic diseases, patient’s features importance and for detection of hidden dependencies between features. Results of the experimental evaluation of these methods are also presented.</p><p><bold>Background:</bold> Healthcare facilities generate a large flow of both structured and unstructured data which contain important information about patients. Test results are usually retained as structured data but some data is retained in the form of natural language texts (medical history, the results of physical examination, and the results of other examinations, such as ultrasound, ECG or X-ray studies). Many tasks arising in clinical practice can be automated applying methods for intelligent analysis of accumulated structured array and unstructured data that leads to improvement of the healthcare quality.</p><p><bold>Aims:</bold> the creation of the complex system for intelligent data analysis in the multi-disciplinary pediatric center.</p><p><bold>Materials and methods:</bold> Authors propose methods for information extraction from clinical texts in Russian. The methods are carried out on the basis of deep linguistic analysis. They retrieve terms of diseases, symptoms, areas of the body and drugs. The methods can recognize additional attributes such as «negation» (indicates that the disease is absent), «no patient» (indicates that the disease refers to the patient’s family member, but not to the patient), «severity of illness», «disease course», «body region to which the disease refers». Authors use a set of hand-drawn templates and various techniques based on machine learning to retrieve information using a medical thesaurus. The extracted information is used to solve the problem of automatic diagnosis of chronic diseases. A machine learning method for classification of patients with similar nosology and the method for determining the most informative patients’ features are also proposed.</p><p><bold>Results:</bold> Authors have processed anonymized health records from the pediatric center to estimate the proposed methods. The results show the applicability of the information extracted from the texts for solving practical problems. The records of patients with allergic, glomerular and rheumatic diseases were used for experimental assessment of the method of automatic diagnostic. Authors have also determined the most appropriate machine learning methods for classification of patients for each group of diseases, as well as the most informative disease signs. It has been found that using additional information extracted from clinical texts, together with structured data helps to improve the quality of diagnosis of chronic diseases. Authors have also obtained pattern combinations of signs of diseases.</p><p><bold>Conclusions:</bold> The proposed methods have been implemented in the intelligent data processing system for a multidisciplinary pediatric center. The experimental results show the availability of the system to improve the quality of pediatric healthcare. </p></abstract><trans-abstract xml:lang="ru"><p><bold>Обоснование. </bold>Медицинские учреждения генерируют большой поток как структурированных, так и неструктурированных данных, содержащих важную информацию о пациентах. В структурированном виде, как правило, хранятся результаты анализов, однако подавляющее количество данных хранится в неструктурированной форме в виде текстов на естественном языке (анамнезы, результаты осмотров, описания результатов обследований, таких как УЗИ, ЭКГ, рентгеновских исследований и др.). Используя методы интеллектуальной обработки накопленных массивов структурированных и неструктурированных данных, можно автоматизировать решение многих задач, возникающих в клинической практике и повысить качество медицинской помощи.</p><p><bold>Цель исследования</bold><bold>: </bold>создание комплексной системы интеллектуальной обработки данных в многопрофильном педиатрическом центре.</p><p><bold>Методы</bold><bold>. </bold>Извлечение информации из клинических текстов на русском языке осуществляется на основе полного лингвистического анализа. Извлекаются упоминания заболеваний, симптомов, областей тела, лекарственных препаратов. В тексте также распознаются атрибуты заболеваний: «отрицание» (указывает на то, что заболевание отсутствует), «не пациент» (указывает на то, что заболевание относится не к пациенту, а к его родственнику), «тяжесть заболевания», «течение заболевания», «область тела, к которой относится заболевание». Для извлечения информации используются медицинские тезаурусы, набор вручную составленных шаблонов, а также различные методы на основе машинного обучения. Полученные из текстов данные используются для решения задачи автоматической диагностики хронических заболеваний. Предложен метод на основе машинного обучения для классификации пациентов со схожими нозологиями, а также метод для определения наиболее информативных признаков.<bold/></p><p><bold><italic>Результаты</italic></bold><bold>. </bold>Экспериментальное исследование разработанных методов проводилось на обезличенных историях болезни пациентов педиатрического центра. Проведена оценка качества разработанных методов извлечения информации из клинических текстов на русском языке. Проведена экспериментальная оценка метода автоматической диагностики на данных пациентов с аллергическими заболеваниями и болезными органов дыхания, нефрологическими и ревматическими заболеваниями. Определены наиболее подходящие методы машинного обучения для классификации пациентов для каждой группы заболеваний, а также наиболее информативные признаки. Использование данных, извлеченных из клинических текстов совместно со структурированными данными, позволило повысить качество диагностики хронических заболеваний по сравнению с использованием лишь доступных структурированных данных. Получены также шаблонные комбинации признаков заболеваний.</p><p><bold>Заключение</bold><bold>. </bold>Разработанные методы были реализованы в системе интеллектуальной обработки данных в многопрофильном педиатрическом центре. Проведенные исследования свидетельствуют о перспективности использования системы для повышения качества медицинской помощи пациентам детской возрастной категории.</p></trans-abstract><kwd-group xml:lang="en"><kwd>data mining in healthcare</kwd><kwd>natural language processing of clinical texts</kwd><kwd>hospital information system</kwd><kwd>information extraction</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>клинические тексты</kwd><kwd>извлечение информации</kwd><kwd>машинное обучение</kwd><kwd>анализ медицинских данных</kwd><kwd>интеллектуальный анализ данных.</kwd></kwd-group><funding-group/></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>1. Musen MA, Middleton B, Greenes RA. Clinical decision-support systems. In: Biomedical informatics. Springer; 2014. p. 643–674. Doi:10.1007/978-1-4471-4474-8_22.</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>2. I sa NAM. Towards intelligent diagnostic system employing integration of mathematical and engineering model. In: Proceedings of International Conference on Mathematics, Engineering and Industrial Applications. AIP Publishing; 2015. p. 030002–1– 030002–13. Doi:10.1063/1.4915633.</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>3. Abee r YA, Ahmad MA, Majid AA. Clinical decision support system for diagnosis and management of chronic renal failure. In: Proceedings of Applied Electrical Engineering and Computing Technologies. IEEE; 2013. p. 1–6. Doi:10.1109/aeect.2013.6716440.</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>4. Zaran di MHF, Zolnoori M, Moin M, Heidarnejad H. A fuzzy rule-based expert system for diagnosing asthma. Transaction E: Industrial Engineering. 2010;17(2):129–142.</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>5. Prospe ri MC, Marinho S, Simpson A, Custovic A, Buchan IE. Predicting phenotypes of asthma and eczema with machine learning. BMC medical genomics. 2014;7(1). Doi:10.1186/1755-8794-7-s1-s7.</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>6. Carrol l RJ, Thompson WK, Eyler AE, Mandelin AM, Cai T, Zink RM, et al. Portability of an algorithm to identify rheumatoid arthritis in electronic health records. Journal of the American Medical Informatics Association. 2012;19(e1):e162–e169. Doi:10.1136/amiajnl-2011-000583.</mixed-citation></ref><ref id="B7"><label>7.</label><mixed-citation>7. Wright A, Chen ES, Maloney FL. An automated technique for identifying associations between medications, laboratory results and problems. Journal of biomedical informatics. 2010;43(6):891–901. Doi:10.1016/j.jbi.2010.09.009.</mixed-citation></ref><ref id="B8"><label>8.</label><mixed-citation>8. Doddi S, Marathe A, Ravi SS, T DC. Discovery of association rules in medical data. Informatics for Health and Social Care. 2001;26(1):25–33. Doi:10.1080/14639230117529.</mixed-citation></ref><ref id="B9"><label>9.</label><mixed-citation>9. Stilou S, Bamidis P, Maglaveras N, Pappas C. Mining association rules from clinical databases: an intelligent diagnostic process in healthcare. Studies in health technology and informatics. 2001;(2):1399–1403.</mixed-citation></ref><ref id="B10"><label>10.</label><mixed-citation>10. Dligach D, Bethard S, Becker L, Miller TA, Savova GK. Discovering body site and severity modifiers in clinical texts. Journal of the American Medical Informatics Association (JAMIA). 2014;p. 448–454. Doi:10.1136/amiajnl-2013-001766.</mixed-citation></ref><ref id="B11"><label>11.</label><mixed-citation>11. Chikka VR, Mariyasagayam N, Niwa Y, Karlapalem K. Information Extraction from Clinical Documents: Towards Disease/Disorder Template Filling. In: Experimental IR Meets Multilinguality, Multimodality, and Interaction. Springer; 2015. p. 389–401. Doi:10.1007/978-3-319-24027-5_41.</mixed-citation></ref><ref id="B12"><label>12.</label><mixed-citation>12. Баранов АА, Намазова-Баранова ЛС, Смирнов ИВ, Девяткин ДА, Шелманов АО, Вишнева ЕА, et al. Методы и средства комплексного интеллектуального анализа медицинских данных. Труды ИСА РАН. 2015;65(2):81–93.</mixed-citation></ref><ref id="B13"><label>13.</label><mixed-citation>13. Gudgin M, Had ley M, Mendelsohn N, Moreau JJ, Nielsen HF, Karmarkar A, et al. Soap version 1.2 part 1: Messaging framework. W3C Working Draft, DevelopMentor, Sun, IBM, Canon, Microsoft. 2002.</mixed-citation></ref><ref id="B14"><label>14.</label><mixed-citation>14. Shelmanov AO, Smirnov IV. Methods for semantic role labeling of Russian texts. In: Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue» (2014). 13; 2014. p. 607–620.</mixed-citation></ref><ref id="B15"><label>15.</label><mixed-citation>15. Osipov G, Smir nov I, Tikhomirov I, Shelmanov A. Relationalsituational method for intelligent search and analysis of scientific publications. In: Proceedings of the Integrating IR Technologies for Professional Search Workshop; 2013. p. 57–64. Doi:10.3103/s0147688210060080.</mixed-citation></ref><ref id="B16"><label>16.</label><mixed-citation>16. Shelmanov AO, S mirnov IV, Vishneva EA. Information Extraction from Clinical Texts in Russian. In: Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference «Dialogue» (2015). 13; 2015. p. 560–572.</mixed-citation></ref><ref id="B17"><label>17.</label><mixed-citation>17. Aronson AR, Lang FM. An overview of MetaMap: historical perspective and recent advances. Journal of the American Medical Informatics Association. 2010;17(3):229–236. Doi:10.1136/jamia.2009.002733.</mixed-citation></ref><ref id="B18"><label>18.</label><mixed-citation>18. Schuyler PL, Hole WT, Tuttle MS, Sherertz DD. The UMLS Metathesaurus: representing different views of biomedical concepts. Bulletin of the Medical Library Association. 1993;81(2).</mixed-citation></ref><ref id="B19"><label>19.</label><mixed-citation>19. 2014AA UMLS MeSH Russian Source Information URL: http:// www.nlm.nih.gov/research/umls/sourcereleasedocs/current/ MSHRUS/; 2015.</mixed-citation></ref><ref id="B20"><label>20.</label><mixed-citation>20. Государственный р еестр лекарственных средств (ГРЛС) URL: http://grls.rosminzdrav.ru/Default.aspx; 2015.</mixed-citation></ref><ref id="B21"><label>21.</label><mixed-citation>21. Breiman L, Friedm an J, Stone CJ, Olshen RA. Classification and regression trees. CRC press; 1984. Doi:10.2307/2530946.</mixed-citation></ref><ref id="B22"><label>22.</label><mixed-citation>22. Breiman L. Random forests. Machine learning. 2001;45(1):5–32. Doi:10.1023/A:1010933404324.</mixed-citation></ref><ref id="B23"><label>23.</label><mixed-citation>23. Friedman JH. Greed y function approximation: a gradient boosting machine. Annals of statistics. 2001;p. 1189–1232. Doi:10.1214/ aos/1013203451.</mixed-citation></ref><ref id="B24"><label>24.</label><mixed-citation>24. Breiman L. Technica l note: Some properties of splitting criteria. Machine Learning. 1996;24(1):41–47. Doi:10.1007/bf00117831.</mixed-citation></ref><ref id="B25"><label>25.</label><mixed-citation>25. Agrawal R, Inski T, Swami A. Mining association rules between sets of items in large databases. Ín: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. vol. 22. ACM; 1993. p. 207–216. Doi:10.1145/170036.170072.</mixed-citation></ref><ref id="B26"><label>26.</label><mixed-citation>26. Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Proceedings of 20th International Conference on Very Large Data Bases. vol. 1215; 1994. p. 487–499.</mixed-citation></ref><ref id="B27"><label>27.</label><mixed-citation>27. Vapnik V. The nature of statistical learning theory. Springer Science &amp; Business Media; 1998.</mixed-citation></ref><ref id="B28"><label>28.</label><mixed-citation>28. Воронцов КВ. Комбинаторный подход к оценке качества обучаемых алгоритмов. Математические вопросы кибернетики. 2004;13:5–36.</mixed-citation></ref><ref id="B29"><label>29.</label><mixed-citation>29. Kelly L, Goeuriot L, Suominen H, Schreck T, Leroy G, Mowery DL, et al. Overview of the SHARE/CLEF eHealth evaluation lab 2014. In: Information Access Evaluation. Multilinguality, Multimodality, and Interaction. Springer; 2014. p. 172–191. Doi:10.1007/978-3-319-11382-1_17.</mixed-citation></ref><ref id="B30"><label>30.</label><mixed-citation>30. Powers DM. Evaluation: fr om precision, recall and F-measure to ROC, informedness, markedness and correlation. 2011;2(1):37–63.</mixed-citation></ref></ref-list></back></article>
