Система заповнення медичної документації на основі автоматичного розпізнавання аудіозаписів
DOI:
https://doi.org/10.15407/intechsys.2026.01.043Ключові слова:
інтелектуальна програмна система, автоматичне розпізнавання аудіозаписів, адміністрування медичної документації, автоматичне розпізнавання мовлення, генеративні мовні моделі, структурована звітністьАнотація
Вступ. Адміністрування медичної документації є однією з найбільш гострих та часозатратних проблем у щоденній практиці лікаря. Численні дослідження вказують на тривожну тенденцію: медичні фахівці змушені приділяти значну частку свого робочого часу не пацієнту, а саме заповненню електронних карток та формуванню звітності. Такий дисбаланс, де адміністративні завдання починають переважати над клінічною взаємодією, є вкрай негативним. Ситуація додатково ускладнюється через невпинне зростання загального навантаження на медичну систему та одночасне посилення регуляторних вимог до якості, повноти та деталізації медичних записів. Вирішенням цієї проблеми є запровадження інтелектуальних систем, здатних автоматизувати перетворення усного мовлення лікаря та пацієнта в структуровані медичні записи. Поєднання технологій автоматичного розпізнавання мовлення та генеративних мовних моделей дозволяє створити інструмент, який забезпечує транскрибацію, витяг ключових клінічних сутностей та заповнення стандартизованих форм у реальному часі. Така система є необхідним кроком для цифрової трансформації медичної галузі.
Метою статті є описати проблему і запропонувати рішення проблеми створення інтелектуальної програмної системи, здатної автоматично перетворювати аудіозаписи лікарських консультацій на структуровану звітність, адаптовану до національних стандартів, що підвищить ефективність документообігу в медичних закладах шляхом розробки та впровадження інформаційної системи для автоматизованої обробки аудіоданих консультацій та інтелектуального заповнення медичної звітності.
Методи. В роботі поєднано технології автоматичного розпізнавання мовлення (ASR) та генеративні мовні моделі (LLM), що дозволяє створити інструмент, що забезпечує транскрибацію, витяг ключових клінічних сутностей та заповнення стандартизованих форм у реальному часі. Така система є необхідним кроком для цифрової трансформації медичної галузі.
Результати. Розроблено модульну архітектуру, яка поєднує клієнтську частину на базі браузерного розширення та високопродуктивний серверний обробник. Ключовою технічною особливістю є реалізація механізму конфіденційного та безперервного захоплення аудіопотоку завдяки унікальній ping-pong архітектурі. Забезпечено високоточну транскрибацію української медичної термінології через використання локально розгорнутої моделі Whisper Large v3 Turbo, що є фундаментальною перевагою над хмарними іноземними аналогами та гарантує повну конфіденційність даних пацієнтів.
Висновок. Розроблена система має чіткі конкурентні переваги: вона є адаптованою до мовного та нормативного середовища України, забезпечує безпрецедентний рівень конфіденційності даних завдяки локалізації процесу транскрибації та прямо генерує звіти за національними стандартами.
Посилання
Arndt B.G., Beasley J.W., Watkinson M.D., et al. Tethered to the EHR: Primary Care Physician Workload Assessment Using EHR Event Log Data and Time-Motion Observations. Annals of Family Medicine, 2017, Vol. 15 (5), 419–426. https://doi.org/10.1370/afm.2121
Mamykina L., Vawdrey D.K., Hripcsak G. How Do Residents Spend Their Shift Time? A Time and Motion Study With a Particular Focus on the Use of Computers. Academic Medicine, 2016, Vol. 91 (6), 827–832. https://doi.org/10.1097/ACM.0000000000001148
Shanafelt T.D., West C.P., Sinsky C., et al. Changes in Burnout and Satisfaction With Work-Life Integration in Physicians and the General US Working Population Between 2011 and 2020. Mayo Clinic Proceedings, 2022, Vol. 97 (3), 491–506. https://doi.org/10.1016/j.mayocp.2021.11.021
LeCun Y., Bengio Y., Hinton G. Deep learning. Nature, 2015, Vol. 521, 436–444. https://doi.org/10.1038/nature14539
Radford A., Kim J. W., Xu T., et al. Robust Speech Recognition via Large-Scale Weak Supervision. arXiv, 2022, Article 2212.04356. https://doi.org/10.48550/arXiv.2212.04356
OpenAI Whisper Model Card. URL: https://github.com/openai/whisper/blob/main/model-card.md [Accessed 07 Nov. 2025]
Google Cloud Speech-to-Text Documentation. URL: https://cloud.google.com/speech-to-text/docs [Accessed 07 Nov. 2025]
Vosk Offline Speech Recognition API. URL: https://alphacephei.com/vosk/ [Accessed 07 Nov. 2025]
Microsoft Azure Speech Services Documentation. URL: https://azure.microsoft.com/en-us/products/ai-foundry/tools/speech/ [Accessed 07 Nov. 2025]
Jensen P. B., Jensen L. J., Brunak S. Mining electronic health records… Nature Reviews Genetics, 2012, Vol. 13, 395–405. https://doi.org/10.1038/nrg3208
Yadav V., Bethard S. A Survey on Recent Advances in Named Entity Recognition… The 27th International Conference on Computational Linguistics, COLING, 2018, 2145–2158.
Touvron H., Lavril T., Izacard G., et al. LLaMA: Open and Efficient Foundation Language Models. ArXiv, 2023, Article 2302.13971.
International Statistical Classification of Diseases… ICD-10, WHO, 2019. URL: https://icd.who.int/ [Accessed 14 Nov. 2025]
Suki AI Platform Overview. URL: https://www.suki.ai/ [Accessed 15 Nov. 2025]
Nuance Dragon Medical One Documentation. URL: https://dragon.nuance.com/en-us/user-documentation [Accessed 16 Nov. 2025]
DeepScribe: Ambient AI Scribe for Healthcare. URL: https://www.deepscribe.ai/ [Accessed 16 Nov. 2025]
Electronic health care system in Ukraine. URL: https://ehealth.gov.ua/ [Accessed 16 Nov. 2025]
Order Of The Ministry Of Health Of Ukraine 14 Feb. 2012 No. 110 On approval of forms of primary accounting documentation and Instructions for their completion, used in healthcare institutions regardless of the form of ownership and subordination. URL: https://zakon.rada.gov.ua/laws/show/z0661-12 [Accessed 16 Nov. 2025]
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Власником авторського права є видавець Твору (Інститут інформаційних технологій та систем НАН України) та/або видавець Твору (ВД «Академперіодика» НАН України), якому Інститут інформаційних технологій та систем НАН України на підставі субліцензійного видавничого договору надав право опублікування твору та право зазначати видавця після знака авторського права.

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Стаття публікується на умовах відкритого доступу за ліцензією CC BY-NC-ND 4.0 - Із Зазначенням Авторства – Некомерційною – Без Похідних 4.0 Міжнародною.