Автоматична класифікація текстів українською мовою за функційними стилями

Автор(и)

  • М.А. Музичук Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»
  • Т.М. Заболотна Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

DOI:

https://doi.org/10.15407/intechsys.2025.02.090

Ключові слова:

класифікація, функційний стиль, стильстилеметрія, векторизація

Анотація

Вступ. Автоматична класифікація текстів за функційними стилями є важливим завданням в інженерії програмного забезпечення, оскільки вона дозволяє автоматизувати оброблення текстових даних для ефективного вирішення таких розповсюджених задач, як пошук інформації, аналіз документів тощо. Процес визначення функційного стилю вимагає аналізу лексичних, граматичних та стилістичних особливостей тексту з урахуванням його контексту. Основною складністю тут є те, що українська мова характеризується значною різноманітністю стилістичних варіацій. Наявні рішення,розроблені для інших мов, потребують суттєвої адаптації для української. У зв’язку з цим постає необхідність розроблення спеціалізованих методів, здатних ідентифікувати функційні стилі саме в українськомовних текстах.

Мета статті. Метою даної роботи є підвищення точності класифікації текстів українською мовою за функційними стилями шляхом розроблення методу та програмного забезпечення для автоматичного визначення стилю тексту.

Методи. Запропонований в статті багаторівневий метод класифікації текстів українською мовою за функційними стилями поєднує статистичний аналіз, аналіз ключових слів та контекстний аналіз на основі моделі BERT, що дозволяє враховувати семантичні та контекстуальні залежності в тексті. Етапами запропонованого методу є: збір статистичних параметрів тексту, визначення характерних лем для стилів, а також застосування контекстного аналізу для покращення класифікації текстів. Метод реалізовано в межах консольного застосунку, що базується на модульній архітектурі.

Результат. Запропонована модель значно перевершує як класичну BERT, так і SVM за метрикою Accuracy: вона досягла 0,829, тоді як BERT і SVM показали 0,646 і 0,612 відповідно. За точністю позитивних передбачень (Precision) запропонована модель продемонструвала 0,780, випередивши BERT (0,626) і SVM (0,541), що свідчить про зменшення кількості хибно-позитивних результатів. Показники Recall (0,709) і F1-score (0,729) також перевищують результати альтернатив, забезпечуючи збалансованість між точністю і повнотою. Показник AUC (0,952) підтверджує здатність моделі точніше розпізнавати стилі текстів, перевершуючи значення BERT (0,908) і SVM (0,834).

Висновки. Отримані результати підтверджують гіпотезу, що поєднання контекстних ознак, сформованих з допомогою BERT, із статистичними параметрами стилю забезпечує найвищу точність класифікації. Це підкреслює перевагу запропонованої моделі для задач, які вимагають високої точності та стабільності у визначенні функційних стилів тексту.

Посилання

What are the advantages and disadvantages of Random Forest? URL: https://aiml.com/what-are-the-advantages-and-disadvantages-of-random-forest/ [Accessed 15 Nov. 2024]

Understanding searches better than ever before. URL: https://web.archive.org/web/20210127042834/https://www.blog.google/products/search/search-language-understanding-bert/ [Accessed 15 Nov. 2024]

mshamrai/bert-base-ukr-eng-rus-uncased. URL: https://huggingface.co/mshamrai/bert-base-ukr-eng-rus-uncased [Accessed 15 Nov. 2024]

Slavic BERT NER. URL: https://github.com/deeppavlov/Slavic-BERT-NER/blob/master/README.md [Accessed 15 Nov. 2024]

multilingual.md. URL: https://github.com/google-research/bert/blob/master/multilingual.md [Accessed 15 Nov. 2024]

Areshenkov Yu. O. Stylistics of the Ukrainian language: lecture notes and lesson plans: teaching and methodological manual. KrDPU, Kryvyy Rih, 2007, 3-th ed., 18p. [In Ukrainian: Арешенков Ю. О. Стилістика української мови: конспект лекцій та плани занять : навч.-метод. посіб.] https://doi.org/10.31812/0564/2140

Artistic style as a type of language. Substyles of artistic style. Genres of artistic style. Colors of artistic style. URL: https://studfile.net/preview/5721078/page:36 [Accessed 15 Nov. 2024] [In Ukrainian: Художній стиль як різновид мови. Підстилі художнього стилю. Жанри художнього стилю. Колорити художнього стилю]

BERT 101. State Of The Art NLP Model Explained. URL: https://huggingface.co/blog/bert-101 [Accessed 15 Nov. 2024]

UberText 2.0. URL: https://lang.org.ua/en/ubertext [Accessed 15 Nov. 2024]

Brown corpus of the Ukrainian language. [In Ukrainian: Браунський корпус української мови]

Downloads

Опубліковано

2025-07-17

Як цитувати

Музичук, М., & Заболотна, Т. (2025). Автоматична класифікація текстів українською мовою за функційними стилями. Information Technologies and Systems (Інформаційні технології та системи), 2(2), 90–97. https://doi.org/10.15407/intechsys.2025.02.090

Номер

Розділ

Інтелектуальні інформаційні технології