Автоматична класифікація текстів українською мовою за функційними стилями
DOI:
https://doi.org/10.15407/intechsys.2025.02.090Ключові слова:
класифікація, функційний стиль, стильстилеметрія, векторизаціяАнотація
Вступ. Автоматична класифікація текстів за функційними стилями є важливим завданням в інженерії програмного забезпечення, оскільки вона дозволяє автоматизувати оброблення текстових даних для ефективного вирішення таких розповсюджених задач, як пошук інформації, аналіз документів тощо. Процес визначення функційного стилю вимагає аналізу лексичних, граматичних та стилістичних особливостей тексту з урахуванням його контексту. Основною складністю тут є те, що українська мова характеризується значною різноманітністю стилістичних варіацій. Наявні рішення,розроблені для інших мов, потребують суттєвої адаптації для української. У зв’язку з цим постає необхідність розроблення спеціалізованих методів, здатних ідентифікувати функційні стилі саме в українськомовних текстах.
Мета статті. Метою даної роботи є підвищення точності класифікації текстів українською мовою за функційними стилями шляхом розроблення методу та програмного забезпечення для автоматичного визначення стилю тексту.
Методи. Запропонований в статті багаторівневий метод класифікації текстів українською мовою за функційними стилями поєднує статистичний аналіз, аналіз ключових слів та контекстний аналіз на основі моделі BERT, що дозволяє враховувати семантичні та контекстуальні залежності в тексті. Етапами запропонованого методу є: збір статистичних параметрів тексту, визначення характерних лем для стилів, а також застосування контекстного аналізу для покращення класифікації текстів. Метод реалізовано в межах консольного застосунку, що базується на модульній архітектурі.
Результат. Запропонована модель значно перевершує як класичну BERT, так і SVM за метрикою Accuracy: вона досягла 0,829, тоді як BERT і SVM показали 0,646 і 0,612 відповідно. За точністю позитивних передбачень (Precision) запропонована модель продемонструвала 0,780, випередивши BERT (0,626) і SVM (0,541), що свідчить про зменшення кількості хибно-позитивних результатів. Показники Recall (0,709) і F1-score (0,729) також перевищують результати альтернатив, забезпечуючи збалансованість між точністю і повнотою. Показник AUC (0,952) підтверджує здатність моделі точніше розпізнавати стилі текстів, перевершуючи значення BERT (0,908) і SVM (0,834).
Висновки. Отримані результати підтверджують гіпотезу, що поєднання контекстних ознак, сформованих з допомогою BERT, із статистичними параметрами стилю забезпечує найвищу точність класифікації. Це підкреслює перевагу запропонованої моделі для задач, які вимагають високої точності та стабільності у визначенні функційних стилів тексту.
Посилання
What are the advantages and disadvantages of Random Forest? URL: https://aiml.com/what-are-the-advantages-and-disadvantages-of-random-forest/ [Accessed 15 Nov. 2024]
Understanding searches better than ever before. URL: https://web.archive.org/web/20210127042834/https://www.blog.google/products/search/search-language-understanding-bert/ [Accessed 15 Nov. 2024]
mshamrai/bert-base-ukr-eng-rus-uncased. URL: https://huggingface.co/mshamrai/bert-base-ukr-eng-rus-uncased [Accessed 15 Nov. 2024]
Slavic BERT NER. URL: https://github.com/deeppavlov/Slavic-BERT-NER/blob/master/README.md [Accessed 15 Nov. 2024]
multilingual.md. URL: https://github.com/google-research/bert/blob/master/multilingual.md [Accessed 15 Nov. 2024]
Areshenkov Yu. O. Stylistics of the Ukrainian language: lecture notes and lesson plans: teaching and methodological manual. KrDPU, Kryvyy Rih, 2007, 3-th ed., 18p. [In Ukrainian: Арешенков Ю. О. Стилістика української мови: конспект лекцій та плани занять : навч.-метод. посіб.] https://doi.org/10.31812/0564/2140
Artistic style as a type of language. Substyles of artistic style. Genres of artistic style. Colors of artistic style. URL: https://studfile.net/preview/5721078/page:36 [Accessed 15 Nov. 2024] [In Ukrainian: Художній стиль як різновид мови. Підстилі художнього стилю. Жанри художнього стилю. Колорити художнього стилю]
BERT 101. State Of The Art NLP Model Explained. URL: https://huggingface.co/blog/bert-101 [Accessed 15 Nov. 2024]
UberText 2.0. URL: https://lang.org.ua/en/ubertext [Accessed 15 Nov. 2024]
Brown corpus of the Ukrainian language. [In Ukrainian: Браунський корпус української мови]
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Information Technologies and Systems (Інформаційні технології та системи)

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Стаття публікується на умовах відкритого доступу за ліцензією CC BY-NC-ND 4.0 - Із Зазначенням Авторства – Некомерційною – Без Похідних 4.0 Міжнародною.