Вимірювання текстової надмірності, лексичного багатства та достовірності: мультиметричний підхід до оцінювання текстів
DOI:
https://doi.org/10.15407/intechsys.2026.02.025Ключові слова:
аналіз тексту, коефіцієнт водянистості, лексична різноманітність, обробка природної мови, обчислювальна лінгвістика, фактична точність, якість тексту, type-token ratioАнотація
Вступ. Сучасна епоха генерації даних характеризується експоненційним зростанням обсягів текстової інформації в різних галузях — від соціальних мереж та відгуків користувачів до технічної документації та наукових публікацій. Це створює нагальну потребу в ефективних методах організації та аналізу неструктурованих текстових даних. Традиційні підходи, що обмежуються підрахунком слів або їх базовою присутністю, більше не задовольняють вимоги глибокого розуміння текстового контенту. Попередні дослідження зосереджувалися на окремих аспектах оцінки якості тексту, таких як індекси читабельності (Flesch Reading Ease, Gunning Fog Index) або міри лексичної різноманітності (TTR, MATTR, MTLD), однак інтеграція множинних перспектив оцінювання залишалася недостатньо дослідженою.
Мета роботи: розробка комплексного мультиметричного фреймворку для всебічного оцінювання якості текстів, що поєднує аналіз надмірності, лексичного багатства та фактичної точності. Дослідження спрямоване на подолання обмежень однометричних підходів шляхом інтеграції різних кількісних мір у єдину аналітичну систему та порівняння практичних реалізацій у двох провідних програмних екосистемах.
Методи. У роботі застосовано комплекс кількісних метрик для оцінювання різних аспектів текстової якості. Коефіцієнт водянистості (Wateriness Coefficient) використовується для квантифікації текстової надмірності через вимірювання пропорції стоп-слів. Type-Token Ratio (TTR), Moving Average Type-Token Ratio (MATTR) та Measure of Textual Lexical Diversity (MTLD) застосовуються для оцінки лексичного багатства шляхом порівняння унікальних слів до загальної кількості токенів. Показник фактичної точності (Factual Accuracy Score) оцінює інформаційну цілісність через верифікацію тверджень відносно достовірних джерел. Усі метрики реалізовано паралельно у двох технологічних середовищах: ML.NET (C#) з використанням модульної конвеєрної структури та Python з застосуванням бібліотек NLTK, spaCy та scikit-learn. Експериментальне дослідження проведено на корпусі коротких інформаційних та аналітичних текстів, що включає академічні анотації, новинні параграфи та загальні інформаційні документи.
Результати. Порівняльний аналіз реалізацій метрик у Python та ML.NET продемонстрував статистично порівнянні результати при обробці ідентичних вхідних текстів, підтверджуючи консистентність запропонованого підходу незалежно від технологічної платформи. Експериментальні дані показали, що тексти з високим коефіцієнтом водянистості демонструють знижену лексичну різноманітність та дещо зменшені показники когерентності, емпірично підтверджуючи теоретичні припущення про взаємозв’язок між надмірністю та лінгвістичною виразністю. ML.NET продемонстрував потенційну перевагу в швидкості виконання та оптимізації пам’яті для обчислювально інтенсивних задач, що є критичним для обробки великих обсягів текстових даних. Водночас Python показав дещо вищу стабільність лексичних метрик, що робить його придатнішим для дослідницьких середовищ. Модульна структура ML.NET дозволяє легко інтегрувати ці метрики в більші аналітичні або корпоративні системи без суттєвих модифікацій коду.
Висновки. Дослідження демонструє практичну здійсненність та цінність інтегрованого мультиметричного підходу до оцінювання текстової якості. Запропонований фреймворк успішно поєднує структурні характеристики тексту (надмірність, лексичне багатство) з оцінкою семантичної якості (фактична точність), забезпечуючи всебічний аналіз, що виходить за межі поверхневих характеристик. Порівняння технологічних платформ надає практичні рекомендації щодо вибору інструментів залежно від специфічних вимог проєкту: ML.NET для продуктивності в корпоративних системах та Python для гнучкості в дослідженнях. Методологія може бути застосована в різних галузях — від цифрових комунікацій та маркетингових досліджень до наукового огляду літератури та автоматизованого контролю якості контенту. Майбутні дослідження можуть розширити запропонований фреймворк через інтеграцію глибинних моделей оцінювання фактичності на базі трансформерів, розширення на багатомовні корпуси та розробку композитного індексу текстової якості.
Посилання
Biber D. Variation Across Speech and Writing. Cambridge University Press, Cambridge, 1988. https://doi.org/10.1017/CBO9780511621024
Goyal P., Pandey S.K., Jain K. Deep learning for natural language processing: Creating neural networks with Python. Apress, 2018. https://doi.org/10.1007/978-1-4842-3685-7
Covington M.A., McFall J.D. Cutting the Gordian knot: The moving-average type–token ratio (MATTR). Journal of Quantitative Linguistics, 2010, Vol. 17 (2), 94–100. https://doi.org/10.1080/09296171003643098
Top NLP Algorithms & Concepts. Data Science Central, (n.d.). URL: https://www.datasciencecentral.com/top-nlp-algorithms-amp-concepts/ [Accessed 12 Feb. 2026]
Jarvis S. Short texts, best-fitting curves and new measures of lexical diversity. Language Testing, 2002, Vol. 19 (1), 57–84. https://doi.org/10.1191/0265532202lt220oa
Jurafsky D., Martin J.H. Speech and Language Processing (3rd ed. draft). Stanford University, (n.d.).
Lu B. A corpus-based evaluation of lexical and syntactic complexity in ESL writing. The 27th International Conference on English Teaching and Learning, 2010, 1–20.
Esposito D., Esposito F. Programming ML.NET: Train, evaluate, and deploy machine learning models in .NET applications. Microsoft Press, 2022.
Panchenko D., Maksymenko D., Turuta O., Luzan M., Tytarenko S., Turuta O. Ukrainian News Corpus as Text Classification Benchmark. The International Conference, 2022. https://doi.org/10.1007/978-3-031-14841-5_37
Maksymenko D., Turuta O. Interpretable Conversation Routing via the Latent Embeddings Approach. Computation, 2024, Vol. 12 (12), Article 237. https://doi.org/10.3390/computation12120237
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Власником авторського права є видавець Твору (Інститут інформаційних технологій та систем НАН України) та/або видавець Твору (ВД «Академперіодика» НАН України), якому Інститут інформаційних технологій та систем НАН України на підставі субліцензійного видавничого договору надав право опублікування твору та право зазначати видавця після знака авторського права.

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Стаття публікується на умовах відкритого доступу за ліцензією CC BY-NC-ND 4.0 - Із Зазначенням Авторства – Некомерційною – Без Похідних 4.0 Міжнародною.