Measuring Textual Redundancy, Lexical Richness, and Veracity: a Multi-Metric Approach to Text Evaluation

І.О. Кобилін; В.Д. Бєгунова; Д.C. Цибань; В.О. Ковальчук

doi:10.15407/intechsys.2026.02.025

Автор(и)

І.О. Кобилін Харківський національний університет радіоелектроніки https://orcid.org/0000-0002-4552-9616
В.Д. Бєгунова Харківський національний університет радіоелектроніки https://orcid.org/0009-0000-3804-818X
Д.C. Цибань Харківський національний університет радіоелектроніки https://orcid.org/0009-0001-2661-9034
В.О. Ковальчук Харківський національний університет радіоелектроніки https://orcid.org/0009-0004-3286-7888

DOI:

https://doi.org/10.15407/intechsys.2026.02.025

Ключові слова:

аналіз тексту, коефіцієнт водянистості, лексична різноманітність, обробка природної мови, обчислювальна лінгвістика, фактична точність, якість тексту, type-token ratio

Анотація

Вступ. Сучасна епоха генерації даних характеризується експоненційним зростанням обсягів текстової інформації в різних галузях — від соціальних мереж та відгуків користувачів до технічної документації та наукових публікацій. Це створює нагальну потребу в ефективних методах організації та аналізу неструктурованих текстових даних. Традиційні підходи, що обмежуються підрахунком слів або їх базовою присутністю, більше не задовольняють вимоги глибокого розуміння текстового контенту. Попередні дослідження зосереджувалися на окремих аспектах оцінки якості тексту, таких як індекси читабельності (Flesch Reading Ease, Gunning Fog Index) або міри лексичної різноманітності (TTR, MATTR, MTLD), однак інтеграція множинних перспектив оцінювання залишалася недостатньо дослідженою.

Мета роботи: розробка комплексного мультиметричного фреймворку для всебічного оцінювання якості текстів, що поєднує аналіз надмірності, лексичного багатства та фактичної точності. Дослідження спрямоване на подолання обмежень однометричних підходів шляхом інтеграції різних кількісних мір у єдину аналітичну систему та порівняння практичних реалізацій у двох провідних програмних екосистемах.

Методи. У роботі застосовано комплекс кількісних метрик для оцінювання різних аспектів текстової якості. Коефіцієнт водянистості (Wateriness Coefficient) використовується для квантифікації текстової надмірності через вимірювання пропорції стоп-слів. Type-Token Ratio (TTR), Moving Average Type-Token Ratio (MATTR) та Measure of Textual Lexical Diversity (MTLD) застосовуються для оцінки лексичного багатства шляхом порівняння унікальних слів до загальної кількості токенів. Показник фактичної точності (Factual Accuracy Score) оцінює інформаційну цілісність через верифікацію тверджень відносно достовірних джерел. Усі метрики реалізовано паралельно у двох технологічних середовищах: ML.NET (C#) з використанням модульної конвеєрної структури та Python з застосуванням бібліотек NLTK, spaCy та scikit-learn. Експериментальне дослідження проведено на корпусі коротких інформаційних та аналітичних текстів, що включає академічні анотації, новинні параграфи та загальні інформаційні документи.

Результати. Порівняльний аналіз реалізацій метрик у Python та ML.NET продемонстрував статистично порівнянні результати при обробці ідентичних вхідних текстів, підтверджуючи консистентність запропонованого підходу незалежно від технологічної платформи. Експериментальні дані показали, що тексти з високим коефіцієнтом водянистості демонструють знижену лексичну різноманітність та дещо зменшені показники когерентності, емпірично підтверджуючи теоретичні припущення про взаємозв’язок між надмірністю та лінгвістичною виразністю. ML.NET продемонстрував потенційну перевагу в швидкості виконання та оптимізації пам’яті для обчислювально інтенсивних задач, що є критичним для обробки великих обсягів текстових даних. Водночас Python показав дещо вищу стабільність лексичних метрик, що робить його придатнішим для дослідницьких середовищ. Модульна структура ML.NET дозволяє легко інтегрувати ці метрики в більші аналітичні або корпоративні системи без суттєвих модифікацій коду.

Висновки. Дослідження демонструє практичну здійсненність та цінність інтегрованого мультиметричного підходу до оцінювання текстової якості. Запропонований фреймворк успішно поєднує структурні характеристики тексту (надмірність, лексичне багатство) з оцінкою семантичної якості (фактична точність), забезпечуючи всебічний аналіз, що виходить за межі поверхневих характеристик. Порівняння технологічних платформ надає практичні рекомендації щодо вибору інструментів залежно від специфічних вимог проєкту: ML.NET для продуктивності в корпоративних системах та Python для гнучкості в дослідженнях. Методологія може бути застосована в різних галузях — від цифрових комунікацій та маркетингових досліджень до наукового огляду літератури та автоматизованого контролю якості контенту. Майбутні дослідження можуть розширити запропонований фреймворк через інтеграцію глибинних моделей оцінювання фактичності на базі трансформерів, розширення на багатомовні корпуси та розробку композитного індексу текстової якості.

Посилання

Biber D. Variation Across Speech and Writing. Cambridge University Press, Cambridge, 1988. https://doi.org/10.1017/CBO9780511621024

Goyal P., Pandey S.K., Jain K. Deep learning for natural language processing: Creating neural networks with Python. Apress, 2018. https://doi.org/10.1007/978-1-4842-3685-7

Covington M.A., McFall J.D. Cutting the Gordian knot: The moving-average type–token ratio (MATTR). Journal of Quantitative Linguistics, 2010, Vol. 17 (2), 94–100. https://doi.org/10.1080/09296171003643098

Top NLP Algorithms & Concepts. Data Science Central, (n.d.). URL: https://www.datasciencecentral.com/top-nlp-algorithms-amp-concepts/ [Accessed 12 Feb. 2026]

Jarvis S. Short texts, best-fitting curves and new measures of lexical diversity. Language Testing, 2002, Vol. 19 (1), 57–84. https://doi.org/10.1191/0265532202lt220oa

Jurafsky D., Martin J.H. Speech and Language Processing (3rd ed. draft). Stanford University, (n.d.).

Lu B. A corpus-based evaluation of lexical and syntactic complexity in ESL writing. The 27th International Conference on English Teaching and Learning, 2010, 1–20.

Esposito D., Esposito F. Programming ML.NET: Train, evaluate, and deploy machine learning models in .NET applications. Microsoft Press, 2022.

Panchenko D., Maksymenko D., Turuta O., Luzan M., Tytarenko S., Turuta O. Ukrainian News Corpus as Text Classification Benchmark. The International Conference, 2022. https://doi.org/10.1007/978-3-031-14841-5_37

Maksymenko D., Turuta O. Interpretable Conversation Routing via the Latent Embeddings Approach. Computation, 2024, Vol. 12 (12), Article 237. https://doi.org/10.3390/computation12120237