Автоматизоване вирівнювання речень в українсько-німецьких паралельних текстах
DOI:
https://doi.org/10.15407/intechsys.2025.01.050Ключові слова:
вирівнювання речень, паралельні тексти, машинний переклад, метрика BLEU, словникиАнотація
Вступ. Вирівнювання речень в українсько-німецьких паралельних текстах є актуальним завданням, яке дає змогу отримувати набори паралельних даних, необхідних для багатьох завдань комп’ютерної лінгвістики, таких як побудова паралельних корпусів та машинний переклад. Стаття описує основні завдання вирівнювання речень, розглядає наявні методи та аналізує їхні ідеї. На основі цього аналізу пропонується новий метод, який ґрунтується на підході Bleualign і використовує системи машинного перекладу та метрику BLEU для оцінки схожості речень. Однак він відрізняється використанням додаткових словників маркерів для галузевих термінів та сполучників, включаючи їхні синоніми.
Мета. Розроблення методу та відповідного програмного забезпечення автоматизованого вирівнювання речень в українсько-німецьких паралельних текстах.
Методи. За основу розробленого методу використано метод Bleualign та метрику BLEU. Його удосконалено використанням словників галузевих термінів та сполучників, а також передбачено фокусування на одній мовній парі — українсько-німецькій. Запропонований метод складається із 6 етапів, які дозволяють виконати вирівнювання речень в українсько-німецьких паралельних текстах. Запропонований метод програмно реалізовано із використанням мови програмування Python.
Результати. Розроблено новий метод вирівнювання речень для українсько-німецьких паралельних текстів та виконано його програмну реалізацію. Запропонований метод базується на статистичних підходах і не вимагає значних обчислювальних ресурсів. На відміну від методу Bleualign, у ньому використано словники галузевих термінів і сполучників для більш точного вирівнювання речень.
Висновки. Подальші дослідження включатимуть проведення експериментів і порівняння результатів вирівнювання, отриманих при застосуванні запропонованого методу, із результатами методу Bleualign.
Посилання
Gale W., Church K. A Program for Aligning Sentences in Bilingual Corpora. Computational Linguistics, 1993, Vol. 19 (1), 75–102. URL: https://www.researchgate.net/publication/220355307_A_Program_for_Aligning_Sentences_in_Bilingual_Corpora [Accessed 27 Nov. 2024]
Halácsy P., Kornai A., Nagy V., Németh L., Trón V. Parallel corpora for medium density languages. Recent Advances in Natural Language Processing IV, 2007, Issue 1, 47–258. URL: https://www.researchgate.net/publication/282780901_Parallel_corpora_for_medium_density_languages [Accessed 27 Nov. 2024].
Sennrich R., Volk M. MT-based sentence alignment for OCR-generated parallel texts. Proceedings of the 9th Conference of the Association for Machine Translation in the Americas: Research Papers, 2010, Issue 11. URL: https://www.researchgate.net/publication/281754851_MT-based_sentence_alignment_for_OCR-generated_parallel_texts [Accessed 27 Nov. 2024]
Thompson B., Koehn P. Vecalign: Improved Sentence Alignment in Linear Time and Space. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019, Issue 1, 1342–1348. URL: https://www.researchgate.net/publication/336999037_Vecalign_Improved_Sentence_Alignment_in_Linear_Time_and_Space [Accessed 27 Nov. 2024]. https://doi.org/10.18653/v1/D19-1136
Web Align Toolkit: Online parallel texts aligner and format converter. URL: http://phraseotext.univ-grenoble-alpes.fr/webAlignToolkit [Accessed 27 Nov. 2024]
InterText:parallel text alignment editor. URL: https://wanthalf.saga.cz/intertext [Accessed 27 Nov. 2024]
Liu L., Zhu M. Bertalign: Improved word embedding-based sentence alignment for Chinese-English parallel corpora of literary texts. Digital Scholarship in the Humanities, 2023, Vol. 38 (4), 621–634. URL: https://www.researchgate.net/publication/366682551_Bertalign_Improved_word_embeddingbased_sentence_alignment_for_Chinese-English_parallel_corpora_of_literary_texts [Accessed 27 Nov. 2024]. https://doi.org/10.1093/llc/fqac089
Lingtrain Aligner. URL: https://github.com/averkij/lingtrainaligner-editor/tree/t/master/docs2/docs/source [Accessed 27 Nov. 2024]
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Information Technologies and Systems

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Стаття публікується на умовах відкритого доступу за ліцензією CC BY-NC-ND 4.0 - Із Зазначенням Авторства – Некомерційною – Без Похідних 4.0 Міжнародною.