СРАВНЕНИЕ ПОДХОДОВ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ НА РАЗНЫХ ЯЗЫКАХ

Авторы

  • Санжар Норкобилов

DOI:

https://doi.org/10.47390/SPR1342V3I12.2Y2023N28

Ключевые слова:

Машинный перевод, компьютерная лингвистика, обработка естественного языка, межъязыковой анализ.

Аннотация

В этой статье проводится сравнительное исследование того, как основные методы компьютерной лингвистики функционируют на типологически разных языках. С фокусом на машинный перевод (МП), анализируется сложность, которую лингвистическое разнообразие создает для компьютерных подходов. Разработка МП требует языково-специфических адаптаций, а не универсальной модели. Посредством обзора литературы и межъязыковых case study исследуются проблемы, включая различия в порядке слов, морфологическую сложность, лексическую неоднозначность и недостаточность ресурсов на разных языках. Результаты показывают сложности МП для таких языков как арабский, китайский, хинди и суахили. Обсуждение сфокусировано на влиянии уникальных лингвистических особенностей на методы как правило-основанный, статистический и нейронный МП, требуя корректировки вроде морфологического анализа и адаптированных данных. Это указывает на важность инклюзивной компьютерной лингвистики, которая выходит за рамки англоцентрических данных. Исследование заключает, что для эффективного моделирования структур примерно 7000 языков мира нужна гибкость и языково-специфическая кастомизация алгоритмов.

Библиографические ссылки

Attia, M., Pecina, P., Toral, A., Tounsi, L. & van Genabith, J. (2012). An open-source finite state morphological transducer for modern standard Arabic. In Proceedings of COLING 2012: Posters (pp. 125-134).

Bentivogli, L., Bisazza, A., Cettolo, M. & Federico, M. (2016). Neural versus phrase-based machine translation quality: a case study. arXiv preprint arXiv:1608.04631.

Boudelaa, S. & Marslen-Wilson, W. (2010). Aralex: A lexical database for Modern Standard Arabic. Behavior Research Methods, 42(2), 481-487.

Doron, E., Arielli, A., Choshen, L. & Dankin, L. (2021). Universal phonemic transcriptional system for endangered language documentation. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 (pp. 2235-2244).

Faruqui, M. & Pado, S. (2012). Towards a model of formal and informal address in Hindi. In Proceedings of the Eighth Workshop on Asian Language Resources (pp. 95-104).

Fransen, A., Bartels, C., Bilionis, I., Heij, V., Landsbergen, S., Embregts, P., ... & Nijholt, A. (2019). Low-resource phoneme recognition u sing transfer learning and a teacher-student curriculum. Proc. Interspeech 2019, 1133-1137.

Güngör, O. & Güngör, T. (2008, June). Disambiguation of Turkish homophones. In International Conference on Computational Linguistics and Intelligent Text Processing (pp. 229-239). Springer, Berlin, Heidelberg.

Habash, N. Y. & Sadat, F. (2006). Arabic preprocessing schemes for statistical machine translation. In Proceedings of the Human Language Technology Conference of the NAACL (pp. 49-52).

Hadash, A., Kermany, E., Wang, C., Petrov, S., & Hajishirzi, H. (2021). Translate without seeing: A script-agnostic approach for translation. arXiv preprint arXiv:2104.08143.

Hayward, K. & Corbett, G. G. (1988). Resolution rules in Qafar. Linguistics, 26(2), 259-284.

Feist, T. & Dwyer, A. (2018). Modeling morphosyntax for endangered language revival. In Proceedings of the 27th International Conference on Computational Linguistics (pp. 836-845).

Hu, M., Peng, Y., Wei, F. & Zhou, M. (2019). Explicit modeling of syntax-aware word meanings for machine translation. arXiv preprint arXiv:1904.00788.

Lakew, S. M., Lotriet, C., Mattiuz, M., & Horváth, T. (2021). Transfer learning for low-resourced languages: A survey. Speech Communication, 135, 88-102.

Загрузки

Опубликован

2024-01-06

Как цитировать

Норкобилов, С. (2024). СРАВНЕНИЕ ПОДХОДОВ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ НА РАЗНЫХ ЯЗЫКАХ. Ижтимоий-гуманитар фанларнинг долзарб муаммолари / Актуальные проблемы социально-гуманитарных наук / Actual Problems of Humanities and Social Sciences., 3(12/2). https://doi.org/10.47390/SPR1342V3I12.2Y2023N28