Please use this identifier to cite or link to this item: https://dspace.univ-adrar.edu.dz/jspui/handle/123456789/4268
Title: Preprocessing for Arabic Neural Machine Translation
Authors: Abbou, Mohamed Elcherif
Guerrout, Omar
Mediani, Mohammed / supervisor
Keywords: NLP
NMT
segmentation
alignment
data preprocessing
Arabic translation
BPE
Issue Date: 2020
Publisher: University Ahmed DRAIA of Adrar
Abstract: Data driven methods have become the way to go when it comes to NLP, especially in the case of machine translation, with the rise of neural machine translation, a new method that incorporates the use of recurrent neural networks. These NMT systems are very sensitive to the quality the training data; a large rich well-structured data set can make huge difference in the performance of the translation. This work aims to study the impact of preprocessing on the performance of Arabic-English Neural Machine Translation Systems. We limit our research on the effect of text segmentation. We introduce a new alignment-based segmentation technique that tries to address the issue of translating from and into the Arabic language. We perform multiple translation experiments in which we use different Segmentation methods. Our results shows that preprocessing the training data improves the performance of the NMT model. We also report that our technique improves the translation performance and even outperform BPE in some cases, however did not match BPE best performing configuration
أصبحت الأساليب المعتمدة على البيانات هي الطريق الذي يجب اتباعه عندما يتعلق الأمر بمعالجة اللغة الطبيعية ، خاصة في حالة الترجمة الآلية ، مع ظهور الترجمة الآلية العصبية ، وهي طريقة جديدة تتضمن استخدام الشبكات العصبية المتكررة. تعتبر أنظمة NMT حساسة للغاية لجودة بيانات التدريب ؛ يمكن لمجموعة كبيرة غنية من البيانات جيدة التنظيم أن تحدث فرقًا كبيرًا في أداء الترجمة. يهدف هذا العمل إلى دراسة تأثير المعالجة المسبقة على أداء أنظمة الترجمة الآلية العصبية من العربية إلى الإنجليزية. نحن نحد من بحثنا حول تأثير تجزئة النص. قدمنا تقنية تجزئة جديدة قائمة على المحاذاة تحاول معالجة مسألة الترجمة من وإلى اللغة العربية. أجرينا تجارب ترجمة متعددة استخدمنا فيها طرق تجزئة مختلفة. تظهر نتائجنا أن المعالجة المسبقة للبيانات تحسن أداء نموذج NMT بشكل ملحوظ. أبلغنا أيضًا أن أسلوبنا يعمل على تحسين أداء الترجمة بل ويتفوق على BPE في بعض الحالات ، ومع ذلك لم يتفوق على أفضل تكوين. BPE
Description: Intelligent Systems
URI: https://dspace.univ-adrar.edu.dz/jspui/handle/123456789/4268
Appears in Collections:Mémoires de Master

Files in This Item:
File Description SizeFormat 
Preprocessing for Arabic Neural Machine Translation.pdf2.86 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.