Please use this identifier to cite or link to this item:
https://dspace.univ-adrar.edu.dz/jspui/handle/123456789/4268
Title: | Preprocessing for Arabic Neural Machine Translation |
Authors: | Abbou, Mohamed Elcherif Guerrout, Omar Mediani, Mohammed / supervisor |
Keywords: | NLP NMT segmentation alignment data preprocessing Arabic translation BPE |
Issue Date: | 2020 |
Publisher: | University Ahmed DRAIA of Adrar |
Abstract: | Data driven methods have become the way to go when it comes to NLP, especially in the case of machine translation, with the rise of neural machine translation, a new method that incorporates the use of recurrent neural networks. These NMT systems are very sensitive to the quality the training data; a large rich well-structured data set can make huge difference in the performance of the translation.
This work aims to study the impact of preprocessing on the performance of Arabic-English Neural Machine Translation Systems. We limit our research on the effect of text segmentation.
We introduce a new alignment-based segmentation technique that tries to address the issue of translating from and into the Arabic language. We perform multiple translation experiments in which we use different Segmentation methods. Our results shows that preprocessing the training data improves the performance of the NMT model. We also report that our technique improves the translation performance and even outperform BPE in some cases, however did not match BPE best performing configuration أصبحت الأساليب المعتمدة على البيانات هي الطريق الذي يجب اتباعه عندما يتعلق الأمر بمعالجة اللغة الطبيعية ، خاصة في حالة الترجمة الآلية ، مع ظهور الترجمة الآلية العصبية ، وهي طريقة جديدة تتضمن استخدام الشبكات العصبية المتكررة. تعتبر أنظمة NMT حساسة للغاية لجودة بيانات التدريب ؛ يمكن لمجموعة كبيرة غنية من البيانات جيدة التنظيم أن تحدث فرقًا كبيرًا في أداء الترجمة. يهدف هذا العمل إلى دراسة تأثير المعالجة المسبقة على أداء أنظمة الترجمة الآلية العصبية من العربية إلى الإنجليزية. نحن نحد من بحثنا حول تأثير تجزئة النص. قدمنا تقنية تجزئة جديدة قائمة على المحاذاة تحاول معالجة مسألة الترجمة من وإلى اللغة العربية. أجرينا تجارب ترجمة متعددة استخدمنا فيها طرق تجزئة مختلفة. تظهر نتائجنا أن المعالجة المسبقة للبيانات تحسن أداء نموذج NMT بشكل ملحوظ. أبلغنا أيضًا أن أسلوبنا يعمل على تحسين أداء الترجمة بل ويتفوق على BPE في بعض الحالات ، ومع ذلك لم يتفوق على أفضل تكوين. BPE |
Description: | Intelligent Systems |
URI: | https://dspace.univ-adrar.edu.dz/jspui/handle/123456789/4268 |
Appears in Collections: | Mémoires de Master |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Preprocessing for Arabic Neural Machine Translation.pdf | 2.86 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.