Portraits
Publié le
par
Chloé Ghobril

Arabic and Computational Processing

Interview with Nizar Habash

Interview with Nizar Habash, linguist and computer engineer. Nizar will be a speaker at the Autumn School of the IMA Language Centre dedicated to the didactics of Arabic. The Autumn School will be held from 21 to 25 October 2024.

Nizar Habash is a Professor of Computer Science at New York University Abu Dhabi (NYUAD). He is also the director of the Computational Approaches to Modeling Language (CAMeL) Lab.  Professor Habash specializes in natural language processing and computational linguistics. Before joining NYUAD in 2014, he was a research scientist at Columbia University's Center for Computational Learning Systems. He received his PhD in Computer Science from the University of Maryland College Park in 2003.  He holds two bachelors degrees, one in Computer Engineering and one in Linguistics and Languages. His research includes extensive work on machine translation, morphological analysis, and computational modeling of Arabic and its dialects. He has over 250 publications. Professor Habash is one of the recipients of the King Salman Academy for Arabic Language Award (2022); and he is the recipient of the Antonio Zampolli Prize (2024).
The intrinsic relationship between computer science and languages can still be surprising for some people. Being both an engineer and a linguist, can you tell us why it is more than natural?

While human languages are, at their core, structured and systematic, much like programming languages, human languages introduce much more ambiguity, idiosyncrasy, richness, and subtlety. These challenges impact both human-computer and human-human communication.  Computational linguistics (aka natural language processing), which sits at the intersection of linguistics and computer science, focuses on developing algorithms and models that enable machines to process and generate human language to support human-computer and human-human communication: from speech recognition to machine translation, and text generation. In the context of language learning and teaching, computational linguistics can help develop not only systems, but also insights that support educators and learners.

In the context of language learning and teaching, computational linguistics can help develop not only systems, but also insights that support educators and learners.

Can you explain to the readers what is meant by readability and what is meant by readability assessment? What are the tangible results of the readability assessment?

Readability refers to how easily a reader can understand a piece of written text. Factors such as sentence length, vocabulary complexity, and text structure all play a role. Readability assessment is the systematic process to determine the suitability of a text for a specific audience or reading level. For example, readability assessment tools can help ensure that educational materials match students' comprehension abilities, or that public documents are accessible to a wide audience.  Systems of readability assessment can be used to alert human editors or teachers to readability issues. Together with text generation paraphrasing models, readability assessment models allow us to control the level of text rewriting, i.e. provide simpler (or even more complex) vocabulary and structure as needed.

Can you tell us a bit about the projects you’ll be presenting at IMA’s Autumn School and how they serve the Arabic language?

I will present two specific projects on Arabic Readability – SAMER and BAREC -- and place them in the context of the larger goals of my lab, the Computational Approaches to Modeling Language (CAMeL) Lab at New York University Abu Dhabi.  CAMeL Lab focuses on developing state of the art open-source tools and data sets to support Arabic natural language processing: http://www.camel-lab.com/.

SAMER (Simplification of Arabic Masterpieces for Extensive Reading) was a project co-led with Prof. Muhamed Al Khalil and funded by a New York University Abu Dhabi (NYUAD) Research Enhancement Fund.  The main objective of SAMER was to create standards and tools for the simplification of modern fiction in Arabic to school-age learners. The project contributions include: (a) designing a five-level prototypical readability scale,  (b) developing a 36k-word Readability-leveled Thesaurus for Arabic, (c) creating a simplification interface platform as an extension to Google Docs, and (d) constructing a 160K word three-level parallel graded corpus, a first of its kind, that maps text from Arabic fictional masterpieces to easier readability levels.  All these resources are publicly available: http://samer.camel-lab.com/.

BAREC (Balanced Arabic Readability Evaluation Corpus) is an ongoing project, co-led with Prof. Hanada Taha (Zayed University) and funded by the Abu Dhabi Arabic Language Centre.  In contrast to SAMER, which focused on modeling readability at the word level, and the Arabi21/Taha effort which focused on the book level, BAREC focuses on sentence level readability assessment on a 19-level scale inspired by Arabi21/Taha.  BAREC goals include (a) the curation of a 10 million words that encompasses diverse genres, topics, and countries of origin, with a particular focus on readability levels, (b) the annotation of 1 million word subset manually for readability levels, and (c) developing artificial intelligence (AI) tools to assist content creators in assessing the readability levels of their materials based on specific target audiences.  All these resources will be publicly available: http://barec.camel-lab.com/.

 

Arabic is an excellent language for computational processing, mainly because it combines many challenges and successfully modeling it has consequences to over 400 million speakers.

Is Arabic a good test subject for language processing? Is it more complex than other languages because of its dialects? What singularities could you mention about Arabic? 

Arabic is an excellent language for computational processing, mainly because it combines many challenges and successfully modeling it has consequences to over 400 million speakers. Arabic challenges include its orthographic ambiguity due to elided diacritics, its morphological richness that include templatic and concatenative processes and numerous features leading to a very large number of forms per lexical entry, its dialectal variation across space (geographical dialects) and time (historical forms that are still being used), and the high degree of variability and noise in Arabic as used on daily basis including code-switching with other languages, high degree of spelling variants, and even the use of scripts other than Arabic. None of these individual issues are unique to Arabic particularly, but their coexistence makes processing Arabic more complex and more interesting, with possible benefits for other languages, too.

Do you have a message for the people who want to attend our Autumn School in October?

For anyone attending the Autumn School, I would say: come with curiosity and openness to learn and share your experience with others working on the teaching and learning Arabic.  I am excited to share insights and ideas from working in Arabic computational linguistics and I look forward to learning more from others and their perspectives.

اللغة العربية والمحوسبة

مقابلة مع نزار حبش، لسانيّ ومهندس حواسيب وهو أحد المحاضرين المدعوين في المدرسة الخريفية التي يكرسها مركز اللغة والحضارة العربية في معهد العالم العربي حول تدريسية اللغة العربية. ستُقام المدرسة بين 21 و25 أكتوبر 2024.  

نزار حبش أستاذ في العلوم الحاسوبية في جامعة نيويورك أبو ظبي، وهو كذلك مدير مخبر المقاربات الحوسبية لنمذجة اللغة، مختص بالألسنيات المحوسبة، قبل أن يلتحق بجامعة نيويورك، كان باحثاً في مركز نُظم التعليم المحوسب في جامعة كولومبيا.  حصل على درجة الدكتوراه في العلوم الحاسوبية من جامعة ماريلاند بارك عام 2003 وهو يحمل شهادتي ماجستير، إحداهما في الهندسة الحاسوبية والأخرى في الألسنيات واللغات، تضم أبحاثه أعمالاً واسعة في الترجمة الآلية والتحليل الصرفي والنمذجة المحوسبة للعربية ولهجاتها. لديه أكثر من 250 منشوراً علمياً. الأستاذ حبش هو واحد ممن مُنحوا جائزة مجمع الملك سلمان للغة العربية عام 2022 وقد مُنح مؤخراً عام 2024 جائزة أنتونيو زامبولي.  

 

مازالت تلك العلاقة الطبيعية واللصيقة بين العلوم الحاسوبية واللغات تثير الاستغراب وتُفاجئ، هل لك أن تحدثنا لما هذه العلاقة أكثر من طبيعية، بصفتك تجمع بين الاختصاصين، مهندس ولساني في آن معاً؟  

رغم أن اللغات الإنسانية في نواتها العميقة منتظمة وممنهجة كما لغات البرمجة الهندسية، إلا أن اللغات الإنسانية (في استخداماتها الطبيعية الملموسة) تُدخل التباسات وفرادات لغوية وغنى وتلاوين كثيرة. هذه التحديات من شأنها التأثير على التواصل بين الحاسب والإنسان، ولكن كذلك بين الإنسان والإنسان. اللسانيات المحوسبة التي تتموضع في تقاطع بين الألسنيات والعلوم الحاسوبية، تركز على تطوير خوارزميات ونماذج تتيح للآلات أن تعمل لتوليد تراكيب اللغة البشرية، ومساعدة التواصل بين الآلة والإنسان من جهة وبين الإنسان والإنسان من جهة أخرى: بدءاً من برمجيات التعرف على الصوت إلى الترجمة الآلية ونهاية بتوليد النصوص صنعياً. في سياق تعلّم وتعليم اللغات، تساعد الألسنية المحوسبة ليس على تطوير النُظم وحسب، ولكن كذلك لإيجاد طرائق تساعد المتعلمين والمعلمين معاً. 

 

اللسانيات المحوسبة التي تتموضع في تقاطع بين الألسنيات والعلوم الحاسوبية، تركز على تطوير خوارزميات ونماذج تتيح للآلات أن تعمل لتوليد تراكيب اللغة البشرية، ومساعدة التواصل بين الآلة والإنسان من جهة وبين الإنسان والإنسان من جهة أخرى

هل يمكنك لو تفضلت، ان تشرح للقراء معنى المقروئية وتقييم المقروئية؟ وما هي النتائج الملموسة من تقييم المقروئية؟  

تشير المقروئية إلى مدى السهولة التي يمكن لقارئ أن يفهم بها نصاً مكتوباً. تلعب عوامل كثيرة دورها في ذلك، من بينها طول الجملة، تعقيد المفردات وكذلك التركيب النصّي. تقييم المقروئية هو المعالجة الممنهجة لتحديد مستوى نص ما بما يتوافق مع مستوى الجمهور المتعلم ومستواه.  
على سبيل المثال، من شأن أدوات تقييم المقروئية أن تساعد للتأكد من أن المصادر التربوية المعتمدة في سياق تعليمي ما، توافق مستوى فهم الطلاب، أو أن مواد المناهج العامة متاحة لجمهور عريض.  
يمكن لنظم تقييم المقروئية كذلك أن تُستخدم لتنبيه الناشرين أو المدرسين فيما يتعلق بمشاكل المقروئية. بضمها إلى نماذج توليد إعادة صياغة الجمل، يمكن لأدوات تقييم المقروئية أن تتيح لنا مراقبة وضمان مستوى نص وإعادة صياغته بما يتناسب مع مستوى ما مستهدف، بمعنى أنه يمكننا أن نولد تراكيباً ومفردات أكثر سهولة (أو حتى أكثر تعقيداً) بحسب الحاجة.  

هل لك أن تخبرنا بشكل موجز عن المشاريع التي ستعرضها ضمن إطار المدرسة الخريفية في معهد العالم العربي وكيف لها أن تساعد اللغة العربية؟ 

سأعرض مشروعين نعمل عليهما متعلقين بمقروئية اللغة العربية وهما سامر وبارق، وسأبرز موقعهما ضمن سياق أكبر هو المختبر الذي أشرف عليه وهو مختبر المعالجة المحوسبة لنمذجة اللغة the Computational Approaches to Modeling Language (CAMeL)،
 .وهو مختبر يركز على تطوير قاعدة بيانات شاملة لمساعدة معالجة اللغة العربية  
سامر وهو اختزال ل (Simplification of Arabic Masterpieces for Extensive Reading)  
كان مشروعاً تشاركت قيادته مع الأستاذ محمد الخليل ومولته جامعة نيوورك في أبو ظبي هدفه الأساسي هو خلق معايير وأدوات لتسهيل الأدب العربي لمتعلمي المدارس. ضمت مساهمات المشروع ما يلي: أولاً: تصميم نموذج أولي لتدرج المقروئية ، ثانياً: تطوير معجم يضم 36 ألف مدخل للعربية موسومة بمستوى مقروئيتها، ثالثاً خلق منصة مبسطة كامتداد لجوجل دوكس، ورابعاً وأخيراً بناء مدونة مؤلفة من 160 ألف كلمة متدرجة وفق ثلاثة مستويات بالتوازي، وهي الأولى من نوعها التي تدرج نصوصاً من أمهات الأدب العربي إلى نصوص أسهل في مقروئيتها. كل هذه المصادر متاحة للعموم على المنصة التالية:   
http://samer.camel-lab.com/
أما بارق  
BAREC (Balanced Arabic Readability Evaluation Corpus)  
فهو مشروع قيد الإنجاز أتشارك قيادته مع الدكتورة هنادة طه من جامعة زايد ويُموّله مركز أبو ظبي للغة العربية، على خلاف مشروع سامر الذي يركّز على نمذجة مقروئية الكلمة، وعلى خلاف مشروع عربي 21/طه الذي يركّز على مستوى الكتاب، يركز بارق على مستوى مقروئية الجملة على سلم متدرج من 19 مستوى مستوحى من مشروع عربي 21/ طه.  
من بين أهداف مشروع بارق، أولاً تنسيق 10 ملايين كلمة تشمل أجناساً ومواضيعاً وبلدان منشأ مختلفة مع تركيز خاص على مستوى المقروئية، ثانياً: تدوين شروح وهوامش توضيحية لمليون كلمة ومندرجاتها فيما يتعلق بمستوى المقروئية وأخيراً تطوير أدوات الذكاء الصنعي لمساعدة صانعي المحتوى على تقييم مستوى مقروئية موادهم وموائمتها لمن تتوجه إليهم من جمهور. كل هذه المصادر ستكون متاحة قريباً على منصة بارق. 

العربية لغة ممتازة للمعالجة، لأنها بشكل أساسي تشكل تحديات كثيرة ولأن لنمذجتها نتائج تعود على أكثر من 400 مليون متحدث

هل العربية نموذج ملائم للمعالجة الحوسبية للغة؟ هل هي أكثر تعقيداً من اللغات الأخرى بسبب لهجاتها؟ ما الخصوصيات التي يمكنك أن تذكرها حول اللغة العربية؟  

العربية لغة ممتازة للمعالجة، لأنها بشكل أساسي تشكل تحديات كثيرة ولأن لنمذجتها نتائج تعود على أكثر من 400 مليون متحدث.  وتشمل تحديات العربية  إملاءها من شكل وحركات وغناها الصرفي الذي يشمل عمليات اشتقاق تقليدية وفق أنساق صرفية معروفة أو وفق الأوزان غير الخطية وعمليات الاشتقاق المعروفة في اللغات السامية وبسبب سمات عديدة أخرى، مما من شأنه أن يجعل المدخل المعجمي ضخماً. كذلك تنوعاتها اللهجاتية الجغرافية، وفق المناطق، ولكن أيضاً تنوعها وفق الزمن، فهناك أشكال لغوية تاريخية مازالت تُستخدم، والدرجة العالية من التنوع في العربية المستخدمة يومياً والتنقل بين اللغات المختلفة ضمن متن العربية المستخدمة يومياً، كذلك التنوع في طرق نطقها بحسب المتحدث و تنوع الأبجديات التي نكتب بها العربية أحياناً. لا مسأله من كل تلك المسائل التي ذكرتها تتفرد بها العربية على حدى ولكن تواجدها في آن معاً يجعل معالجة العربية أكثر تعقيداً وأكثر إثارة مع احتمال الإفادة للغات الأخرى.  

ألديك رسالة توجهها لحضور المدرسة الخريفية في أكتوبر القادم؟  

أودّ أن أقول لكل من يرغب بحضور المدرسة الخريفية، تعالوا بفضول وانفتاح للتعلم ومشاركة تجربتكم  مع آخرين يعلمون ويتعلمون العربية, أنا متحمس لمشاركة إضاءات وأفكار من عملي في المعالجة الحوسبية للغة العربية وأتطلع للتعلم من الآخرين أكثر ومن منظورهم.

Autres Portraits