المهارات الرقمية11 فصل ثاني

الحادي عشر خطة جديدة

icon

معالجة اللغات الطبيعية

تعد معالجة اللغة الطبيعية جزءًا لا يتجزأ من الحياة اليومية، وقد أصبحت أكثر أهمية مع تطبيق تكنولوجيا اللغة في مجالات مُتنوِّعة مثل البيع بالتجزئة (على سبيل المثال، في روبوتات الدردشة لخدمة العملاء) و كما هو واضح الآن، يستخدم المُساعدون الافتراضيّون مثل Alexa من Amazon وSiri من Apple، معالجة اللغة الطبيعية للاستماع إلى استفسارات المستخدمين والعثور على الإجابات. 

ويمكن تعريف معالجة اللغات الطبيعية على انها أحد فروع الذكاء الاصطناعي الذي يمكّن الحواسيب من فهم اللغة البشرية وتفسيرها وتحليلها وتوليد اللغة بشكل تلقائي وفعّال.

 

مراحل معالجة اللغات الطبيعية:

هناك عدة مراحل تمر بها عملية تطبيق معالجة اللغات الطبيعية تتضمن:

وفيما يلي توضيح لكل مرحلة:

1.إدخال البيانات

يُقصد بمرحلة إدخال البيانات: إدخال كل مفرادت أي لغة من اللغات التي يتحدث بها البشر وتكون المدخلات على شكل:

  • نصوص مكتوبة
  • جمل وفقرات محادثة
  • كلام منطوق وجمل محكية

 

2.المعالجة القبلية للبيانات

وهنا يتم تجهيز البيانات لغايات يمكن الاستفادة منها واستخدامها في عملية تدريب النظام (كما تعلمنا في الدرس السابق). ويتم تنفيذ هذه المرحلة على أربعة أقسام تنفذ بالترتيب وبما يتناسب مع اللغة المستخدمة بالتدريب والنتيجة المراد تحقيقها:

أ.مرحلة تنظيف البيانات

هنا يتم إزالة كل علامات الترقيم ،الحركات،الرموز والروابط غير المرغوب بها والتي يمكن يسبب وجودها نتائج غير مرغوب بها.

ب.مرحلة توحيد البيانات

هنا يتم توحيد شكل النصوص والحروف لضمان أن تكون جميع الكلمات على نفس النسق، وتختلف حسب اللغة،فمثلاً في اللغة العربية يتم

  • توحيد الألف المقصورة وتحويلها الى الألف القائمة
  • توحيد الهاء المربوطة والتاء المربوطة
  • إزالة الهمزات

 

ج.مرحلة تحليل النصوص

وهنا يتم تقسيم النص الى اجزاء صغيرة بحيث يطلق على الواحدات الصغيرة إسم الرموز (Tokens)،وقد تكون هذه الرموز كلمات فردية أو عبارات أو جمل.

 

د.مرحلة استخراج جذر الكلمات

المقصود بهذه العملية هو استخراج أصل الكلمة التي نشأت منها هذه الكلمة.وهذه العملية من أصعب العمليات عند التعامل مع اللغة العربية نظراً لتعقيدها.

 

وفيما يلي جدولاً يمثل أمثلة على المعالجة القبلبة للبيانات في اللغة العربية:

 

3.استخراج الصفات/الخصائص

في هذه المرحلة،يتم تحويل النصوص الى الشكل الرقمي(تمثيل رقمي) حتى يمكن للنماذج التعامل معها.

 

4.تدريب النموذج

كما تعلمنا سابقاً،هنا يتم اختيار النموذج المناسب لما سنقوم به،ثم تبدأ عملية تدريبه على البيانات التي تم معالجتها تبعاً للخصائص التي تم استخراجها.

 

5.تقييم النموذج

في هذه المرحلة،يتم قياس اداء النموذج من خلال مقاييس مختلفة لغايات التأكد من انه يقوم بعمله بالشكل المطلوب.وكما تعلمنا في الدرس السابق هي مرحلة مهمة عند بناء أي نموذج تعلم للآلة.

 

 

المهمات الأساسية لمعالجة اللغات الطبيعية

هناك أربعة مهمات أساسية تحدث أثناء مراحل معالجة البيانات، والتي يمثلها الشكل التالي:

 

اولاً: تحليل النص  (Text Analysis   )

في هذه المرحلة يتم :

1.تقسيم النص وتجزأته الى أجزاء صغيرة كل جزء يسمى (Tokens)

مثال:

البيانات في الشكل الأولي : "الحلم سيد الأخلاق"

البيانات بعد عملية التجزئة والتقسيم : "الحلم" – "سيد" – "الأخلاق"

 

2.تحليل الصرف: هنا يتم اجراء تحليل كمال لكل كلمة، حيث تطبيق قواعد الصرف في اللغة عليها :

  • يتم معرفة الجذر لهذه الكلمة
  • يتم معرفة الصيغة لهذه الكلمة : اسم فاعل ، اسم مفعول، مفرد، جمع ،...

لنعود الى مثالنا السابق "الحلم سيد الاخلاق"

تحديد الجذر : الحلم الجذر  هو ّح-ل-م "، سيد الجذر هو :س-ي-د" ،الاخلاق الجذر : "خ-ل-ق"

تحليل الصيغ: الحلم: اسم مفرد ، سيد :اسم فاعل، الاخلاق : جمع والمفرد خُلق"

3.تحليل النحو :وهنا يقصد معرفة تركيب الجملة حسب قواعد اللغة والعلاقة النحوية بين المفردات(فعل،فاعل،مبتدأ،خبر،....)

وحسب مثالنا : "الحلم سيد الأخلاق"

الحلم:مبتدأ مرفوع بالضمة الظاهرة

سيد:خبر المبتدا مرفوع بالضمة الظاهرة وهو مضاف

الأخلاق:مضاف إليه مجرور بالكسرة الظاهرة.

 

4.تحليل الدلالة: ويقصد به فهم المعنى الحقيقي للجملة والكلمات التي تتشكل منها بالإضافة الى فهم السياق العام الذي تم استخدام الجملة فيه، وتهدف هذه العملية الى الفهم الدقيق والعميق للنصوص لغايات تطوير تطبيقات ذكية ولها فاعلية كبيرة في هذا المجال.

وحسب ذات المثال: "الحلم سيد الاخلاق"

فإن دلالة كل كلمة من الكلمات كما يلي:

-"الحِلم" في اللغة يعني الصبر والتسامح وضبط النفس، ويشير إلى التروي وعدم التعجل في ردود الفعل، خاصة في المواقف التي تستدعي الغضب أو الانفعال.

-"سيد" تعني المتفوق أو المتميز، وتشير إلى أن صفة "الحلم" تعتبر صفة سامية وذات منزلة عالية.

-"الأخلاق" تشمل مجموعة من القيم والسلوكيات التي تُشكل شخصية الإنسان وتوجهه في تعامله مع الآخرين، وتضم القيم النبيلة كالصدق، والأمانة، والكرم.

 

ثانيا: استخراج المعلومات ()Information Extraction)

بعد الإنتهاء من عملية تحليل النص،تبدأ عملية استخراج المعلومات ويقصد بها تحويل النصوص غير المنظمة الى بيانات منظمة يمكن تحليلها من خلال:

1.التعرف الى الكيانات المسماة: ويتم من خلالها تحديد أسماء الأشخاص،الأماكن،المنظمات وغيرها من المسميات.

2.استخراج العلاقات:ويقصد بها تحديد الروابط بين الكيانات المسماة التي تم التعرف عليها في في مرحلة التعرف الى الكيانات المسماة.

3.استخراج الأحداث: هنا يتم التعرف الى الأحداث والربط بينها وبين الأشخاص والاماكن.

 

وكي نتعرف الى المفاهيم السابقة، دعنا نأخذ المثال التالي ونطبق عليه ما سبق:

مثال: لديك النص التالي "زارت لينا مدينة البتراء الوردية في الأردن برفقة صديقتها لمى التي تعمل مع اليونيسف في أيلول 2024"

ويمثل الجدول التالي البيانات التي تم استخراجها من النص السابق حسب النقاط الثلاثة :

 

 

ثالثا: فهم النص (Text Understanding)

هنا تبدأ مرحلة الفهم العميق للنص، والتي تتضمن تحديد معاني النص الدقيقة وتفسير السياق العام والعلاقات بين جمل النص.وحتى نستطيع فهم النص بشكل عميق، لا بدّ من:

أ.تحليل المشاعر: معرفة ما يحتويه النص من احاسيس ومشاعر وتصنيفها الى إيجابية وسلبية أو محايدة. وأكثر ما يتم استخدام تحليل المشاعر في

  • وسائل التواصل الاجتماعي
  • تقييم المنتجات
  • مراجعة العملاء

مثال:

 

ب.الاستنتاج النصي:ويقصد به القدرة على استنتاج معلومات جديدة إو غير مباشرة من النص  وذلك لغايات فهم العلاقات الضمنية بين الأفكار واستخلاص المعلومات التي لم يتم ذكرها بالشكل الصريح.

 

رابعا: توليد النص (Text Generation)

وأخيرا،تأتي مرحلة الحصول على النص المطلوب. وممكن ان يأتي هذا النص من خلال ثلاث آليات هي:

التلخيص التلقائي: حيث يتم الحصول على نص ملخص مختصر  بشكل تلقائي من النصوص الطويلة التي يتم إدخالها.

الترجمة الآلية:ممكن الحصول على نسخة مترجمة باللغة المطلوبة من النص الذي تم إدخاله.

الإستجابة للنصوص: تقوم الآلة بعملية إرسال نص على أي استفسار تم إرساله بالإضافة الى إجراء محادثة نصية مع المستخدم.

 

تِقْنيّات معالجة اللغات الطبيعية وطرقها

بدأت الأبحاث حول مُعالجة اللغة الطبيعية بعد وقتٍ قصير من اختراع أجهزة الكمبيوتر الرقميَّة في الخمسينيات من القرن الماضي، وتعتمد على كل من اللغويات والذكاء الاصطناعي. وتتنوع الطرق المستخدمة ما بين :

 

1.الطرق التقليدية

ومن أهم هذه الطرق "النماذج الإحصائية والتقنيات القائمة على القواعد"

وتشمل هذه الطريقة النماذج النحوية ونماذج اللغات، حيث تعتمد هذه الطريقة على القواعد اللغوية المكتوبة بخط اليد لغايات فهم اللغة ومن ثم تحليل النصوص المدخلة اعتمادا على القواعد النحوية والصرفية (علم النحو وعلم الصرف الخاص باللغة).

ومن خلال هذه الطريقة يتم بناء القاموس الخاص باللغة بالاضافة الى المحللات النحوية وأنظمة الاستنتاج اللغوي.

 

2.الطرق الحديثة

ومن أشهر الطرق الحديثة "التعلم العميق".

من فترة طويلة، كانت غالبية الطرق المستخدمة لدراسة مشاكل NLP تستخدم نماذج تعلم الآلة الضحلة ذات مواصفات بدائية مستهلكة للوقت الى أن ظهرت النماذج القائمة على الشبكات العصبية

حيث تعتمد تقنية "التعلم العميق" على استخدام ما يسمى بالشبكات العصبية العميقة من أجل فهم النصوص وتحليلها ومن ثم توليد النصوص الجديدة.

ومن أبرز نماذج التعلم العميق:

1.الشبكات العصبية الالتفافية :لغايات معرفة الانماط وتصنيف النصوص

2.الشبكات العصبية المتكررة:وتستخدم لغايات معالجة البيانات والنصوص المتسلسلة

3.المحولات: وهي من أكثر النماذج المتطورة والتي يتم استخدامها لغايات حل المشكلات الكبيرة مثل 3GPT والتي تعتبر عبارة عن تقنية تم تطويرها منذ وقت قريب وقامت بعمل ضجة كبيرة في عالم الذكاء الاصطناعي حيث أنه يُعد ضمن أفضل الأشياء في إنشاء المحتوى، ويحتوي على بنية لغوية، وأيضًا لغة بشرية.

4.نماذج اللغة الكبيرة:هي عبارة عن نماذج تم تدريبها على كميات كبيرة جدا من النصوص،حيث تستطيع فهم النصوص وتوليدها بطريقة متقدمة وبدقة عالية، ومن هذه النماذج:

  • نموذج GPT-4 حيث إن بِنيته الأساسية تعتمد على المحولات المدرّبة مسبقًا، ويحتوي على عدد كبير من المتغيرات Parameters ، ويُستخدم في كتابة المقالات الطويلة بناءً على مقترح أو معلومة مسبقة.
  • نموذج BERT الذي يتميز بفهمه للسياق الثنائي الاتجاه للنصوص العربية وغيرها.

 

التطبيقات العملية لمعالجة اللغات الطبيعية

كما سبق وتعلمنا ،فإنّ معالجة اللغات الطبيعية  تشمل كل من تحليل النصوص، واستخراج المعلومات، والترجمة الآلية، والتعرف على الصوت، وتحليل المحادثات، وغيرها. يوكل ما سبق يعتبر من التطبيقات العملية في مجال معالجة اللغات الطبيعية والتي تعتمد على  تقنيات متقدمة مثل التعلم الآلي والشبكات العصبية العميقة وتقنيات تحليل البيانات. والتي تهدف في المحصلة إلى ان يصبح  الكمبيوتر  قادرًا على فهم اللغة البشرية والاستجابة لها بطريقة ذكية ومتقنة.

ويمثل الجدول التالي  عدد من  التطبيقات العملية لمعالجة اللغات الطبيعية:

 

Jo Academy Logo