1) ما معنى LLM أصلًا؟

LLM اختصار لـ Large Language Model، أي “نموذج لغوي كبير”. هو نموذج ذكاء اصطناعي مدرّب على كميات ضخمة من النصوص لكي يتعامل مع اللغة: يقرأ، يكمل، يلخص، يعيد الصياغة، يشرح، ويولد نصوصًا جديدة تبدو مترابطة ومقنعة.

2) هل صحيح أن LLM مجرد نموذج يتوقع الكلمة التالية؟

نعم، هذه الفكرة صحيحة من حيث المبدأ، لكنها غير كافية لفهم ما يحدث فعلًا. لأن هذه المهمة البسيطة، عندما تُنفذ على نطاق هائل وببنية قوية مثل Transformer، تجعل النموذج يلتقط أنماطًا معقدة جدًا في اللغة والسياق والعلاقات بين الأفكار، فيبدو وكأنه يفهم أكثر مما توحي به العبارة المختصرة.

3) ما الفرق بين LLM وChatbot عادي؟

الـ chatbot التقليدي غالبًا يعمل بقواعد أو تدفقات محددة أو نماذج أبسط. أما LLM فهو نموذج لغوي واسع القدرات يمكنه التعامل مع مهام متنوعة جدًا عبر اللغة نفسها: كتابة، تلخيص، تفسير، تحليل، مقارنة، وصياغة. لهذا هو أوسع بكثير من مجرد “دردشة”.

4) ما معنى Tokens؟

التوكنات هي الوحدات الصغيرة التي يقرأ بها النموذج النص. قد تكون كلمة كاملة، أو جزءًا من كلمة، أو رقمًا، أو رمزًا. النموذج لا يرى الجملة كما يراها الإنسان مباشرة، بل يحولها أولًا إلى هذه الوحدات، ثم يعالجها رياضيًا.

5) ما هي نافذة السياق Context Window؟

هي المساحة التي يستطيع النموذج أن يراها دفعة واحدة أثناء المعالجة. كلما كانت نافذة السياق أكبر، استطاع التعامل مع نصوص أطول أو تفاصيل أكثر في الطلب نفسه. لكن هذا لا يعني تلقائيًا أنه سيستخدم كل ما بداخلها بالكفاءة نفسها.

6) لماذا قد ينسى النموذج بعض التفاصيل في النص الطويل؟

لأن الأداء لا يعتمد فقط على حجم السياق، بل أيضًا على طريقة استخدامه. أحيانًا تكون المعلومات المهمة في وسط النص الطويل أقل حضورًا من بدايته أو نهايته، وهي مشكلة معروفة باسم Lost in the Middle. لذلك ترتيب المعلومات داخل الطلب مهم جدًا.

7) ما الذي يجعل Transformer مهمًا لهذه الدرجة؟

لأن Transformer قدّم طريقة أقوى بكثير لمعالجة اللغة عبر الانتباه الذاتي Self-Attention، ما سمح للنموذج بربط العناصر البعيدة داخل النص والتعامل مع السياق بصورة أكثر مرونة وكفاءة من كثير من البنى السابقة.

8) لماذا تختلف النماذج عن بعضها إذا كانت كلها LLMs؟

لأن الفروق لا تأتي من الاسم فقط، بل من: البيانات التي تدربت عليها طريقة التدريب والتهذيب التخصصات التي تم تحسينها سياسات الشركات في الأمان والسلوك وأحيانًا اختلافات داخلية في المعمارية أو التوزيع لهذا قد تجد نموذجًا ممتازًا في البرمجة، وآخر أقوى في الكتابة الطويلة، وثالثًا أفضل في الاختصار أو البحث.

9) هل LLM يفهم فعلًا مثل الإنسان؟

ليس بالشكل البشري البسيط الذي يتخيله كثير من الناس. لكنه أيضًا ليس مجرد آلة ميكانيكية سطحية بلا أي قدرة حقيقية. الأدق أنه نموذج يملك تمثيلات لغوية قوية جدًا تجعله قادرًا على التعامل مع النصوص والمعاني والعلاقات بشكل عملي ومفيد، من دون أن يعني ذلك أنه يمتلك وعيًا أو فهمًا إنسانيًا كاملًا.

10) هل يكفي LLM وحده ليصبح وكيلًا ذكيًا؟

لا. الـ LLM هو عقل لغوي قوي، لكنه وحده لا يكفي للتنفيذ في العالم الخارجي. لكي يتحول إلى وكيل، يحتاج إلى أدوات، وذاكرة، وصلاحيات، ومسار عمل، وآلية مراجعة. وهذا هو الجسر الذي يقودنا إلى المقال التالي.

ما هو LLM؟ كيف يتدرّب، وكيف يقرأ، ولماذا يبدو كأنه يفهم؟

Abdullah OzonMarch 23, 20260 comments

هناك جملة تتكرر كثيرًا كلما حاول أحدهم تبسيط نماذج اللغة الكبيرة:
“هي فقط تتوقع الكلمة التالية.”

الجملة ليست خاطئة تمامًا، لكنها مضللة جدًا إذا تُركت بهذه البساطة. لأنها توحي بشيء ساذج ومحدود، بينما التجربة الفعلية مع هذه النماذج تقول شيئًا مختلفًا تمامًا: أنت تسأل، فيشرح. تعطيه فقرة مضطربة، فيرتبها. تطلب منه مقارنة، فيقارن. تضعه أمام نص طويل، فيلخصه ويستخرج منه نقاطًا ويعيد بناءه بطريقة تبدو أحيانًا أقرب إلى الفهم منها إلى مجرد الإكمال. وهنا يبدأ الالتباس الحقيقي: إذا كان هذا النظام في جوهره “يتوقع ما يلي”، فلماذا يبدو أحيانًا وكأنه يقرأ المعنى نفسه، لا الكلمات فقط؟

هذا السؤال هو المدخل الصحيح إلى عالم LLM.
ليس: ما اسم النموذج الأقوى هذا الشهر؟
ولا: أي شركة عندها أفضل واجهة؟
بل: ما الذي يوجد داخل هذا “العقل اللغوي” أصلًا؟ كيف بُني؟ كيف يتعامل مع النص؟ ولماذا يبدو مقنعًا إلى هذه الدرجة، حتى عندما نعرف أنه لا يفكر بالطريقة البشرية نفسها؟

المشكلة أن الحديث عن نماذج اللغة الكبيرة غالبًا يقع في أحد طرفين متعبين. الطرف الأول يتعامل معها كما لو أنها سحر تقني غامض: شيء خارق يصعب تفسيره، لكنه “يفهمك” بطريقة ما. والطرف الثاني يختزلها إلى وصف جاف جدًا: مجرد آلة إحصائية تتعامل مع التوكنات. كلا الطرفين يضيّع الفكرة. الأول يبالغ، والثاني يبسّط أكثر مما ينبغي. والنتيجة أن كثيرًا من الناس يستخدمون هذه النماذج يوميًا من دون أن يمتلكوا نموذجًا ذهنيًا واضحًا لما تفعله فعلًا، وما الذي لا تفعله، ولماذا تنجح بشكل مذهل أحيانًا وتتعثر بشكل غريب أحيانًا أخرى.

هذا المقال لا يريد أن يحول الموضوع إلى درس جامعي، ولا إلى عرض انبهار. هدفه أبسط وأهم: أن يفتح الصندوق الأسود بقدر يكفي للفهم الحقيقي. كيف وصلنا إلى LLM من أصل حقل معالجة اللغة؟ كيف يتدرّب؟ كيف يقرأ النص؟ ما الذي تفعله التوكنات والسياق والانتباه؟ ولماذا تختلف النماذج عن بعضها رغم أن كثيرًا منها مبني على أفكار متقاربة؟ ثم، في النهاية، لماذا لا يكفي هذا كله وحده ليصير النظام وكيلًا ينفذ في العالم الحقيقي؟

سوف نعرف كيف يعمل LLM؟ من التدريب إلى القراءة إلى الإحساس الظاهري بالفهم..

ولأننا قطعنا الطريق حتى هنا عبر تطور الذكاء الاصطناعي: كيف انتقل من القواعد الجامدة إلى عصر الوكلاء؟ ثم عبر تطور الذكاء التوليدي: كيف انتقل من فهم الكلمات إلى إنتاج النص والصورة والصوت والفيديو؟، فهذه هي اللحظة التي نترك فيها “الغرفة” قليلًا، وندخل إلى عقل الكاتب نفسه. لا لننزع عنه الغموض فقط، بل لنعرف كيف نتعامل معه بهدوء ودقة بدل المبالغة أو التبسيط الساذج.

أين يقع LLM داخل خريطة الذكاء الاصطناعي؟

قبل أن نفكك LLM من الداخل، من المفيد أن نضعه في مكانه الصحيح داخل الخريطة الأكبر. لأن واحدًا من أسباب الالتباس حوله أن الناس تتعامل معه أحيانًا كأنه الذكاء الاصطناعي كله، بينما هو في الحقيقة طبقة محددة داخل مشهد أوسع بكثير.

إذا بدأنا من الأعلى، فلدينا Artificial Intelligence بوصفه المظلة الكبرى: أي محاولة لبناء أنظمة تنتج مخرجات توحي بدرجة من الإدراك أو القرار أو التنبؤ أو التوليد. داخل هذه المظلة ظهر تعلم الآلة، ثم التعلم العميق، ثم فروع أو تطبيقات أو موجات مثل الرؤية الحاسوبية، والتعرف على الصوت، والذكاء التوليدي، والأنظمة الوكيلة. وفي هذا المشهد كله، يقع LLM في نقطة شديدة الأهمية: عند تقاطع اللغة مع التمثيل العميق مع القدرة العامة نسبيًا على أداء مهام متنوعة.

ولو أردنا تبسيط الصورة أكثر، يمكننا التفكير في الذكاء الاصطناعي عبر ثلاث طبقات وظيفية: الإدراك، والتفكير، والتنفيذ.
الإدراك يعني أن يفهم النظام المدخلات: نصًا، صورة، صوتًا، أو فيديو.
التفكير يعني أن يربط ما فهمه بهدف أو سياق أو منطق، ويخرج باستنتاج أو ترتيب أو خطة.
أما التنفيذ، فهو أن يتحول هذا كله إلى فعل باستخدام أدوات أو أنظمة خارجية.

هنا يقع LLM في منطقة مثيرة للاهتمام جدًا: هو ليس مجرد طبقة إدراك لغوي خام، لأن قدرته لا تتوقف عند فهم الكلمات. وفي الوقت نفسه، هو ليس نظام تنفيذ بحد ذاته. هو أقرب إلى عقل لغوي يقف على الحد بين الإدراك والتفكير: يقرأ النص، يلتقط العلاقات، يعيد تنظيم المعنى، ويولد مخرجات تبدو أحيانًا وكأنها تفكير أو تحليل أو استدلال. لكنه، وحده، لا يخرج إلى العالم ليفتح ملفًا أو يحدّث قاعدة بيانات أو يرسل رسالة. هذه المرحلة سنصل إليها لاحقًا في من Assistant إلى Agent: كيف ينتقل LLM من الكلام إلى التنفيذ؟.

هذه التفرقة مهمة جدًا، لأنها تمنع اثنين من أكثر أنواع الخلط انتشارًا. الأول هو اعتبار LLM مجرد chatbot أنيق، بينما هو في الحقيقة طبقة لغوية أعمق من ذلك بكثير. والثاني هو اعتباره “وكيلًا” أو “منفذًا” من تلقاء نفسه، بينما هو في أصله نموذج لغوي، يحتاج إلى طبقات إضافية من الأدوات والذاكرة والتنظيم لكي يتحول إلى شيء يعمل خارج النص.

وإذا أردنا صياغة المسألة بأوضح شكل ممكن، فيمكن القول:
LLM ليس الذكاء الاصطناعي كله، لكنه اليوم واحد من أهم العقول التي أعادت ترتيب شكل الذكاء الاصطناعي الحديث.
ومن هنا يصبح السؤال التالي طبيعيًا جدًا: إذا كان هذا النموذج يحتل هذا الموقع المركزي، فكيف وصلنا إليه أصلًا؟ كيف انتقلنا من القواعد اليدوية والتمثيلات البسيطة إلى هذا الشكل من “عقل اللغة” الذي يبدو أحيانًا أكثر مرونة مما كان يتوقعه كثيرون؟

كيف وصلنا إلى LLM؟ من القواعد إلى المحولات

رحلة معالجة اللغة من القواعد الى المحولات

لفهم LLM بشكل نظيف، من الخطأ أن نبدأ به وكأنه ظهر مكتملًا من أول محاولة. ما نراه اليوم هو نتيجة سلسلة طويلة من المحاولات داخل معالجة اللغة الطبيعية، أو NLP. وهذا المجال نفسه لم يبدأ مع النماذج الضخمة، بل بدأ من سؤال أبسط بكثير: كيف نجعل الآلة تتعامل مع اللغة البشرية أصلًا؟ ليس مع الأرقام أو الإشارات، بل مع شيء مليء بالالتباس والسياق والتلميح والاستثناءات. هنا بدأت الرحلة.

في البدايات، كانت المقاربة أقرب إلى المنطق والقواعد. نقسم الجملة، نحدد نوع الكلمة، نستخرج الاسم أو الفعل أو الكيان، ثم نحاول بناء فهم منظم فوق ذلك. هذه الأدوات كانت مفيدة جدًا في مهام كثيرة، وما زالت بعض آثارها حاضرة حتى اليوم، لكنها حملت معها مشكلة مزمنة: اللغة ليست جدول قواعد نظيفًا. الكلمة نفسها قد تتغير وظيفتها بحسب السياق، والجملة قد تعني عكس ظاهرها، والمعنى لا يعيش دائمًا في الكلمة المفردة بل في العلاقة بين الكلمات. وهنا بدأ التحول من “كتابة القاعدة” إلى “تعلم النمط”.

في تلك المرحلة ظهرت تمثيلات مثل Bag of Words و TF-IDF. الفكرة في ظاهرها عملية: لنحوّل النص إلى أرقام يمكن للحاسوب التعامل معها. لكن هذه الأرقام كانت فقيرة جدًا من حيث المعنى. النموذج يعرف أن كلمة ما تكررت كثيرًا أو قليلًا، لكنه لا يعرف حقًا ما علاقتها بالكلمات الأخرى، ولا كيف يتغير معناها داخل الجملة. ولهذا، كانت هذه المرحلة خطوة مهمة، لكنها ليست ما صنع “عقل اللغة” الذي نعرفه اليوم.

ثم جاءت نقطة التحول الأولى الحقيقية مع Word2Vec. هنا لم تعد الكلمة مجرد خانة في جدول، بل صارت تمثيلًا متجهيًا يحمل شيئًا من علاقتها الدلالية بغيرها. ورقة ميكولوف وزملائه عام 2013 كانت من اللحظات التي جعلت هذا التحول عمليًا وواسع التأثير: الكلمات التي تظهر في سياقات متشابهة بدأت تتموضع قريبًا من بعضها داخل فضاء التمثيل، وهذا أعطى النماذج وسيلة أفضل بكثير للتعامل مع المعنى بدل العدّ فقط.

لكن Word2Vec، رغم أهميته، لم يحل مشكلة اللغة كلها. كان جيدًا في تمثيل العلاقات العامة بين الكلمات، لكنه ثابت إلى حد كبير: الكلمة تحصل على تمثيل واحد، بينما البشر يعرفون أن الكلمة قد يتغير معناها جذريًا بحسب الجملة. أضف إلى ذلك أن اللغة ليست كلمات مبعثرة فقط، بل سلاسل وسياقات وعلاقات زمنية. وهنا ظهرت الشبكات التكرارية مثل RNN ثم LSTM كمحاولة لإعطاء النموذج نوعًا من الذاكرة أثناء القراءة: أن يمر على الكلمات واحدة تلو الأخرى ويحتفظ بما يفيده من الماضي القريب. كانت هذه قفزة مهمة فعلًا، لكنها بقيت تعاني من مشكلتين ثقيلتين: البطء، وصعوبة الإمساك بالعلاقات البعيدة كلما طال النص.

ولأن الترجمة الآلية كانت من أكثر المجالات التي تكشف حدود هذه البنى، ظهرت أنظمة Seq2Seq ثم آليات Attention التي سمحت للنموذج بالتركيز على الأجزاء الأكثر أهمية من النص الأصلي أثناء توليد المخرج. هذه اللحظة كانت بمثابة اعتراف ضمني بأن “الذاكرة التسلسلية وحدها لا تكفي”. النموذج يحتاج طريقة أنظر بها إلى النص على شكل علاقات وتركيز، لا مجرد سلسلة تمر عليه من اليسار إلى اليمين.

ثم جاءت ورقة Attention Is All You Need عام 2017 لتقول: ماذا لو أخذنا هذه الفكرة إلى نهايتها المنطقية؟ ماذا لو بنينا النموذج على الانتباه نفسه، لا كإضافة مساعدة، بل كبنية مركزية؟ هذا هو المكان الذي ظهر فيه Transformer، ومعه تغير شكل اللعبة بالكامل. النموذج لم يعد مضطرًا إلى القراءة التسلسلية البطيئة وحدها، بل صار قادرًا على النظر إلى أجزاء النص معًا، وربط العناصر البعيدة، والتدرب على نحو أكثر توازيًا وكفاءة. وهنا يبدأ الطريق الحقيقي نحو LLM بصيغته الحديثة.

إذا أردنا تلخيص هذه الرحلة بجملة واحدة، فهي كالتالي:
بدأنا بمحاولة تنظيم اللغة، ثم انتقلنا إلى ترميزها رقميًا، ثم إلى تمثيل معناها، ثم إلى بناء ذاكرة لها، ثم إلى بناء انتباه قادر على ربط عناصرها. وعندما اجتمعت هذه الخيوط مع البيانات الضخمة والحوسبة الأقوى، صار ممكنًا بناء النماذج التي نعرفها اليوم.

بالنسبة لصاحب المتجر الذي استخدمناه كمثال في المقالات السابقة، هذا كله يعني شيئًا بسيطًا جدًا: الكاتب الذي يعمل معه اليوم لم يظهر فجأة. هو نتيجة سنوات طويلة من المحاولات لجعل الآلة أقل غباء أمام اللغة. من أنظمة تتعثر أمام الجمل الطويلة، إلى نماذج تستطيع تلخيص الوصف، وإعادة صياغة الردود، وتوحيد نبرة المحتوى، والتعامل مع طلبات تبدو متنوعة جدًا رغم أنها تخرج من “عقل لغوي” واحد.

لكن هذا يقودنا إلى خطوة أكثر دقة. إذا كان هذا العقل قد خرج من كل هذه المراحل، فما الذي يميز الجيل الحالي تحديدًا؟ لماذا لا نقول ببساطة إنه “نموذج لغة متقدم”، وننتهي؟ هنا يظهر مفهوم مهم جدًا: Foundation Models.

ما معنى أن يكون LLM نموذجًا أساسيًا؟

قبل الجيل الحالي، كان من المعتاد غالبًا أن نفكر في النماذج على أنها أدوات متخصصة: واحد للتصنيف، واحد للترجمة، واحد للتلخيص، واحد للإجابة، وربما واحد آخر لكل مهمة دقيقة. هذا المنطق لم يختفِ تمامًا، لكنه لم يعد الطريقة المركزية التي ننظر بها إلى النماذج الكبرى اليوم. مع Foundation Models تغيّرت الفكرة: بدل أن تبني نموذجًا جديدًا من الصفر لكل مهمة، تبني نموذجًا أساسًا واسع التدريب، ثم توجّهه أو تخصّصه أو تستخدمه في طيف كبير من المهام المختلفة. ستانفورد مثلاً تصف هذه النماذج بأنها مدربة على بيانات واسعة النطاق، ثم يمكن تكييفها لاحقًا لاستخدامات عديدة.

وهنا يقع LLM بوصفه أشهر نموذج أساس لغوي. كلمة “Large” لا تعني فقط عددًا كبيرًا من المعاملات أو حجمًا تقنيًا ضخمًا، بل تشير أيضًا إلى الاتساع في البيانات والقدرات العامة نسبيًا. وكلمة “Language” لا تعني أنه محصور في الكتابة الأدبية مثلًا، بل أنه يتمحور حول النص واللغة كواجهة مركزية للفهم والإنتاج. أما كلمة “Model” فهي تذكير مهم بأنه في النهاية بناء رياضي متعلم، لا كيانًا واعيًا خلف الشاشة.

أهمية هذا المفهوم أنه يغير طريقة استخدامنا للنموذج. لم يعد الأمر: “ابحث عن أداة لكل مهمة”، بل: “كيف أستخدم هذا العقل الأساس بطريقة مناسبة للمهمة؟” وهذا هو السبب في أنك تستطيع أن تطلب من النموذج نفسه أن يكتب، ثم يلخص، ثم يقارن، ثم يقترح، ثم يعيد الصياغة، وكل هذا داخل بيئة واحدة. ليس لأنه صار “كل شيء”، بل لأنه بُني كقاعدة عامة يمكن توجيهها بعدة طرق.

لكن هذه الفكرة تجرّ معها سؤالًا مباشرًا: إذا كان هذا النموذج الأساس بهذا الاتساع، فكيف يُبنى أصلًا؟ وهل يولد مساعدًا جاهزًا من البداية؟ أم أنه يمر بمراحل مختلفة قبل أن يصبح بهذا الشكل الذي نستخدمه اليوم؟ هنا ندخل إلى أحد قلبَي المقال: التدريب.

كيف يتدرّب LLM؟ من التعلّم الخام إلى المساعد الموجّه

حين يستخدم الناس نموذجًا لغويًا اليوم، فهم يتعاملون عادة مع النسخة “المهذبة” منه: نموذج يجيب بأدب، ويرتب أفكاره، ويحاول أن يكون مفيدًا، وأحيانًا يتحفظ أو يعتذر أو يرفض. لكن هذه ليست نقطة البداية. هذه هي النسخة التي وصلت إليك بعد عدة مراحل من الصقل. أما في الأصل، فالنموذج يمرّ عادة بثلاث طبقات رئيسية من البناء، وكل طبقة تضيف شيئًا مختلفًا تمامًا: لغة، ثم سلوكًا، ثم قدرًا من الانضباط.

المرحلة الأولى: Pretraining — عندما يتعلم النموذج اللغة من العالم كما هو

هذه هي المرحلة التي تُبنى فيها المادة الخام. تخيّل أنك أحضرت كاتبًا مبتدئًا، ثم وضعته في مكتبة هائلة: كتب، مقالات، نقاشات، وثائق، مواقع، شيفرات، وأساليب متباينة جدًا. ثم قلت له شيئًا واحدًا فقط: أكمل ما ينقص. هذا، بتبسيط شديد، هو منطق pretraining.

في هذه المرحلة لا يكون النموذج “مساعدًا” بعد، ولا “خبيرًا” في خدمة العملاء، ولا “كاتبًا تسويقيًا”. هو يتعلم عبر مهمة أساسية جدًا: توقّع الجزء التالي من التسلسل اللغوي. قد تكون كلمة، أو جزءًا من كلمة، أو رمزًا بحسب بنية التوكنات التي يعمل بها. ومع تكرار هذا على نطاق هائل، يبدأ النموذج في التقاط أشياء لا تبدو بسيطة كما توحي العبارة المختصرة “يتوقع الكلمة التالية”:
يلتقط بنى الجمل، وأنماط الأسلوب، والعلاقات بين الأفكار، وأشكال الشرح، وبعض أنماط الاستدلال، وحتى أثر الترتيب والسياق في المعنى.

هنا يقع أول سوء فهم كبير. حين يُقال إن النموذج “يتعلم فقط التنبؤ بما يلي”، يظن البعض أن الأمر يشبه خاصية الإكمال التلقائي القديمة في لوحة المفاتيح. لكن الفرق بينهما شاسع. لأن الإكمال البسيط يعمل على مساحات محدودة جدًا وبنماذج صغيرة نسبيًا، بينما pretraining في النماذج الضخمة يجعل هذه المهمة نفسها وسيلة لتعلّم قدر كبير من البنية الداخلية للغة والعلاقات داخلها. ليس لأنه قُصد منه أن “يفهم” مثل البشر، بل لأن المهمة البسيطة، عندما تُضخّم جدًا، تبدأ في إنتاج قدرات تبدو أوسع بكثير من بساطتها الظاهرة.

لكن هذه المرحلة وحدها لا تكفي. النموذج هنا ما يزال Base Model: أي أنه يملك لغة واسعة نسبيًا، لكنه لا يعرف بعد كيف يكون “مساعدًا جيدًا” بالمعنى الذي يتوقعه المستخدم. قد يكمل بطريقة ذكية، نعم، لكن من دون التزام بسلوك حواري منظم أو أسلوب خدمة واضح أو حس عملي مناسب.

لو وضعناه عند صاحب المتجر في هذه المرحلة، فقد يعطي ردًا لغويًا مقبولًا على شكوى زبون، لكنه قد يكون باردًا، أو غير منظم، أو واثقًا أكثر مما ينبغي، أو غير ملتزم بنبرة العلامة التجارية. ليس لأنه سيئ، بل لأنه ببساطة لم يُدرَّب بعد على أن يكون مساعدًا موجّهًا.

المرحلة الثانية: SFT — عندما يتعلم كيف يجيب، لا فقط كيف يكمل

هنا تبدأ النقلة التي تهم المستخدم مباشرة. في Supervised Fine-Tuning أو SFT لا نكتفي بأن النموذج تعلّم اللغة من المواد الخام، بل نبدأ بتعليمه كيف تبدو الإجابة الجيدة. بدل أن نتركه فقط يتوقع ما يلي داخل نصوص العالم كما هي، نعطيه أمثلة أكثر توجيهًا:
سؤال → جواب ممتاز
طلب → تنفيذ بصيغة منظمة
تعليمات → استجابة مفهومة ومفيدة

هذه المرحلة هي التي تغيّر شخصية النموذج في عين المستخدم. لم يعد فقط “كاتبًا خامًا” يعرف اللغة، بل بدأ يتشكل كمساعد يتوقع منه الناس أن يفهم المقصود من السؤال، وأن يرد بطريقة مرتبة، وأن يحافظ على شكل حواري أكثر نضجًا.

وهنا تظهر قيمة الأمثلة. إذا أعطيت النموذج آلافًا أو ملايين الأمثلة على ردود دعم فني جيدة، أو تلخيصات مرتبة، أو أسئلة تعليمية مع أجوبة واضحة، فهو لا يحفظها حرفيًا بالطبع، لكنه يتعلم منها شكل السلوك المطلوب: كيف يبدأ، كيف يرتب، كيف يلتقط الطلب، وكيف يصوغ المخرج بطريقة أقرب لما يريده البشر.

في مثال صاحب المتجر، هذه هي المرحلة التي يبدأ فيها النموذج بالاقتراب من أسلوب العمل الحقيقي. بدل أن ينتج إجابات لغوية عامة، يمكن أن يتعلم نمط الردود المهذبة، أو قوالب أوصاف المنتجات، أو النبرة الرسمية اللطيفة، أو طريقة تلخيص الرسائل الواردة. هنا يبدأ “الكاتب” في الغرفة ليس فقط بفهم اللغة، بل بفهم شكل الخدمة المطلوب منه.

ومع ذلك، حتى بعد SFT، تبقى مشكلة جوهرية قائمة: النموذج قد يعرف كيف يعطيك جوابًا أنيقًا، لكن هذا لا يعني دائمًا أنه سيعطيك أفضل جواب، أو الأكثر أمانًا، أو الأكثر تحفظًا حين ينبغي التحفظ، أو الأكثر فائدة للمستخدم على المدى العملي.

المرحلة الثالثة: RLHF — عندما يتعلم تفضيل الجواب الأنسب

هنا ندخل إلى الطبقة التي يسيء كثير من الناس فهمها أو يتخيلونها على أنها “عصا سحرية” تصلح كل شيء. RLHF، أو التعلم المعزز من التغذية الراجعة البشرية، ليس عملية تجعل النموذج معصومًا من الخطأ. لكنها تضيف شيئًا مهمًا جدًا: تعلّمه أي نوع من الأجوبة يفضله البشر عادة عندما توجد عدة إمكانيات معقولة.

الفكرة العامة هنا أن النموذج قد ينتج أكثر من استجابة ممكنة، ثم يقوم بشر أو أنظمة تقييم مبنية على تفضيلات بشرية بترتيب هذه المخرجات: أيها أوضح؟ أيها أنسب؟ أيها أكثر فائدة؟ أيها أقل ضررًا؟ أيها أكثر التزامًا بالسلوك المطلوب؟ بعد ذلك، يُستخدم هذا الترتيب لتوجيه النموذج نحو الميل إلى الأجوبة التي يراها البشر أفضل.

هذه المرحلة مهمة لأنها تضيف شيئًا لم يكن موجودًا بقوة في المرحلتين السابقتين: الترجيح السلوكي. النموذج لا يتعلم اللغة فقط، ولا شكل الإجابة فقط، بل يبدأ أيضًا في الانحياز إلى ما يعتبره النظام “جوابًا أفضل” ضمن معايير معينة: أكثر أدبًا، أكثر أمانًا، أكثر نفعًا، أقل اندفاعًا، أو أكثر صراحة في حدود المعرفة.

لكن هنا يجب أن نبقى دقيقين. RLHF لا يحل مشكلة الحقيقة بالكامل، ولا يمنع الهلوسة تلقائيًا، ولا يجعل النموذج صادقًا في كل مرة. ما يفعله هو أنه يضيف طبقة من السلوك المفضّل. وهذا فارق مهم. قد يبدو النموذج أكثر تهذيبًا، وأكثر تنظيمًا، وأقرب إلى ما يتوقعه المستخدم، لكنه ما يزال نموذجًا احتماليًا يمكن أن يخطئ أو يبالغ أو يتعثر إذا خرجت المهمة عن حدوده أو لم يُضبط جيدًا.

بالنسبة لصاحب المتجر، هذه هي المرحلة التي يصبح فيها النموذج أكثر نضجًا في التفاعل مع العالم البشري. إذا سأله زبون عن سياسة حساسة، أو عن استثناء، أو عن حالة غير واضحة، فالمتوقع هنا أن يميل النموذج إلى رد أكثر تحفظًا واتزانًا، بدل أن يطلق وعودًا غير مضمونة أو يجيب بثقة لا تستحقها المعلومة.

ما الذي تعنيه هذه المراحل الثلاث فعلًا؟

إذا أردنا اختصار القصة كلها، فيمكن قولها هكذا:

Pretraining يعطي النموذج اللغة الواسعة والقدرة الخام
SFT يعطيه شكل المساعد القادر على الإجابة المنظمة
RLHF يعطيه قدرًا من السلوك المفضل والحدود العملية

هذه ليست تفاصيل هامشية. هي واحدة من أهم المفاتيح لفهم لماذا يبدو النموذج اليوم “مساعدًا ذكيًا” بدل أن يبدو مجرد محرك لغوي خام. وهي أيضًا تفسر لماذا قد تختلف التجربة جذريًا بين نموذج وآخر، حتى لو كانا مبنيين على أفكار متشابهة: لأن الفرق ليس في البنية فقط، بل في كيف تدربا، وعلى ماذا، وبأي معايير سلوكية تم تهذيبهما.

لكن هذا كله ما يزال يشرح كيف تكوّن العقل من حيث التدريب. بقي سؤال آخر لا يقل أهمية: عندما تكتب للنموذج الآن جملة أو فقرة أو ملفًا طويلًا، كيف يراها أصلًا؟ هل يقرأ الكلمات كما نفعل نحن؟ أم أن هناك شيئًا آخر يحدث تحت السطح؟ هنا نصل إلى الباب الثاني: كيف يقرأ LLM النص فعلًا؟

كيف يقرأ LLM النص فعلًا؟ من التوكنات إلى نافذة السياق

كيف يقرا النموذج اللغوي التوكنات والسياق

من أكثر الصور الخاطئة رسوخًا في ذهن الناس أن النموذج “يقرأ الكلمات” كما نقرأها نحن. هذا ليس ما يحدث فعلًا. LLM لا يرى الجملة كجملة، ولا الكلمة ككلمة بالمعنى البشري المباشر. ما يراه أولًا هو وحدات أصغر تُسمّى Tokens: قد تكون كلمة كاملة، أو جزءًا من كلمة، أو رقمًا، أو علامة ترقيم، أو حتى مسافة بحسب طريقة التقسيم التي يعتمدها النظام. هذا هو المستوى الأول الذي يدخل منه النص إلى عقل النموذج. توضح وثائق OpenAI مثلًا أن التوكنات هي لبنات النص التي تعالجها النماذج، ويمكن أن تكون كلمة كاملة أو جزءًا من كلمة أو حتى رمزًا منفصلًا.

هذه النقطة قد تبدو تقنية، لكنها عملية جدًا. لأن كلمة واحدة بالنسبة لك قد تتحول داخل النظام إلى أكثر من توكن، خصوصًا في اللغات غير الإنجليزية، أو في الكلمات النادرة، أو في الكلمات الطويلة، أو في النصوص المختلطة. وهنا يبدأ أثر التوكنات في ثلاثة أشياء يلاحظها المستخدم حتى لو لم يسمّها: الكلفة، والسرعة، وحجم السياق. كلما زاد عدد التوكنات، زادت مساحة النص التي يشغلها الطلب داخل نافذة النموذج، وقد ترتفع كلفة المعالجة ويصير التعامل مع النصوص الطويلة أكثر حساسية.

ولم تصل النماذج إلى هذا الشكل من التقطيع عبثًا. جزء مهم من تطور النماذج اللغوية الحديثة اعتمد على فكرة الوحدات الفرعية Subword Units بدل حصر المعالجة على مستوى الكلمات الكاملة فقط، لأن هذا يقلل مشكلة الكلمات النادرة أو غير الموجودة مسبقًا داخل القاموس. ورقة Sennrich ورفاقه حول الوحدات الفرعية وByte Pair Encoding كانت من الأعمال التي دعمت هذا الاتجاه بوضوح في الترجمة العصبية، ثم صار هذا المنطق أساسًا شائعًا جدًا في بناء المرمزات اللغوية الحديثة. كما أن SentencePiece رسّخ لاحقًا فكرة التقطيع اللغوي القائم على الوحدات الفرعية بصورة أكثر عمومية واستقلالًا عن اللغة.

لكن التوكن وحده ليس إلا الخطوة الأولى. بعد تقسيم النص، تأتي الخطوة الأعمق: كيف يتحول هذا الرمز الصغير إلى شيء له معنى داخل النموذج؟ هنا تدخل Embeddings. كل توكن يتحول إلى تمثيل رقمي داخل فضاء عالي الأبعاد. هذا التمثيل ليس مجرد رقم عشوائي، بل محاولة لوضع الرمز داخل خريطة من العلاقات. التوكنات المتقاربة في الاستخدام أو الدلالة أو السياق تميل إلى أن تكون أقرب داخل هذا الفضاء. هنا لا “يفهم” النموذج المعنى كما يفهمه الإنسان، لكنه يكتسب طريقة عملية للتعامل مع التشابه والاختلاف والعلاقات داخل اللغة.

وهنا يجب أن ننتبه إلى فرق مهم. في المراحل الأقدم، مثل Word2Vec، كان التمثيل يعطي الكلمة موقعًا دلاليًا عامًّا، وهذا كان إنجازًا كبيرًا في وقته. لكن في النماذج الحديثة، معنى التوكن لا يأتي فقط من embedding ثابت، بل من السياق الذي يحيط به داخل الجملة أو الفقرة. الكلمة لا تُفهم وحدها، بل من خلال علاقاتها مع ما قبلها وما بعدها. لهذا تبدو النماذج الحديثة أكثر مرونة في التعامل مع الالتباس اللغوي من الأجيال السابقة. وما يهمنا هنا ليس الرياضيات وراء ذلك، بل الفكرة: النموذج لا يقرأ قائمة كلمات؛ هو يبني تمثيلًا متحركًا للنص حسب موقع كل عنصر وعلاقته ببقية العناصر.

نافذة السياق: ذاكرة القراءة المؤقتة

بعد أن يُقسم النص إلى توكنات وتتحول هذه التوكنات إلى تمثيلات رقمية، تظهر واحدة من أكثر المفاهيم العملية أهمية في التعامل مع LLMs: Context Window، أو نافذة السياق. هذه هي المساحة التي يستطيع النموذج أن “يراها” دفعة واحدة أثناء المعالجة. ليست ذاكرة دائمة، بل أقرب إلى سطح العمل المؤقت الذي يجمع فيه ما يحتاجه ليبني الجواب.

وهنا تقع إساءة فهم شائعة جدًا. كثير من المستخدمين يتخيلون أن النموذج “يتذكر كل شيء” داخل المحادثة كما يفعل إنسان يشاركك الحوار. في الواقع، ما يحدث غالبًا هو أن النموذج يعمل ضمن نافذة محدودة من التوكنات. ما دام النص الذي يحتاجه داخل هذه النافذة، فسيبدو وكأنه يتذكر جيدًا. لكن إذا خرجت بعض المعلومات المهمة خارجها، أو تكدس النص بطريقة تضعف القدرة على استخدامها، فقد يبدأ الأداء في التراجع، أو تظهر إجابات ناقصة، أو تزداد احتمالات التلفيق والخلط.

بالنسبة لصاحب المتجر، هذه المسألة ليست نظرية إطلاقًا. لو وضع داخل الطلب سياسة إرجاع، واستثناءات، وكتالوجًا طويلًا، وملاحظات نبرة، ثم أضاف سلسلة رسائل مطولة جدًا، فقد يصل سريعًا إلى حالة يصبح فيها بعض المهمات أقل حضورًا داخل “وعي” النموذج اللحظي. وهنا تبدأ المشكلات: قد ينسى شرطًا مهمًا، أو يعيد صياغة رد من دون أن يراعي قيدًا أساسيًا، أو يعطي جوابًا يبدو جيدًا لكنه لم ينتبه إلى أهم تفصيل فيه.

لماذا لا تكفي النافذة الطويلة وحدها؟

حتى عندما تكبر نافذة السياق، لا يعني هذا تلقائيًا أن النموذج سيستخدم جميع الأجزاء بالكفاءة نفسها. وهنا نصل إلى ظاهرة مهمة كشفتها أبحاث حديثة بوضوح: Lost in the Middle. ورقة “Lost in the Middle: How Language Models Use Long Contexts” أظهرت أن أداء النماذج قد يكون أقوى عندما تقع المعلومة المهمة في بداية السياق أو نهايته، وأضعف عندما تكون في وسطه، حتى لدى نماذج توصف بأنها طويلة السياق. هذه نقطة مزعجة قليلًا، لكنها مفيدة جدًا عمليًا: ليس المهم فقط كم يستطيع النموذج أن يستوعب، بل كيف يستخدم ما استوعبه.

هذه الملاحظة تغيّر طريقة التعامل الذكي مع النماذج. إذا كانت لديك قاعدة أساسية، أو معلومة حساسة، أو شرط لا يجب على النظام تجاهله، فمن الأفضل غالبًا أن تضعه في مكان بارز: بداية الطلب، أو نهايته، أو تعيد تأكيده عند الحاجة. لا لأن النموذج “ضعيف” فقط، بل لأن القراءة داخله ليست قراءة بشرية واعية بالتوزيع نفسه للأهمية، بل معالجة احتمالية لها أنماط انحياز وحدود عملية.

إذا أردنا تلخيص كل هذا ببساطة:
النموذج لا يقرأ الكلمات كما نقرأها نحن.
هو:

يقطع النص إلى توكنات
يحولها إلى تمثيلات رقمية
يربطها بالسياق داخل نافذة مؤقتة
ثم يحاول بناء أفضل مخرج ممكن من خلال هذه العلاقات

وهنا يظهر السؤال الطبيعي التالي: إذا كانت التوكنات تُقطّع، والـ embeddings تمثّل، والسياق يحتفظ مؤقتًا، فمن الذي يقرر في النهاية ما الذي يجب الانتباه له داخل هذا كله؟
هنا ندخل إلى القلب المعماري الحقيقي: Transformer نفسه، وإلى فكرة Self-Attention التي جعلت “عقل اللغة” يقفز هذه القفزة الكبيرة.

ما الذي يحدث داخل Transformer؟ وكيف يصنع Self-Attention هذا الإحساس بالفهم؟

إذا أردنا أن نختصر السبب الذي جعل LLMs مختلفة فعلًا عن أجيال كثيرة سبقتها، فسنصل سريعًا إلى كلمة واحدة: الانتباه. ليس بالمعنى النفسي البشري طبعًا، بل بالمعنى البنيوي داخل النموذج. هنا بالضبط يبدأ Transformer في الظهور بوصفه القلب الذي ينظم هذه العملية كلها.

قبل هذه البنية، كانت النماذج اللغوية تتقدم داخل النص خطوة خطوة، وهذا جعلها تتعامل مع الجملة كمسار زمني أكثر من كونها شبكة علاقات. أما Transformer فغيّر السؤال: بدل أن أقرأ الكلمة الآن وأحتفظ بما استطعت من الماضي، لماذا لا أنظر إلى كل العناصر معًا، وأحسب أيها أهم بالنسبة لأيها في هذه اللحظة؟ من هنا جاءت فكرة Self-Attention.

الفكرة، في جوهرها، أبسط مما يوحي اسمها. كل توكن داخل الجملة لا يُعالج بمعزل عن غيره، بل يسأل بطريقة ضمنية: من الذي يجب أن ألتفت إليه لكي أفهم موقعي هنا؟ في جملة مثل:
“الزبون أعاد المنتج لأنه كان تالفًا”
ما الذي تعود عليه كلمة “كان”؟ وما الذي يصفه “تالفًا”؟
هذا النوع من العلاقات يبدو بديهيًا جدًا للقارئ البشري، لكنه ليس بديهيًا للآلة. ما يفعله Self-Attention هو أنه يمنح النموذج طريقة لاحتساب الروابط المحتملة بين الأجزاء المختلفة من النص، ثم ترجيح ما يبدو أكثر صلة بالسياق.

هذا لا يعني أن النموذج “يفكر” مثلنا داخل الجملة، لكنه يعني أنه لم يعد أعمى أمام العلاقات البعيدة أو المعقدة. وهنا يظهر أحد أسباب القوة الظاهرة لـ LLMs: ليست المسألة أنها تحفظ الجمل فقط، بل أنها تملك آلية أقوى بكثير لربط الأجزاء ذات الصلة داخل النص.

أكثر من عين واحدة: Multi-Head Attention

ولو توقف الأمر عند “انتباه واحد”، لكان ذلك مفيدًا لكنه محدود. ما يجعل البنية أذكى هو أنها لا تنظر من زاوية واحدة فقط. Multi-Head Attention يعني، بشكل مبسط، أن النموذج يملك عدة “رؤوس” أو زوايا انتباه تعمل بالتوازي، وكل واحدة منها قد تلتقط نوعًا مختلفًا من العلاقة:
واحدة أقرب للعلاقات النحوية،
وأخرى للمرجعية،
وثالثة للسياق الأبعد،
ورابعة للتطابق أو التعارض،
وهكذا.

هذه ليست “شخصيات” مستقلة داخل النموذج، لكنها طريقة تجعل الفهم الناتج أكثر تركيبًا. بدل أن يعتمد على نظرة واحدة للنص، يجمع عدة قراءات متوازية ثم يركّبها. وهذا جزء مهم من سبب أن النماذج الحديثة تبدو أحيانًا أكثر قدرة على الإمساك بالنصوص المعقدة أو الطويلة نسبيًا، مقارنة ببنى أقدم.

لكن كيف يعرف الترتيب أصلًا؟

قد يسأل أحدهم هنا سؤالًا منطقيًا: إذا كان Transformer ينظر إلى العناصر معًا بهذا الشكل، فكيف يعرف أن ترتيب الكلمات مهم؟
فالفرق بين:

“القط أكل الفأر”
و”الفأر أكل القط”

ليس فرق كلمات، بل فرق ترتيب.

هنا تدخل فكرة Positional Encoding أو ترميز الموقع. بما أن النموذج لا يعتمد على التسلسل بالطريقة القديمة نفسها، فلا بد من إعطائه إشارة تجعله يعرف موقع كل عنصر داخل السلسلة. هذه الإشارة ليست “فهمًا للترتيب” بذاتها، لكنها تمنحه طريقة لعدم فقدان البعد الزمني أو الترتيبي للجملة.

هذه نقطة مهمة جدًا لأن كثيرًا من الناس يسمعون عن “الانتباه” فيتخيلون أن النموذج يقفز فوق الترتيب كليًا. الحقيقة أنه لا يفعل ذلك. هو فقط يتعامل مع الترتيب بطريقة مختلفة وأكثر مرونة من القراءة الخطية القديمة.

طبقة فوق طبقة: كيف يتعمق الفهم؟

ما يحدث داخل Transformer لا يتوقف عند جولة واحدة من الانتباه. النموذج يتكوّن من طبقات متكررة، وكل طبقة تعيد معالجة التمثيل الناتج من الطبقة السابقة. وهذا يعني أن ما يبدأ كعلاقة بسيطة نسبيًا قد يتحول عبر الطبقات إلى تمثيل أكثر عمقًا وتركيبًا.

يمكنك أن تتخيل الأمر كقارئ يمر على النص أكثر من مرة، لكن ليس بالطريقة البشرية الحرفية. في كل طبقة، يعاد تنظيم التمثيلات وبناء علاقات جديدة فوق ما سبق. هذا لا يعني أن كل طبقة “تفهم” شيئًا مستقلاً يمكن تسميته بسهولة، لكنه يفسر لماذا لا تكون قراءة النموذج للنص مسطحة أو مباشرة، بل متعددة المراحل.

وهنا يصبح أوضح لماذا تبدو بعض الاستجابات اللغوية في النماذج الحديثة أكثر تماسكًا وتحليلًا مما كان ممكنًا في أجيال أقدم. ليس لأن هناك سرًا غامضًا، بل لأن بنية Transformer نفسها سمحت ببناء معالجة أغنى بكثير للعلاقات داخل اللغة.

ما الذي يهمنا عمليًا من كل هذا؟

ليس المطلوب من القارئ أن يحفظ مصطلحات مثل Self-Attention وMulti-Head Attention وPositional Encoding لكي يستخدم نموذجًا لغويًا. لكن فهم الفكرة العامة يغير كثيرًا من طريقة التعامل مع هذه الأنظمة. عندما تعرف أن النموذج يعمل عبر علاقات وسياق ومواضع وانتباه موزع، ستفهم لماذا:

الصياغة تؤثر
ترتيب المعلومات مهم
بعض الشروط قد تُنسى إذا دُفنت في الوسط
والنص المنظم غالبًا أفضل من الفوضوي

وبالنسبة لصاحب المتجر الذي يطلب من النموذج كتابة وصف، أو إعادة صياغة رسالة، أو توحيد لهجة المتجر، فهذه البنية هي التي تجعل “الكاتب” يبدو ذكيًا إلى هذه الدرجة. ليس لأنه يعرف المتجر كما يعرفه صاحبه، بل لأنه يستطيع أن يلتقط العلاقات بين الخامة، والمقاس، والنبرة، والسياسة، والسياق داخل الطلب نفسه على نحو أكثر كفاءة مما كانت تفعله أجيال سابقة.

لكن هنا يظهر سؤال عملي جدًا: إذا كانت البنية الأساسية متقاربة نسبيًا، فلماذا نشعر أن بعض النماذج أفضل في البرمجة، وأخرى أقوى في الكتابة الطويلة، وأخرى أجود في التحليل أو البحث؟
الجواب هنا لا يعود إلى Transformer وحده، بل إلى شيء أوسع: كيف تربّى كل نموذج، وعلى ماذا، وتحت أي معايير.

لماذا تختلف النماذج عن بعضها إذا كانت مبنية على أفكار متشابهة؟

من الخارج، قد يبدو للمستخدم أن النماذج اللغوية الكبيرة كلها تنتمي إلى الفئة نفسها: تدخل نصًا، تخرج نصًا. لكن بمجرد الاستخدام الجدي، تظهر الفروقات بسرعة. نموذج يميل إلى الشرح المطول، وآخر أكثر اختصارًا. واحد قوي في الكود، وآخر في الصياغة والتحرير. واحد أكثر تحفظًا، وآخر أكثر اندفاعًا في الإجابة. وهنا يبدأ السؤال الطبيعي: إذا كانت الفكرة المعمارية الأساسية متقاربة، فمن أين تأتي هذه الفروق؟

الجواب الأول هو البيانات. النموذج يتشكل بعمق بحسب ما قرأه أثناء التدريب. نموذج تعرض أكثر لكود برمجي ووثائق تقنية سيطور حسًا مختلفًا عن نموذج غلبت عليه النصوص العامة أو التعليمية أو الأدبية. هذا لا يعني أن البيانات وحدها تفسر كل شيء، لكنها واحدة من أكبر العوامل في رسم “شخصية” النموذج.

الجواب الثاني هو طريقة التدريب والتهذيب. كما رأينا، هناك فرق بين نموذج تعلّم اللغة عمومًا، ونموذج صُقل بعد ذلك ليصبح مساعدًا أكثر تنظيمًا وتحفظًا أو أكثر مباشرة. هنا تدخل أمور مثل SFT وRLHF ومعايير التقييم الداخلية لكل شركة أو فريق. بعض النماذج يجري دفعها لتكون أكثر حرصًا، وبعضها يوجَّه نحو الإنتاجية، وبعضها يوازن بشكل مختلف بين الطلاقة والأمان والدقة.

الجواب الثالث هو التخصص. حتى داخل عالم النماذج العامة، يمكن أن توجد مراحل أو أساليب تجعل النموذج أكثر براعة في مهام معينة. قد لا يكون هذا دائمًا “تخصيصًا” بالمعنى الضيق، لكنه يخلق فروقًا حقيقية في الأداء. ولهذا يشعر المستخدم أحيانًا أن نموذجًا “يفهمه” أكثر في الكتابة، بينما يفضّل نموذجًا آخر في البرمجة أو التحليل.

والجواب الرابع يتعلق أحيانًا بالبنية الداخلية نفسها أو بطريقة توزيع الحمل داخلها، مثل Mixture of Experts (MoE). الفكرة هنا، تبسيطًا، أن النظام لا يحتاج إلى تشغيل “كل شيء” بنفس الطريقة لكل طلب، بل يمكنه أن يوجّه أجزاء معينة من المهمة إلى أجزاء أنسب داخل النموذج. هذا ليس سحرًا أيضًا، لكنه يفسر جانبًا من تفاوت الكفاءة أو التخصص بين النماذج الكبيرة.

ومن الناحية العملية، هذا كله يهم المستخدم أكثر مما قد يبدو. لأن السؤال ليس فقط: “من أقوى نموذج؟” بل: أقوى في ماذا؟ وتحت أي نوع من الاستخدام؟
هذه نقطة يسيء الناس فهمها كثيرًا. لا يوجد دائمًا نموذج “أفضل مطلقًا”، بل كثيرًا ما توجد نماذج أفضل لزاوية معينة من العمل.

بالنسبة لصاحب المتجر، هذا يظهر بسرعة. قد يجد نموذجًا ممتازًا في إعادة كتابة أوصاف المنتجات بأسلوب موحد، لكنه أقل جودة في البحث أو في التعامل مع جداول أو في تلخيص الوثائق الطويلة. هذا لا يعني أن أحدها “ذكي” والآخر “غبي”، بل أن الفروق بين النماذج هي فروق تربية وبيانات وضبط وتفضيلات، لا مجرد فروق في الاسم التجاري.

وهنا نصل إلى نقطة مهمة جدًا: كل ما شرحناه حتى الآن يخص العقل اللغوي نفسه. لكن هذا العقل، مهما كان قويًا، يبقى داخل عالم اللغة ما لم نعطه شيئًا آخر. ما لم نمد له يدًا إلى الخارج، سيبقى يقرأ ويكتب ويقترح ويحلل… لكنه لن ينفذ. ومن هنا يأتي السؤال الذي يقودنا طبيعيًا إلى المقال التالي.

لماذا لا يكفي LLM وحده ليصبح وكيلًا؟

بعد كل ما سبق، قد يبدو من السهل أن نقول: إذا كان LLM يشرح، ويحلل، ويرتب، ويلخص، ويقارن، فلماذا لا نعتبره مباشرة “وكيلًا ذكيًا”؟
الجواب لأن هناك فرقًا جوهريًا بين العقل الذي يعمل داخل اللغة، والنظام الذي يخرج من اللغة إلى الفعل.

النموذج اللغوي وحده لا يعرف كيف يفتح ملفًا من تلقاء نفسه، أو يقرأ قاعدة بيانات، أو يحدّث جدولًا، أو يرسل رسالة، أو يتخذ إجراءً في العالم الخارجي. هو يستطيع أن يصف لك هذه الخطوات، وأن يقترح ترتيبها، وأن يبني منطقها… لكن ما يزال هناك فرق كبير بين أن يتكلم عن العمل وأن يقوم به.

وهنا تبدأ الطبقات التي سننتقل إليها لاحقًا:
الأدوات،
والذاكرة،
والصلاحيات،
وسير العمل،
وحلقة المراجعة.

حينها فقط يتحول LLM من عقل لغوي قوي إلى جزء من نظام أكبر يمكنه أن يخطط وينفذ ويصحح. وهذا بالضبط ما سنفصله لاحقًا في من Assistant إلى Agent: كيف ينتقل LLM من الكلام إلى التنفيذ؟.

هذه النقطة مهمة لأنها تمنع واحدًا من أكثر الالتباسات انتشارًا اليوم: كثيرون يرون قوة النموذج اللغوي فيتصورون أن الفارق بينه وبين الوكيل مجرد “تحسن في الذكاء”. بينما الحقيقة أن الفارق هو في الهندسة التشغيلية بقدر ما هو في النموذج نفسه.

الطريقة الأدق لفهم LLM

بعد كل هذا، ربما يكون أفضل وصف لـ LLM ليس أنه “ساحر” يفهم كل شيء، ولا أنه “آلة غبية” تكمل الكلمات فقط. الوصف الأدق أنه عقل لغوي احتمالي واسع التدريب، بُني ليقرأ النص على مستوى الوحدات الصغيرة، ويحوّلها إلى تمثيلات، ويربطها عبر السياق والانتباه، ثم ينتج مخرجًا يبدو في كثير من الأحيان أذكى بكثير من بساطة المهمة الأساسية التي دُرّب عليها.

هذا لا يجعله إنسانًا مصغرًا داخل الحاسوب، ولا يجعله خدعة بلا قيمة. يجعله شيئًا أكثر إثارة للاهتمام من الطرفين: بناءً هندسيًا تعلم من اللغة إلى درجة جعلته مفيدًا جدًا، ومقنعًا جدًا، وأحيانًا مضللًا جدًا أيضًا إذا لم نفهم حدوده.

ولهذا فالسؤال الأهم لم يعد:
هل يفهم فعلًا أم لا؟
بل ربما صار:
ما نوع الفهم العملي الذي يمتلكه؟ وما الذي يمكن أن نطلبه منه بثقة، وما الذي يحتاج إلى طبقات إضافية فوقه؟

هذا هو المكان الصحيح الذي ينبغي أن نخرج منه من هذا المقال. لا بانبهار مفرط، ولا بتقليل ساذج. بل بصورة أوضح: LLM هو قلب لغوي قوي، لكنه ما يزال قلبًا يحتاج إلى جسد إذا أردناه أن يعمل في العالم الحقيقي. ومن هنا تبدأ المرحلة التالية طبيعيًا، حين لا يعود السؤال: كيف يقرأ؟ بل: كيف نخرجه من الكلام إلى الفعل؟

الأسئلة الشائعة حول نماذج اللغة الكبيرة (LLMs)

1) ما معنى LLM أصلًا؟
LLM اختصار لـ Large Language Model، أي “نموذج لغوي كبير”.
هو نموذج ذكاء اصطناعي مدرّب على كميات ضخمة من النصوص لكي يتعامل مع اللغة: يقرأ، يكمل، يلخص، يعيد الصياغة، يشرح، ويولد نصوصًا جديدة تبدو مترابطة ومقنعة.
2) هل صحيح أن LLM مجرد نموذج يتوقع الكلمة التالية؟
نعم، هذه الفكرة صحيحة من حيث المبدأ، لكنها غير كافية لفهم ما يحدث فعلًا. لأن هذه المهمة البسيطة، عندما تُنفذ على نطاق هائل وببنية قوية مثل Transformer، تجعل النموذج يلتقط أنماطًا معقدة جدًا في اللغة والسياق والعلاقات بين الأفكار، فيبدو وكأنه يفهم أكثر مما توحي به العبارة المختصرة.
3) ما الفرق بين LLM وChatbot عادي؟
الـ chatbot التقليدي غالبًا يعمل بقواعد أو تدفقات محددة أو نماذج أبسط.
أما LLM فهو نموذج لغوي واسع القدرات يمكنه التعامل مع مهام متنوعة جدًا عبر اللغة نفسها: كتابة، تلخيص، تفسير، تحليل، مقارنة، وصياغة. لهذا هو أوسع بكثير من مجرد “دردشة”.
4) ما معنى Tokens؟
التوكنات هي الوحدات الصغيرة التي يقرأ بها النموذج النص.
قد تكون كلمة كاملة، أو جزءًا من كلمة، أو رقمًا، أو رمزًا. النموذج لا يرى الجملة كما يراها الإنسان مباشرة، بل يحولها أولًا إلى هذه الوحدات، ثم يعالجها رياضيًا.
5) ما هي نافذة السياق Context Window؟
هي المساحة التي يستطيع النموذج أن يراها دفعة واحدة أثناء المعالجة.
كلما كانت نافذة السياق أكبر، استطاع التعامل مع نصوص أطول أو تفاصيل أكثر في الطلب نفسه. لكن هذا لا يعني تلقائيًا أنه سيستخدم كل ما بداخلها بالكفاءة نفسها.
6) لماذا قد ينسى النموذج بعض التفاصيل في النص الطويل؟
لأن الأداء لا يعتمد فقط على حجم السياق، بل أيضًا على طريقة استخدامه. أحيانًا تكون المعلومات المهمة في وسط النص الطويل أقل حضورًا من بدايته أو نهايته، وهي مشكلة معروفة باسم Lost in the Middle. لذلك ترتيب المعلومات داخل الطلب مهم جدًا.
7) ما الذي يجعل Transformer مهمًا لهذه الدرجة؟
لأن Transformer قدّم طريقة أقوى بكثير لمعالجة اللغة عبر الانتباه الذاتي Self-Attention، ما سمح للنموذج بربط العناصر البعيدة داخل النص والتعامل مع السياق بصورة أكثر مرونة وكفاءة من كثير من البنى السابقة.
8) لماذا تختلف النماذج عن بعضها إذا كانت كلها LLMs؟
لأن الفروق لا تأتي من الاسم فقط، بل من:
- البيانات التي تدربت عليها
- طريقة التدريب والتهذيب
- التخصصات التي تم تحسينها
- سياسات الشركات في الأمان والسلوك
- وأحيانًا اختلافات داخلية في المعمارية أو التوزيع
لهذا قد تجد نموذجًا ممتازًا في البرمجة، وآخر أقوى في الكتابة الطويلة، وثالثًا أفضل في الاختصار أو البحث.
9) هل LLM يفهم فعلًا مثل الإنسان؟
ليس بالشكل البشري البسيط الذي يتخيله كثير من الناس.
لكنه أيضًا ليس مجرد آلة ميكانيكية سطحية بلا أي قدرة حقيقية. الأدق أنه نموذج يملك تمثيلات لغوية قوية جدًا تجعله قادرًا على التعامل مع النصوص والمعاني والعلاقات بشكل عملي ومفيد، من دون أن يعني ذلك أنه يمتلك وعيًا أو فهمًا إنسانيًا كاملًا.
10) هل يكفي LLM وحده ليصبح وكيلًا ذكيًا؟
لا.
الـ LLM هو عقل لغوي قوي، لكنه وحده لا يكفي للتنفيذ في العالم الخارجي. لكي يتحول إلى وكيل، يحتاج إلى أدوات، وذاكرة، وصلاحيات، ومسار عمل، وآلية مراجعة. وهذا هو الجسر الذي يقودنا إلى المقال التالي.