الذكاء التوليدي لم يظهر من فراغ، ولم يبدأ أصلًا حين صار الناس يكتبون Prompt وتحصل أمامهم نتيجة مبهرة. ما حدث في السنوات الأخيرة هو أن رحلة طويلة جدًا وصلت إلى لحظة نضج جعلتها مرئية للناس للمرة الأولى. الرحلة الحقيقية بدأت قبل ذلك بسنوات: حين كانت الآلة بالكاد تتعامل مع الكلمات كأرقام، ثم بدأت تفهم أن بعض الكلمات أقرب إلى بعضها من غيرها، ثم تحسّنت قدرتها على قراءة السياق، ثم صارت تتعامل مع النص، وبعدها مع الصورة، ثم مع الصوت، ثم مع الفيديو. بمعنى آخر: ما نراه اليوم ليس “اختراعًا واحدًا”، بل تجمّع عدة اختراقات في لحظة واحدة تقريبًا.
وهنا بالضبط تكمن قيمة فهم الذكاء التوليدي كتاريخ لا كترند. لأن الناس تميل إلى اختزاله في واجهاته اللامعة: نموذج يكتب، وآخر يرسم، وثالث يولد فيديو. لكن خلف هذه الواجهات توجد قصة أعمق بكثير: كيف انتقل الذكاء الاصطناعي من كونه بارعًا في التنبؤ إلى كونه قادرًا على التوليد؟ كيف خرج من تصنيف الصور والكلمات إلى إنتاج شيء جديد أصلًا؟ ولماذا احتاج ذلك إلى أكثر من قفزة: من تمثيل المعنى، إلى النماذج التنافسية، إلى المحولات، إلى الانتشار، إلى الأنظمة متعددة الوسائط؟
هذا المقال لا يريد أن يبهرك بأسماء الأدوات، ولا أن يتحول إلى قائمة “أفضل نماذج” لهذا الشهر. هدفه أهم من ذلك: أن يشرح لك كيف وُلد الذكاء التوليدي أصلًا، ولماذا انفجر بهذه السرعة، ولماذا يبدو أحيانًا وكأنه سحر، بينما هو في الحقيقة نتيجة مسار طويل من المحاولات التقنية التي كانت كل واحدة منها تحل مشكلة محددة وتفتح الباب لما بعدها.
سنأخذ نظرة عامة عن تاريخ الذكاء التوليدي: من تمثيل المعنى إلى صناعة المحتوى متعدد الوسائط
وسنحتفظ هنا أيضًا بخيط عملي واحد يرافقنا من البداية إلى النهاية: صاحب المتجر الصغير. ليس لأنه المثال الوحيد، بل لأنه يكشف بوضوح ما الذي تغيّر فعلًا. في كل مرحلة من مراحل هذه الرحلة، سنرى كيف انتقلت الآلة من أداة محدودة لا تفعل إلا القليل، إلى فريق كامل تقريبًا: كاتب، ورسّام، ومعلّق، ومخرج. وعندها فقط يصبح واضحًا أن الذكاء التوليدي لم يأتِ ليضيف “ميزة لطيفة” فوق ما نعرفه، بل ليعيد تعريف شكل العمل نفسه في كثير من المجالات.
ما هو الذكاء التوليدي؟ وما الفرق بينه وبين الذكاء التنبؤي؟
لفهم الذكاء التوليدي بشكل صحيح، يجب أن نبدأ من الفرق الذي يخلط فيه كثير من الناس بين نوعين مختلفين من قدرات الذكاء الاصطناعي: الذكاء التنبؤي والذكاء التوليدي.
الذكاء التنبؤي هو الشكل الذي اعتاد الناس عليه قبل الضجة الأخيرة. تعطيه بيانات، فيحاول أن يتوقع شيئًا: هل هذا العميل سيشتري أم لا؟ هل هذه العملية احتيالية؟ هل هذه الصورة أقرب إلى فئة القطط أم الكلاب؟ هل الكلمة التالية المرجحة هي هذه أم تلك؟ قوته الأساسية هنا أنه يساعدك على التصنيف، والفرز، والتوقع، واتخاذ قرار احتمالي أفضل. هو لا “يخلق” شيئًا جديدًا بالمعنى الذي يلفت الناس اليوم، بل يستنتج أو يرجّح أو يرتب بناءً على ما تعلمه من الأنماط.
أما الذكاء التوليدي، فهنا يتغير نوع اللعبة نفسه. بدل أن يعيد اختيار شيء من قائمة موجودة سلفًا، يصبح قادرًا على إنتاج مخرج جديد: فقرة، صورة، لحن، تعليق صوتي، مشهد فيديو، أو حتى شيفرة. وهذا الفارق هو الذي جعل الذكاء الاصطناعي يبدو لكثير من الناس وكأنه دخل مرحلة مختلفة تمامًا. لأن الإنسان العادي قد لا يندهش كثيرًا من نظام يخبره بأن احتمال الشراء 73%، لكنه يندهش فورًا عندما يكتب جملة قصيرة فتحصل أمامه صورة ترويجية كاملة أو نص إعلان متماسك أو سيناريو أولي جاهز.
لكن هنا يوجد سوء فهم شائع يجب وقفه مبكرًا: الذكاء التوليدي لا يعني أن الآلة “تخترع من العدم” كما قد يبدو من الواجهة. ما تفعله في الحقيقة هو أنها تتعلم من كميات هائلة من البيانات كيف تبدو الأنماط والعلاقات والبنى، ثم تولد مخرجًا جديدًا يبدو معقولًا أو متماسكًا أو مقنعًا ضمن ما تعلمته. هي لا تخرج من فراغ فلسفي، بل من فضاء احتمالي تشكل عبر التدريب. هذه النقطة مهمة لأن كثيرًا من الانبهار الحالي قائم على وهم أن التوليد يعني الفهم الكامل أو الإبداع البشري الكامل، بينما الواقع أدق من ذلك بكثير.
وبالعودة إلى مثال صاحب المتجر، الفرق يصبح واضحًا جدًا. النظام التنبؤي يمكن أن يساعده في معرفة أي منتج قد يحقق مبيعات أعلى، أو أي عميل أكثر قابلية للشراء، أو أي رسالة ينبغي تصنيفها ضمن الشحن أو المرتجعات. هذا مفيد جدًا، لكنه لا يكتب له وصف المنتج، ولا يبني له منشورًا، ولا يجهز له صورة إعلان. عندما يدخل الذكاء التوليدي، يبدأ المشهد بالتغير: النظام لم يعد فقط يحلل ما حدث، بل أصبح قادرًا على المشاركة في إنتاج ما سيُنشر أصلًا.
وهنا تظهر نقطة أعمق قليلًا، لكنها مهمة. الانتقال من التنبؤ إلى التوليد لم يكن مجرد “زيادة في القوة”، بل انتقالًا في طبيعة العلاقة بين الإنسان والآلة. في الذكاء التنبؤي، أنت غالبًا تسأل النظام عن العالم: ماذا تتوقع؟ ماذا تصنف؟ ماذا ترجّح؟ أما في الذكاء التوليدي، فأنت تبدأ في استخدامه كشريك أولي في صناعة المحتوى نفسه: اكتب، ارسم، لخّص، أعد الصياغة، ابنِ، جرّب، اقترح. ولهذا بالضبط أصبح حضوره اليومي أوسع بكثير من أجيال سابقة من الذكاء الاصطناعي.
مع ذلك، لا ينبغي أن نبالغ في الفصل بينهما كأنهما عالمان منفصلان تمامًا. الذكاء التوليدي خرج أصلًا من تراكمات داخل الذكاء الاصطناعي نفسه، وبالتحديد من مراحل شرحتها الصورة الكبرى في تطور الذكاء الاصطناعي: كيف انتقل من القواعد الجامدة إلى عصر الوكلاء؟. كما أن جزءًا كبيرًا من قوته الحالية يعتمد على البنية اللغوية والنماذج التي سنفككها لاحقًا في ما هو LLM؟ كيف يتدرّب، وكيف يقرأ، ولماذا يبدو كأنه يفهم؟. بمعنى آخر: الذكاء التوليدي ليس قفزة منفصلة عن كل ما قبله، بل هو لحظة نضج وصلت فيها عدة خيوط إلى نقطة التقاء واحدة.
ولو أردنا تبسيط الصورة في جملة واحدة، فيمكن القول:
الذكاء التنبؤي يساعدك على معرفة ما هو مرجح.
أما الذكاء التوليدي فيساعدك على بناء شيء جديد فوق هذا الفهم.
وهنا يبدأ السؤال الأهم: إذا كانت الآلة اليوم قادرة على توليد نصوص تبدو معقولة، فكيف وصلت أصلًا إلى مرحلة “فهم المعنى” بدل التعامل مع الكلمات كأرقام صماء؟ هذه هي القفزة التي لا يراها كثيرون، لكنها من أهم المحطات في الرحلة كلها.
القفزة المخفية: كيف مهّدت Word2Vec لفهم المعنى؟

من السهل أن يظن القارئ أن الذكاء التوليدي بدأ عندما صار النموذج يكتب فقرة جميلة أو يولد صورة لافتة. لكن قبل ذلك بوقت، كانت هناك مشكلة أعمق بكثير: كيف تتعامل الآلة مع الكلمات أصلًا؟ لأن الكلمة بالنسبة للحاسوب ليست “معنى” كما نفهمه نحن، بل رمز يحتاج إلى تمثيل رياضي يمكن للنموذج أن يعمل عليه. وطالما كانت الكلمات مجرد إشارات منفصلة بلا علاقة دلالية حقيقية، فإن الحديث عن توليد نصوص مفهومة أو مترابطة سيظل محدودًا.
هنا تأتي أهمية Word2Vec. هذه ليست الأداة الوحيدة في تاريخ تمثيل اللغة، لكنها واحدة من المحطات التي جعلت المعنى شيئًا عمليًا وقابلًا للتعلم على نطاق واسع. الفكرة ببساطة أن الكلمة لم تعد مجرد رقم اعتباطي داخل القاموس، بل أصبحت متجهًا داخل فضاء رياضي، بحيث تميل الكلمات المتقاربة في المعنى أو السياق إلى أن تكون متقاربة في هذا الفضاء أيضًا. وهذه النقلة غيّرت طريقة تعامل النماذج مع اللغة بالكامل.
السبب الذي جعل هذا مهمًا ليس فقط جمال المثال الشهير King – Man + Woman = Queen، رغم أنه مثال ذكي ولامع. الأهم أن النظام بدأ يلتقط العلاقات بين الكلمات، لا الكلمات نفسها فقط. كلمة مثل “ملك” لم تعد مجرد عنصر منفصل عن “ملكة”، بل صارت جزءًا من شبكة من التقاطعات الدلالية. وهنا للمرة الأولى تقريبًا، بدأنا نقترب من تمثيل آلي للمعنى، ولو بشكل أولي ومحدود مقارنة بما نراه اليوم.
لكن يجب أن نكون دقيقين: Word2Vec لم يجعل الآلة “تفهم اللغة” كما قد يتخيل البعض، ولم يحل كل شيء من تلقاء نفسه. ما فعله، وهذا أهم، أنه جعل تمثيل المعنى أكثر كفاءة وعملية، وفتح الطريق أمام طبقة جديدة من النماذج التي ستبني فوقه لاحقًا. هو أشبه بقاعدة صامتة تحت كثير من القفزات اللاحقة. لا يظهر في واجهة الاستخدام كما تظهر النماذج الحديثة، لكنه من الأعمدة التي جعلت هذه الواجهات ممكنة أصلًا.
وبالنسبة لصاحب المتجر، هذه المرحلة لم تكن تعني بعد أنه يستطيع أن يطلب من النظام كتابة حملة تسويقية كاملة، لكنها تعني أن اللغة داخل النظام بدأت تصبح أقل “غباوة” بالمعنى الخام. الكلمات لم تعد تُقرأ كقوائم رموز فقط، بل كأشياء لها قرب وبعد وعلاقات. وهذا، رغم بساطته الظاهرة، كان من الشروط الأساسية لكي يظهر لاحقًا ذلك “الكاتب” الذي سيأخذ مكانه داخل الغرفة.
ومن هنا تبدأ أول شخصية حقيقية في هذه الرحلة: الرسام. لأن فهم المعنى وحده لم يكن كافيًا. كان لا بد أن تدخل الآلة مرحلة تحاول فيها أن تُنتج شيئًا بصريًا جديدًا، لا أن تكتفي بتحليل ما تراه.
الرسام المبتدئ: كيف فتحت GANs باب التوليد البصري؟

إذا كانت Word2Vec قد أعطت الآلة طريقة أفضل للتعامل مع المعنى داخل اللغة، فإن GANs أعطتها شيئًا آخر: أول باب واسع ومقنع نحو التوليد البصري. قبلها، كانت فكرة أن “ترسم” الآلة صورة تبدو معقولة ما تزال أقرب إلى التجارب الغريبة منها إلى القدرة العملية. ثم جاءت الشبكات التوليدية التنافسية لتقدم فكرة شديدة البساطة في ظاهرها وشديدة الذكاء في داخلها: دع نموذجًا يحاول التوليد، ودع نموذجًا آخر يحاول كشف الخداع، واتركهما يتحسنان عبر هذا الصراع. ورقة GAN الأصلية عام 2014 صاغت هذا الإطار بصيغة مولّد ومميّز داخل لعبة تنافسية، وهي واحدة من المحطات المؤسسة في تاريخ التوليد الحديث.
هذه الفكرة كانت مهمة لأنها غيّرت نوع السؤال. بدل أن نحاول فقط تعليم الآلة كيف تتعرف على ما تراه، بدأنا نسأل: هل تستطيع أن تنتج صورة جديدة تبدو منتمية إلى العالم نفسه؟ المولّد يحاول أن يصنع صورة “مقنعة”، والمميّز يحاول أن يفضحها. ومع كل جولة، يصبح الأول أفضل في الخداع، والثاني أفضل في الاكتشاف. وما يهم هنا ليس فقط النجاح التقني، بل أن النظام بدأ يتعامل مع الصورة كشيء يمكن إعادة تركيبه وتوليده، لا فقط تصنيفه أو التعرف عليه.
لكن لا ينبغي أن نجمّل الصورة أكثر مما تستحق. الرسام في هذه المرحلة كان موهوبًا، نعم، لكنه ما زال متقلبًا. التدريب لم يكن مستقرًا دائمًا، والنتائج كانت تتأرجح بين مدهشة أحيانًا ومشوهة أو غير متماسكة أحيانًا أخرى. والأهم أن التحكم كان محدودًا. لم يكن هذا هو الرسام الذي تكتب له وصفًا دقيقًا فيرسم لك ما تريد تقريبًا؛ كان أقرب إلى رسام بدأ يفهم الأشكال والأنماط، لكنه لم يصبح بعد أداة إبداع موجهة وسلسة.
وبالنسبة لصاحب المتجر، لو دخل هذه المرحلة مبكرًا، فربما كان سيحصل على صور أولية لمنتجاته أو مشاهد ترويجية مثيرة للاهتمام من حيث الفكرة، لكن بجودة غير مستقرة، ومع صعوبة في فرض هوية بصرية متسقة. ومع ذلك، لا ينبغي التقليل من قيمة هذه اللحظة. لأن المهم فيها لم يكن فقط جودة النتائج، بل أنها أثبتت أن الآلة يمكن أن تصبح منتِجًا بصريًا، ولو بشكل أولي. وهنا دخل “الرسام” إلى الغرفة، حتى لو كان ما يزال في بداياته.
لكن بقيت مشكلة كبيرة في الجهة الأخرى من الغرفة: اللغة نفسها. كان هناك تقدّم، لكن الكاتب ما زال يعاني من مشكلة مزمنة كلما طال النص أو اتسع السياق. ولهذا جاءت القفزة التالية من مكان مختلف قليلًا، لكنها ستعيد ترتيب مستقبل الذكاء التوليدي كله.
الكاتب الذي لم يعد ينسى: كيف غيّر Transformer مستقبل التوليد اللغوي؟

قبل عام 2017، كانت النماذج اللغوية تتعامل مع النص بطريقة أقرب إلى القراءة الخطية: خطوة وراء خطوة، كلمة بعد كلمة. هذا كان كافيًا لإنتاج نتائج جيدة نسبيًا في بعض المهام، لكنه ترك مشكلة تزداد حدة كلما طال النص: النسيان، وضياع العلاقات البعيدة، وبطء التدريب. ثم جاءت ورقة Attention Is All You Need لتقترح شيئًا مختلفًا جذريًا: بدل الاعتماد على التسلسل وحده، يمكن للنموذج أن يبني خريطة انتباه داخل الجملة أو الفقرة، فيرى من يرتبط بمن، وما الذي ينبغي أن يركز عليه، وما الذي يجب أن يربطه عبر مسافات أبعد. هذه الورقة هي اللحظة التي قدّمت بنية Transformer كما نعرفها اليوم، وفتحت الباب مباشرة أمام نماذج اللغة الكبيرة الحديثة.
في هذا المقال، لا نحتاج إلى الغوص داخل Transformer كما سنفعل لاحقًا في ما هو LLM؟ كيف يتدرّب، وكيف يقرأ، ولماذا يبدو كأنه يفهم؟، لكن المهم هنا أن نفهم دوره التاريخي داخل الذكاء التوليدي نفسه. هذه لم تكن مجرد تحسين تقني في أداء النماذج اللغوية، بل نقلة في القدرة على الاحتفاظ بالسياق، وربط أجزاء النص، والتعامل مع اللغة على نحو جعل “الكاتب” أكثر استقرارًا واتساعًا في قدراته. من هذه اللحظة، لم تعد اللغة مجرّد سطح يولّد جملًا معقولة، بل أصبحت بيئة يمكن فيها للنموذج أن يعيد بناء نصوص أطول وأكثر ترابطًا، وأن ينتقل من مهمات ضيقة إلى نطاقات أوسع.
إذا عدنا إلى صاحب المتجر، فالفارق هنا واضح جدًا. قبل هذه القفزة، كان من الممكن أن تحصل على جمل مقبولة أو أوصاف قصيرة، لكن كلما زادت الشروط والتفاصيل والسياق، زادت احتمالات الاضطراب. بعد هذه القفزة، أصبح من الممكن أن تعطي النظام وصفًا معقدًا لمنتج، وسياسة إرجاع، واستثناءات، ونبرة علامة تجارية، فيعيد لك نصًا أكثر اتساقًا وأقرب إلى شيء يمكن استخدامه فعلًا. ليس لأنه أصبح “فاهمًا” بالمعنى الإنساني الكامل، بل لأنه صار أفضل بكثير في الإمساك بالخيوط اللغوية معًا.
وهنا بالضبط يبدأ “الكاتب” في الغرفة بالتشكل بوضوح. لكنه ما يزال، في هذه المرحلة، يحتاج قفزة أخرى ليصبح ليس مجرد نموذج جيد للغة، بل نموذجًا عامًا يمكن تكييفه مع مهام كثيرة بدل أن يبقى محصورًا في وظيفة محددة.
من أداة لمهمة واحدة إلى كاتب لكل المهام: ماذا غيّر GPT-1؟
التحول المهم التالي لم يكن فقط في أن النموذج صار أفضل في قراءة النصوص أو الاحتفاظ بالسياق، بل في أنه بدأ يتحول من أداة متخصصة لمهمة واحدة إلى نموذج عام يمكن إعادة توظيفه في مهام كثيرة. وهنا تظهر أهمية GPT-1. الفكرة المركزية التي قدمتها OpenAI في 2018 كانت شديدة البساطة من حيث المبدأ، لكنها غيّرت مستقبل النماذج اللغوية: درّب النموذج أولًا على نطاق واسع جدًا على اللغة نفسها، ثم خصصه أو وجّهه لاحقًا لمهام متعددة. هذا هو منطق pre-training ثم adaptation/fine-tuning الذي سيصبح لاحقًا حجرًا أساسيًا في النماذج التوليدية الكبرى.
أهمية هذه النقلة ليست فقط أن الأداء تحسن. الأهم أن “الكاتب” لم يعد بحاجة إلى أن يُبنى من الصفر لكل مهمة: ترجمة، تلخيص، إكمال نص، أو إعادة صياغة. صار عندك أساس لغوي واسع، ثم يمكنك أن تكيّفه أو توجهه. وهذا هو المعنى الحقيقي لكون النموذج صار “كاتبًا لكل المهام” لا مجرد أداة منفصلة لكل وظيفة.
هنا أيضًا من المهم أن نصحح فهمًا شائعًا: كثيرون يختصرون قيمة GPT في كونه “نموذج دردشة”، بينما جوهر التحول أعمق من ذلك بكثير. ما حدث فعليًا هو أن اللغة نفسها أصبحت واجهة عامة للمهام. وهذا ليس مجرد فرق في الشكل، بل في فلسفة البناء كلها. بدل أن تنشئ عشر أدوات مختلفة لكل مهمة، صار ممكنًا أن تعتمد على أساس لغوي واحد، ثم توسّع استخداماته.
وبالنسبة لصاحب المتجر، هذا يعني انتقالًا عمليًا واضحًا: بدل أدوات متفرقة للترجمة، والوصف، والردود، والأفكار التسويقية، صار من الممكن أن يبدأ بالاعتماد على نموذج واحد يقوم بأدوار متعددة. هذه ليست فقط مسألة راحة استخدام، بل تحوّل في طبيعة الإنتاج نفسه. لأن وجود “كاتب واحد” متعدد المهام يعني اتساقًا أعلى، وسرعة أكبر، ومساحة أوسع لإدارة المحتوى ضمن منطق موحّد.
لكن حتى هذه المرحلة، بقي “الرسام” أقل نضجًا من “الكاتب”. الصور التوليدية كانت ممكنة، نعم، لكن ما زال ينقصها قدر أكبر من النظافة والاستقرار والتحكم. وهنا جاءت القفزة التي جعلت الرسام يتقن حرفته حقًا.
كيف أتقنت نماذج الانتشار الرسم؟
لو أردنا أن نختصر الفرق بين مرحلة GANs ومرحلة Diffusion Models في جملة واحدة، فيمكن أن نقول: الأولى أثبتت أن التوليد البصري ممكن، أما الثانية جعلته أكثر استقرارًا وجودة وقابلية للتوجيه. الفكرة الجوهرية في نماذج الانتشار تقوم على تدريب النموذج على إزالة الضجيج من الصورة خطوة خطوة، ثم استخدام هذا المنطق في الاتجاه المعاكس أثناء التوليد: تبدأ من ضجيج، وتدفعه تدريجيًا نحو صورة ذات معنى، خصوصًا عندما يكون التوليد موجّهًا بالنص. هذا الإطار غيّر جودة الصورة التوليدية بصورة واضحة، وفتح الباب أمام مستوى جديد من الدقة والاتساق البصري.
ما جعل هذه القفزة حاسمة ليس فقط التحسن الجمالي، بل أنها أعادت تعريف علاقة المستخدم بالصورة التوليدية. في المراحل الأقدم، كنت تحصل أحيانًا على نتائج مثيرة، لكن غير مستقرة أو صعبة الضبط. مع نماذج الانتشار، صار بالإمكان أن يكتب المستخدم وصفًا أكثر تحديدًا، ويحصل على مخرجات أقرب بكثير إلى المقصود. وهنا بالضبط بدأ الرسام يأخذ شكله الاحترافي داخل الغرفة.
بالنسبة لصاحب المتجر، الفارق هائل. لم يعد يجرّب فقط صورًا “غريبة وممتعة” من باب الفضول، بل صار يستطيع طلب صورة منتج بخلفية معينة، وإضاءة محددة، وطابع بصري متناسق مع هويته. كل هذا لا يعني أن الصور التوليدية حلّت كل مشكلات التصوير التجاري أو التصميم البصري، لكنه يعني أنها أصبحت قادرة على دخول العمل اليومي بشكل جدي، لا كتجربة جانبية فقط.
ومع نضج الكاتب والرسام معًا، بدأ شيء آخر يحدث: لم يعد الذكاء التوليدي يعيش في جزر منفصلة. النص بدأ يلتقي بالصورة، ثم بالصوت، ثم لاحقًا بالفيديو. وهنا ندخل مرحلة “اجتماع الفريق” نفسها.
عندما اجتمع الكاتب والرسام: صعود الذكاء التوليدي متعدد الوسائط
التحول التالي لم يكن مجرد أن الكاتب صار أفضل وأن الرسام صار أدق، بل أن الاثنين بدآ أخيرًا يعملان داخل مساحة واحدة. هذه هي بداية الذكاء التوليدي متعدد الوسائط: أن يصبح النص قادرًا على إنتاج صورة، وأن تصبح الصورة جزءًا من محادثة لغوية أوسع، وأن تبدأ النماذج في التعامل مع أكثر من نوع من المدخلات والمخرجات ضمن سياق موحّد.
في هذا السياق جاء DALL·E بوصفه محطة واضحة في تحويل النص إلى صورة على نحو أكثر قابلية للاستخدام، ثم جاء Midjourney ليبرز بقوة من زاوية مختلفة قليلًا: الجماليات، والهوية البصرية، وسهولة الدخول إلى التجربة من منظور المبدعين. هنا بدأ كثير من الناس للمرة الأولى يشعرون أن الذكاء التوليدي ليس أداة لغوية فقط، بل استوديو متعدد الوجوه. وفي 2023 صار هذا الاتجاه أوضح مع نماذج لغوية متعددة الوسائط مثل GPT-4، التي لم تعد تعمل على النص فقط، بل تقبل الصورة أيضًا وتبني فوقها.
هذه اللحظة مهمة جدًا لأنها نقلت الذكاء التوليدي من “أدوات منفصلة” إلى شيء أقرب إلى منظومة. لم تعد المحادثة تدور فقط حول كتابة فقرة أو توليد صورة منفصلة، بل بدأت تصير عملية يمكن فيها للنموذج أن يفسر الصورة، ويكتب النص، ويقترح الاتجاه البصري، ويعيد الصياغة، ويقارن بين الخيارات، ضمن مسار واحد.
وهنا يصبح مثال صاحب المتجر أكثر وضوحًا: الكاتب يكتب له وصف المنتج أو نص الإعلان، والرسام يبني صورة الحملة أو صورة المنتج الترويجية، وكل هذا ضمن منطق واحد تقريبًا. وفي هذه اللحظة، لم يعد الذكاء التوليدي مجرد “مساعد كتابة” أو “مولد صور”، بل صار طبقة إنتاج محتوى متكاملة نسبيًا.
لكن الفريق لم يكن قد اكتمل بعد. بقي الصوت، ثم الفيديو. وهما المرحلتان اللتان نقلتا التجربة من محتوى مكتوب ومرئي إلى محتوى أكثر قربًا من الإنتاج الإعلامي الكامل.
كيف اقترب الصوت التوليدي من البشر؟
الصوت التوليدي يمر غالبًا تحت الرادار مقارنة بالنص والصورة، لكنه في الحقيقة من أكثر المسارات التي كشفت بوضوح كيف يتحول الإنجاز البحثي إلى أداة يومية. مع WaveNet سنة 2016 ظهرت قفزة لافتة في جودة توليد الصوت الخام، ثم جاءت نماذج مثل Tacotron لتجعل تحويل النص إلى كلام أكثر مباشرة وتكاملاً، ثم لاحقًا حسّنت HiFi-GAN جوانب السرعة والجودة بطريقة جعلت الاستخدام العملي أكثر واقعية. هذه المحطات لم تجعل الصوت “بشريًا بالكامل” من أول لحظة، لكنها قربته تدريجيًا من الطبيعي على نحو ملحوظ.
ومع الخدمات الحديثة مثل ElevenLabs وOpenAI TTS، تحولت القفزة من إنجاز تقني إلى تجربة استخدام يومية. وهنا أصبح المعلّق الصوتي في الغرفة جاهزًا تقريبًا: لا مجرد صوت آلي يقرأ النص، بل صوت يمكن أن يبدو أكثر طبيعية، وأن يحمل نبرة وانفعالًا وتحكمًا أفضل بكثير مما كان متاحًا سابقًا.
بالنسبة لصاحب المتجر، هذه لحظة شديدة العملية. نص إعلان قصير لم يعد يحتاج دائمًا إلى تسجيل بشري كامل من الصفر أو إلى انتظار طويل، بل صار ممكنًا أن يُكتب ويُحوّل مباشرة إلى تعليق صوتي مقبول جدًا في كثير من الاستخدامات. وهذا لا يعني أن كل ما ينتجه النظام يساوي الأداء البشري المحترف في كل الحالات، لكنه يعني أن عتبة الدخول إلى المحتوى الصوتي صارت أقل بكثير.
ومع اكتمال الكاتب والرسام والمعلّق، لم يبقَ إلا العنصر الأكثر تعقيدًا من حيث الكلفة والتوليف: المخرج.
من لقطات قصيرة إلى مشاهد كاملة: كيف تطور الفيديو التوليدي؟
الفيديو التوليدي هو المرحلة التي جمعت تقريبًا كل تعقيدات ما قبلها: الصورة، والحركة، والاتساق الزمني، وأحيانًا الصوت أيضًا. لهذا السبب لم يصل نضجه بنفس سرعة النص أو الصورة. البدايات كانت موجودة فعلًا في أبحاث مبكرة ونماذج محدودة الطول والجودة، لكنها بقيت لفترة طويلة أقرب إلى الوعود التجريبية منها إلى أدوات إنتاج عملية. ثم بدأت الصورة تتغير عندما استفادت نماذج الفيديو من منطق الانتشار نفسه الذي نجح في الصورة، وبدأت تتحسن جودة المشاهد واتساقها تدريجيًا.
اليوم، مع نماذج مثل Sora وVeo ومنتجات Runway الحديثة، صار ممكنًا توليد لقطات ومشاهد قصيرة تبدو أقرب بكثير إلى ما كان يُعد قبل سنوات ضربًا من الخيال. لكن حتى هنا، من الأفضل أن نبقى دقيقين: الفيديو التوليدي ما زال مجالًا فيه كثير من القيود المتعلقة بالاتساق الطويل، والتحكم التفصيلي، واستمرارية الشخصيات، والبناء السردي الممتد. ما حدث ليس أن “المخرج الاصطناعي” صار بديلًا كاملًا عن الصناعة المرئية، بل أنه دخل بقوة إلى مساحة كانت سابقًا مغلقة تقريبًا أمام من لا يملك استوديو وطاقمًا وميزانية واضحة.
وهذا يغير حياة صاحب المتجر مرة أخرى. فيديو ترويجي قصير لمنتج موسمي، أو لقطة بصرية لحملة، أو مشهد افتتاحي لريلز سريع… كل هذا لم يعد بالضرورة يحتاج إلى كاميرا وممثلين ومونتاج تقليدي كامل. لا لأن الذكاء التوليدي ألغى الصناعة، بل لأنه خفف عتبة الدخول إلى أشكال من المحتوى كانت باهظة جدًا على المشاريع الصغيرة.
وهنا تكتمل الغرفة تقريبًا: كاتب، رسام، معلّق، ومخرج. لكن هذه ليست نهاية القصة، بل بداية معنى جديد: أن الذكاء التوليدي لم يعد أداة واحدة، بل طبقة إنتاج متعددة الوسائط يمكن أن تشارك في بناء المحتوى من الفكرة الأولى حتى النسخة القابلة للنشر.
ماذا يعني هذا عمليًا لصاحب متجر أو صانع محتوى؟
حين نقول إن الذكاء التوليدي صار “فريقًا” تقريبًا، فهذا ليس مجرد مجاز جميل. هو وصف عملي لما حدث في سير العمل نفسه. صاحب المتجر الذي كان يحتاج إلى ساعات طويلة موزعة بين كتابة، وصياغة، وتصميم، وتعليق صوتي، وتجريب بصري، صار يمكنه الآن أن ينجز نسبة كبيرة من هذا المسار بأدوات ذكية خلال وقت أقصر بكثير. الكاتب يساعده في أوصاف المنتجات والنصوص الترويجية. الرسام يسرّع بناء المواد البصرية. المعلّق يضيف طبقة صوتية دون إعداد تقليدي كامل. والمخرج يفتح له باب الفيديو القصير.
لكن من المهم هنا أن نكون واقعيين لا منبهرين. الذكاء التوليدي لا يلغي الحاجة إلى الحكم البشري. ما يفعله في أفضل حالاته أنه يرفع السرعة، ويزيد الاتساق، ويقلل تكلفة المحاولة الأولى. أما الجودة النهائية، وصحة المعلومات، والانضباط الأسلوبي، وحدود العلامة التجارية، فتظل تحتاج إلى عين بشرية تعرف ما الذي تقبله وما الذي ترفضه.
وهذا هو السبب في أن النظر إلى الذكاء التوليدي كـ “بديل كامل” فكرة ساذجة، بينما النظر إليه كـ “طبقة إنتاج ذكية” فكرة أكثر نضجًا. هو لا يلغي الإنسان، لكنه يغير أين يستهلك الإنسان وقته. بدل أن يقضي الساعات في البناء الأولي من الصفر، يمكنه أن يقضيها في التوجيه، والاختيار، والتحرير، والمراجعة.
الذكاء التوليدي ليس النهاية: لماذا يقودنا طبيعيًا إلى LLMs والوكلاء؟
بعد كل هذه الرحلة، قد يبدو وكأن الذكاء التوليدي هو الذروة: النص، والصورة، والصوت، والفيديو، كلها داخل منظومة واحدة تقريبًا. لكن الحقيقة أن هذه ليست النهاية، بل نقطة انتقال. لأن السؤال التالي يظهر طبيعيًا بمجرد أن يصبح “الكاتب” قويًا فعلًا: ما الذي يوجد داخل هذا العقل اللغوي أصلًا؟ كيف يتدرب؟ كيف يقرأ؟ وكيف يبدو أحيانًا وكأنه يفهم أو يخطط أو يشرح بهذه المرونة؟
هذا هو السؤال الذي يقودنا مباشرة إلى ما هو LLM؟ كيف يتدرّب، وكيف يقرأ، ولماذا يبدو كأنه يفهم؟. وهناك فقط تبدأ الرحلة من داخل “عقل الخبير” نفسه، لا من نتائج الغرفة ككل.
ومن جهة أخرى، عندما يصبح لديك كاتب ورسّام ومعلّق ومخرج، يظهر سؤال أكثر عملية: من ينظم كل هذا؟ ومن يحول هذه القدرات من “أدوات توليد” إلى “سير عمل” حقيقي يمكن أن يخطط وينفذ؟ وهنا يبدأ الطريق الذي سيقودنا لاحقًا إلى من Assistant إلى Agent: كيف ينتقل LLM من الكلام إلى التنفيذ؟، ثم إلى بناء الوكيل نفسه، ثم إلى الأنظمة متعددة الوكلاء.
وهذا ربما هو أفضل مكان لإنهاء هذا المقال: الذكاء التوليدي لم يهبط على العالم كمعجزة مستقلة، ولم يكن مجرد لحظة تسويقية صنعتها الشركات. هو نتيجة سلسلة من القفزات التي بدأت حين حاولت الآلة أن تمثل المعنى، ثم أن تولد الصورة، ثم أن تحفظ السياق، ثم أن تعمل عبر أكثر من وسيط في وقت واحد. من يراه بهذه الطريقة يفهم لماذا بدا الأمر وكأنه انفجر فجأة، ويفهم في الوقت نفسه لماذا لم يكن ذلك انفجارًا من العدم أبدًا.



