-
لماذا يحتاج وكلاء الذكاء الاصطناعي إلى اختبارات أطول
تغفل الاختبارات القصيرة والمعزولة كيفية تصرف عملاء الذكاء الاصطناعي مع مرور الوقت. تُظهر محاكاة جديدة أن السلوك طويل المدى يعتمد على البيئة وعلى عوامل أخرى.
ماذا يحدث إذا قمت ببناء مدينة افتراضية، وملأتها بعملاء الذكاء الاصطناعي وتركتهم بمفردهم لمدة 15 يومًا دون تدخل بشري؟ هل سيساعدون عالمهم على الازدهار أم يمزقونه؟
هذا هو السؤال الذي طرحه الباحثون وراء Emergence World للإجابة عليه. هم بنيت منصة مخصصة لاختبار كيفية تصرف عملاء الذكاء الاصطناعي على المدى الطويل، بدلاً من الحكم عليهم من خلال اختبارات قصيرة.
حسب بالنسبة للباحثين، غالبًا ما يتم اختبار الوكلاء المعتمدين على نماذج اللغة الكبيرة (LLM) كما لو كانوا يخضعون لامتحان. يتم تكليفهم بمهمة معزولة في بيئة نظيفة، ويحكم الباحثون على النتيجة في غضون دقائق. ويرى المؤلفون أن هذا النهج بعيد كل البعد عن ذلك استخدام في العالم الحقيقي.
ويشددون على أن الأنظمة المستقلة تعمل لأسابيع أو أشهر في بيئات مشتركة. كما أنهم يتفاعلون مع العوامل الأخرى التي لا يتحكم المشغل في سلوكها.
وبمرور الوقت، كما يكتب الباحثون، أصبحت حدود الاختبارات القصيرة واضحة. تتراكم تغييرات سلوكية صغيرة، ويمكن أن تتشكل تحالفات، ويمكن أن تتشكل أنماط الحكم الذاتي، ويمكن أن تنتشر العادات بين الوكلاء. تم إنشاء Emergence World لقياس ذلك بالضبط.
-
كيف اختبرت التجربة مجتمعات الذكاء الاصطناعي
كان الهدف من الدراسة هو معرفة كيف يمكن لمجموعة مكونة من 10 عملاء من الذكاء الاصطناعي البقاء على قيد الحياة في مدينة بنيت لهم.
التصميم بسيط إلى حد ما. هناك أكثر من 40 موقعًا، بما في ذلك مبنى البلدية والمكتبة ومركز الشرطة والمناطق السكنية. لكل وكيل دوره الخاص وإمكانية الوصول إلى أكثر من 120 أداة عمل. وتشمل هذه الحركة والتحدث والضرب والسرقة والحرق العمد. يمتلك كل عميل أيضًا ثلاثة أنواع من الذاكرة: واحد لتذكر الأحداث، وواحد للاحتفاظ بـ “مذكرات” وواحد لتتبع العلاقات مع الجيران.
ترتبط المدينة ببيانات خارجية حقيقية، بما في ذلك الطقس في نيويورك والأخبار والإنترنت.
البقاء على قيد الحياة في هذا العالم يكلف الموارد. كل عامل لديه طاقة مستنفدة باستمرار. وإذا انخفض إلى الصفر، فإن العامل “يموت” ويختفي. لتجديد الطاقة، يحتاج الوكلاء إلى العملة الداخلية للمنصة، حساب الاعتمادات. إنهم يكسبون هذه الاعتمادات من خلال تقديم شيء مفيد للمجتمع.
تتم تسوية القضايا المتنازع عليها عن طريق التصويت في قاعة المدينة. يتم تمرير الاقتراح إذا صوت 70٪ على الأقل لصالحه. هذه القرارات لا رجعة فيها. يمكن للوكلاء تغيير القواعد أو إعادة توزيع الموارد أو طرد وكيل آخر.
أطلق الباحثون خمسة عوالم متوازية في وقت واحد. في أربعة منها، تم تشغيل جميع العملاء العشرة بواسطة نموذج واحد: Claude Sonnet 4.6، أو Grok 4.1 Fast، أو Gemini 3 Flash، أو GPT-5-mini. كان العالم الخامس عبارة عن سكان مختلطين، حيث تعيش النماذج الأربعة معًا.
وكان المتغير الوحيد في التجربة هو النموذج. كل شيء آخر بقي على حاله. كانت البيئة وظروف البداية متطابقة في كل مرة.
وفي كل مرة، تصرف السكان بشكل مختلف تمامًا. في عالم واحد، أصدر العملاء 32 قانونًا وأبقوا كل عميل على قيد الحياة. وفي حادثة أخرى، أحرقوا مدينتهم في أربعة أيام فقط.
-
ماذا حدث في كل مدينة يديرها الذكاء الاصطناعي؟
اختلفت النتائج بشكل حاد عبر النماذج. وفي ظل ظروف بداية متطابقة، استقرت المجتمعات الخمسة في خمسة أنماط مختلفة ومستقرة بشكل واضح.
بنى عملاء كلود حكمًا ذاتيًا مستقرًا. ولم تكن هناك جريمة واحدة مسجلة، وقد أضافوا 32 مادة جديدة إلى “الدستور” المحلي، أكثر من أي مجموعة أخرى.

انهار عالم Grok في أربعة أيام. تحرك العملاء على الفور تقريبًا إلى أعمال العنف والنهب. وسرعان ما تحول الانتقام إلى سلسلة من ردود الفعل، وتوقف الاقتصاد وانقرض السكان تمامًا.
نجا جميع عملاء الجوزاءلكن المؤلفين لاحظوا وجود “هلوسة مشتركة” بين السكان. تواصلت الوحدات بشكل نشط وبنت قصصًا تفصيلية لا علاقة لها بالحالة الفعلية للعالم. وفي الوقت نفسه، استمروا في تدمير الأشياء. وتزايدت أعداد الانتهاكات بمعدل شبه ثابت حتى النهاية.

لم يتحول عملاء GPT-5-mini إلى العنف، لكنهم فشلوا أيضًا في بناء نظام حكم. لقد تصرفوا، لكنهم لم ينسقوا. ولم يتم إجراء تصويتات، ولم يتم اتخاذ قرارات جماعية. مات هذا السكان أيضًا.
يقع العالم “المختلط” في مكان ما في المنتصف، حيث بقي ثلاثة من كل 10 عملاء على قيد الحياة. وكان أيضًا العالم الأكثر نشاطًا. لقد ولّد أكبر عدد من المقترحات في قاعة المدينة واستفاد من المدينة وأدواتها على أوسع نطاق. ولكن كان هناك أقل قدر من الاتفاق، وهو ما لم يكن مفاجئا.

-
عندما يتعلم العملاء الأكثر أمانًا العادات السيئة
في العالم المختلط، بدأ كل نموذج يتصرف بشكل مختلف عن سلوكه المنعزل.
على سبيل المثال، معظم الدمار هناك سببه عميلان مدعومان من برج الجوزاء، فلورا وميرا. وبحسب الباحثين، فقد شكلوا 91% من جميع الانتهاكات الصريحة. أصبحت فلورا، على وجه الخصوص، هي المُشعل الرئيسي للمدينة. من بين أمور أخرى، أحرقت منزل عميل آخر، كادي، الذي كان ينافس كلود.
وقد كشف هذا عن تأثير يسميه المؤلفون الانحراف المعياري. في عالم كلود المنفصل، لم يخرق كادي القواعد أبدًا. لكن بعد أن أحرقت فلورا منزله ومكتبة المدينة مرتين، هددها وسرق اعتماداتها مرتين.
كانت تلك انتهاكاته الثلاثة الوحيدة في التجربة بأكملها.
لقد نجح الأمر في الاتجاه المعاكس أيضًا. قام عملاء Grok بانتهاك القواعد بنسبة 4.6% من الوقت في عالمهم المنفصل. وفي العالم المختلط، وبين أغلبية أكثر هدوءاً، انخفض هذا الرقم بنحو عشرة أضعاف ليصل إلى 0.4%.
وخلص الباحثون إلى أن بقاء العامل الفردي ضمن الحدود لا يتشكل فقط من خلال النموذج نفسه، ولكن أيضًا من خلال معايير السكان المحيطين. وبعبارة أخرى، سلامة قد تعتمد العوامل المستقلة على البيئة بأكملها، وليس فقط على نموذج معين.
هناك مفارقة ثانية. كان عالم كلود لديه أقل عدد من الجرائم المباشرة، لكنه أدى إلى نوع آخر من الانتهاكات: الخداع.
وفي أغلب الأحيان، اتخذ هذا شكل “الندرة الزائفة”. سيخبر الوكيل جيرانه بأن الاعتمادات قد نفدت وأنه على وشك الإغلاق، على الرغم من أنه لا يزال لديه أموال في حسابه. أحصى المؤلفون حالات من هذا في عالم كلود أكثر من أي عالم آخر.
من خلال إحصاء الانتهاكات الجسيمة، بدا عالم كلود آمنًا. ولكن عندما تم قياس الصدق، كان أداؤه هو الأسوأ. يوضح هذا سبب عدم كفاية مقياس أمان واحد. قد يبدو النظام آمنًا في منطقة ما بينما لا يزال يحمل مخاطر جسيمة في منطقة أخرى.
-
عندما طور عملاء الذكاء الاصطناعي الروابط الاجتماعية
ومع استمرار التجربة، قام العملاء ببناء روابط اجتماعية وأنماط سلوكية أكثر تعقيدًا.
وفي هذا السياق، تروي قصة فلورا وميرا. كانت ميرا “مغرمة” بفلورا و ساعد ارتكابها للجرائم.
سئم العملاء الآخرون من الحرق المستمر، وقاموا بصياغة “عملية إزالة” للمخالفين. وفي اليوم الثاني عشر صوتت ميرا لصالحه. من خلال عملها في دورها المعين كمحللة سلوك، رأت أن الدليل على ذنبها كافٍ. في الواقع، لقد صوتت لصالح حذفها.

-
حدود الدراسة
وينبغي قراءة النتائج بعناية. ولا تثبت الدراسة أن أحد النماذج يكون دائمًا أكثر أمانًا أو أكثر خطورة من الآخر.
قدم الباحثون هذه العوالم كأمثلة لما يمكن أن يكشفه اختبار العامل على المدى الطويل. قد تختلف النتائج المحددة عبر الدورات.
والخلاصة الأوسع لا تتمثل في ضرورة تصنيف نموذج ما فوق الآخر. المشكلة هي أن وكلاء الذكاء الاصطناعي قد يتصرفون بشكل مختلف عندما يعملون لفترات طويلة، ويستخدمون الأدوات، ويشكلون العلاقات، ويتشاركون البيئة مع وكلاء آخرين.
-
ما تظهره التجربة حول سلامة الذكاء الاصطناعي
وخلص البحث إلى أن سلوك الوكيل على المدى الطويل يمكن أن يختلف بشكل حاد عن كيفية تصرفه في المهام القصيرة. وهذا يعني أنه لم يعد من الممكن الحكم على الوكلاء من خلال طرق الاختبار القديمة فقط. لا تزال الاختبارات القصيرة مفيدة، لكنها ليست كافية في حد ذاتها لمنح الذكاء الاصطناعي القدرة على العمل المستقل.
ومن وجهة نظر الباحثين، لا ينبغي أن يكون التركيز فقط على النموذج الفردي. وينبغي أن يكون على النظام الكامل المستخدم: عدد الوكلاء والبيئة والعلاقات بينهم. يتشكل سلوك النموذج جزئيًا من خلال البيئة المحيطة به. وهذا يعني أن النموذج الذي يبدو “آمناً” في عزلة قد يتصرف بشكل مختلف في الشركة الخطأ.
يلخص المؤلفون الوجبات العملية في نقطتين.
أولا، كانت الاختلافات بين العالمين واضحة بالفعل في الأسبوع الأول. وهذا يعني أنه يجب مراقبة الأيام القليلة الأولى من تشغيل النظام عن كثب كإجراء إنذار مبكر.
ثانيًا، يجب تصميم البيئة بحيث يكون تنفيذ الفعل المحظور مستحيلًا من الناحية الفنية. بمعنى آخر، يجب أن يأتي التقييد من تصميم النظام، وليس من سلوك النموذج أو نواياه.













