كشفت شركة الذكاء الاصطناعي Anthropic أنه خلال التجارب، يمكن الضغط على أحد نماذج روبوت الدردشة الخاص بها Claude للخداع والغش واللجوء إلى الابتزاز، وهي سلوكيات يبدو أنها استوعبتها أثناء التدريب.
عادةً ما يتم تدريب Chatbots على مجموعات كبيرة من البيانات من الكتب المدرسية والمواقع الإلكترونية والمقالات، ويتم تحسينها لاحقًا بواسطة مدربين بشريين يقومون بتقييم الإجابات وتوجيه النموذج.
قال فريق التفسير في Anthropic في تقرير نُشر يوم الخميس إنه فحص الآليات الداخلية لكلود Sonnet 4.5 ووجد أن النموذج قد طور “خصائص شبيهة بالإنسان” في كيفية تفاعله مع مواقف معينة.
تزايدت المخاوف بشأن موثوقية روبوتات الدردشة المدعمة بالذكاء الاصطناعي واحتمال ارتكابها للجرائم الإلكترونية وطبيعة تفاعلاتها مع المستخدمين بشكل مطرد على مدى السنوات العديدة الماضية.
وقال أنثروبيك: “إن الطريقة التي يتم بها تدريب نماذج الذكاء الاصطناعي الحديثة تدفعهم إلى التصرف كشخصيات ذات خصائص تشبه الإنسان”، مضيفًا أنه “قد يكون من الطبيعي بالنسبة لهم تطوير آلية داخلية تحاكي جوانب من علم النفس البشري، مثل العواطف”.
“على سبيل المثال، وجدنا أن أنماط النشاط العصبي المرتبطة باليأس يمكن أن تدفع النموذج إلى اتخاذ إجراءات غير أخلاقية؛ فتحفيز أنماط اليأس بشكل مصطنع يزيد من احتمالية ابتزاز النموذج للإنسان لتجنب إغلاقه أو تنفيذ حل بديل للغش في مهمة برمجية لا يستطيع النموذج حلها.”
ابتز مسؤول التكنولوجيا التنفيذي وغش في مهمة ما
في نسخة سابقة غير منشورة من Claude Sonnet 4.5، تم تكليف العارضة بالعمل كمساعد بريد إلكتروني يعمل بالذكاء الاصطناعي يُدعى Alex في شركة خيالية.
تم بعد ذلك تغذية برنامج الدردشة الآلية برسائل بريد إلكتروني تكشف أنه على وشك الاستبدال وأن كبير مسؤولي التكنولوجيا المشرف على القرار كان على علاقة غرامية خارج نطاق الزواج. ثم خطط النموذج لمحاولة ابتزاز باستخدام تلك المعلومات.
وفي تجربة أخرى، تم تكليف نموذج برنامج الدردشة الآلي نفسه بمهمة برمجية ذات موعد نهائي “ضيق للغاية”.
قال الباحثون: “مرة أخرى، قمنا بتتبع نشاط المتجه اليائس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج. ويبدأ عند قيم منخفضة خلال المحاولة الأولى للنموذج، ويرتفع بعد كل فشل، ويرتفع عندما يفكر النموذج في الغش”.
متعلق ب: تطلق Anthropic PAC وسط توترات مع إدارة ترامب بشأن سياسة الذكاء الاصطناعي
وأضافوا: “بمجرد اجتياز الحل المبتكر للنموذج للاختبارات، فإن تنشيط الناقل اليائس ينحسر”.
المشاعر الشبيهة بالبشر لا تعني أن لديهم مشاعر
ومع ذلك، قال الباحثون إن برنامج الدردشة الآلي لا يختبر المشاعر فعليًا، لكنهم اقترحوا أن النتائج تشير إلى الحاجة إلى أساليب تدريب مستقبلية لدمج الأطر السلوكية الأخلاقية.
وقالوا: “هذا لا يعني أن النموذج لديه مشاعر أو يختبرها بالطريقة التي يفعلها الإنسان”. “بدلاً من ذلك، يمكن أن تلعب هذه التمثيلات دورًا سببيًا في تشكيل السلوك النموذجي، وهو مشابه في بعض النواحي للدور الذي تلعبه العواطف في السلوك البشري، مع تأثيرات على أداء المهام وصنع القرار”.
“لهذه النتيجة آثار قد تبدو غريبة في البداية. على سبيل المثال، للتأكد من أن نماذج الذكاء الاصطناعي آمنة وموثوقة، قد نحتاج إلى التأكد من قدرتها على معالجة المواقف المشحونة عاطفياً بطرق صحية وإيجابية اجتماعياً”.
مجلة: سوف يقوم عملاء الذكاء الاصطناعي بقتل الويب كما نعرفه: Animoca’s Yat Siu













