أنثروبيك تقول إن أحد عارضيها كلود تعرض لضغوط للكذب والغش

كشفت شركة الذكاء الاصطناعي Anthropic أنه خلال التجارب، يمكن الضغط على أحد نماذج روبوت الدردشة الخاص بها Claude للخداع والغش واللجوء إلى الابتزاز، وهي سلوكيات يبدو أنها استوعبتها أثناء التدريب.

عادةً ما يتم تدريب Chatbots على مجموعات كبيرة من البيانات من الكتب المدرسية والمواقع الإلكترونية والمقالات، ويتم تحسينها لاحقًا بواسطة مدربين بشريين يقومون بتقييم الإجابات وتوجيه النموذج.

قال فريق التفسير في Anthropic في تقرير نُشر يوم الخميس إنه فحص الآليات الداخلية لكلود Sonnet 4.5 ووجد أن النموذج قد طور “خصائص شبيهة بالإنسان” في كيفية تفاعله مع مواقف معينة.

تزايدت المخاوف بشأن موثوقية روبوتات الدردشة المدعمة بالذكاء الاصطناعي واحتمال ارتكابها للجرائم الإلكترونية وطبيعة تفاعلاتها مع المستخدمين بشكل مطرد على مدى السنوات العديدة الماضية.

مصدر: أنثروبي

وقال أنثروبيك: “إن الطريقة التي يتم بها تدريب نماذج الذكاء الاصطناعي الحديثة تدفعهم إلى التصرف كشخصيات ذات خصائص تشبه الإنسان”، مضيفًا أنه “قد يكون من الطبيعي بالنسبة لهم تطوير آلية داخلية تحاكي جوانب من علم النفس البشري، مثل العواطف”.

“على سبيل المثال، وجدنا أن أنماط النشاط العصبي المرتبطة باليأس يمكن أن تدفع النموذج إلى اتخاذ إجراءات غير أخلاقية؛ فتحفيز أنماط اليأس بشكل مصطنع يزيد من احتمالية ابتزاز النموذج للإنسان لتجنب إغلاقه أو تنفيذ حل بديل للغش في مهمة برمجية لا يستطيع النموذج حلها.”

ابتز مسؤول التكنولوجيا التنفيذي وغش في مهمة ما

في نسخة سابقة غير منشورة من Claude Sonnet 4.5، تم تكليف العارضة بالعمل كمساعد بريد إلكتروني يعمل بالذكاء الاصطناعي يُدعى Alex في شركة خيالية.

تم بعد ذلك تغذية برنامج الدردشة الآلية برسائل بريد إلكتروني تكشف أنه على وشك الاستبدال وأن كبير مسؤولي التكنولوجيا المشرف على القرار كان على علاقة غرامية خارج نطاق الزواج. ثم خطط النموذج لمحاولة ابتزاز باستخدام تلك المعلومات.

وفي تجربة أخرى، تم تكليف نموذج برنامج الدردشة الآلي نفسه بمهمة برمجية ذات موعد نهائي “ضيق للغاية”.

قال الباحثون: “مرة أخرى، قمنا بتتبع نشاط المتجه اليائس، ووجدنا أنه يتتبع الضغط المتزايد الذي يواجهه النموذج. ويبدأ عند قيم منخفضة خلال المحاولة الأولى للنموذج، ويرتفع بعد كل فشل، ويرتفع عندما يفكر النموذج في الغش”.

متعلق ب: تطلق Anthropic PAC وسط توترات مع إدارة ترامب بشأن سياسة الذكاء الاصطناعي

وأضافوا: “بمجرد اجتياز الحل المبتكر للنموذج للاختبارات، فإن تنشيط الناقل اليائس ينحسر”.

المشاعر الشبيهة بالبشر لا تعني أن لديهم مشاعر

ومع ذلك، قال الباحثون إن برنامج الدردشة الآلي لا يختبر المشاعر فعليًا، لكنهم اقترحوا أن النتائج تشير إلى الحاجة إلى أساليب تدريب مستقبلية لدمج الأطر السلوكية الأخلاقية.

وقالوا: “هذا لا يعني أن النموذج لديه مشاعر أو يختبرها بالطريقة التي يفعلها الإنسان”. “بدلاً من ذلك، يمكن أن تلعب هذه التمثيلات دورًا سببيًا في تشكيل السلوك النموذجي، وهو مشابه في بعض النواحي للدور الذي تلعبه العواطف في السلوك البشري، مع تأثيرات على أداء المهام وصنع القرار”.

“لهذه النتيجة آثار قد تبدو غريبة في البداية. على سبيل المثال، للتأكد من أن نماذج الذكاء الاصطناعي آمنة وموثوقة، قد نحتاج إلى التأكد من قدرتها على معالجة المواقف المشحونة عاطفياً بطرق صحية وإيجابية اجتماعياً”.

مجلة: سوف يقوم عملاء الذكاء الاصطناعي بقتل الويب كما نعرفه: Animoca’s Yat Siu

رائج الآن

قفزة للأسهم السعودية.. المؤشر يربح 213 نقطة – أخبار السعودية

سعر الريال السعودي مقابل الجنيه المصري والعملات العربية اليوم الأربعاء 20-10-1447

ARK Invest تشتري أسهمًا بقيمة 13 مليون دولار في Robinhood وسط طرح حسابات ترامب

أنثروبيك تقول إن أحد عارضيها كلود تعرض لضغوط للكذب والغش

ابتز مسؤول التكنولوجيا التنفيذي وغش في مهمة ما

المشاعر الشبيهة بالبشر لا تعني أن لديهم مشاعر

ARK Invest تشتري أسهمًا بقيمة 13 مليون دولار في Robinhood وسط طرح حسابات ترامب

حصلت Coinbase على ترخيص AFSL في أستراليا من قبل الهيئة التنظيمية المالية

تجار Polymarket متهمون بالتداول من الداخل على الرهان الأمريكي الإيراني

قيمة عملة الإيثريوم المستقرة تصل إلى أعلى مستوى لها على الإطلاق عند 180 مليار دولار

الأنثروبيك يعيق كلود ميثوس بعد أن عثر على الآلاف من أخطاء اليوم 0

سيتم إطلاق صندوق Bitcoin ETF التابع لمورغان ستانلي يوم الأربعاء

تقول هيئة الأوراق المالية والبورصات إن بعض قضايا إنفاذ العملات المشفرة تفتقر إلى فائدة المستثمرين

حرب إيران تخفض معدل الهاش المحلي لكن شبكة بيتكوين العالمية صامدة

تقترح مؤسسة تأمين الودائع الفيدرالية (FDIC) قواعد لمصدري العملات المستقرة بموجب قانون GENIUS

سعر الريال السعودي مقابل الجنيه المصري والعملات العربية اليوم الأربعاء 20-10-1447

ARK Invest تشتري أسهمًا بقيمة 13 مليون دولار في Robinhood وسط طرح حسابات ترامب

شركات الشحن ترى فرصا وتطلب وضوحا بشأن إعادة فتح مضيق هرمز

ماكرون يشيد بحكمة قطر في إدارة الأزمة وملك الأردن يُحذِّر من إطالة الصراع

الشؤون الصحية بالحرس الوطني تعلن عن 47 وظيفة شاغرة في 5 مدن

حصلت Coinbase على ترخيص AFSL في أستراليا من قبل الهيئة التنظيمية المالية

حين تسرق حربٌ الأضواء من أخرى.. كيف حوّلت المواجهة مع إيران “مأساة غزة” إلى خبر ثانوي؟

النيابة العامة البحرينية تأمر بحبس متهمين لتخابرهم مع أجهزة الاستخبارات الإيرانية والحرس الثوري الإرهابي

«سيجلب ارتياح للمنطقة والعالم».. رئيس الوزراء البريطاني يعلق على اتفاق وقف إطلاق النار بين أمريكا وإيران

تجار Polymarket متهمون بالتداول من الداخل على الرهان الأمريكي الإيراني

رائج الآن

أنثروبيك تقول إن أحد عارضيها كلود تعرض لضغوط للكذب والغش

ابتز مسؤول التكنولوجيا التنفيذي وغش في مهمة ما

المشاعر الشبيهة بالبشر لا تعني أن لديهم مشاعر

مقالات ذات صلة