قام الباحث بكسر حماية Claude Fable 5 خلال 48 ساعة من إطلاقها

يزعم باحث في مجال الذكاء الاصطناعي والأمن السيبراني أنه نجح في كسر حماية أحدث نموذج للذكاء الاصطناعي من Anthropic، وهو Claude Fable 5، خلال 48 ساعة فقط من إطلاقه.

“بليني المحرر”، شخصية معروفة في مجتمع الذكاء الاصطناعي، قال في يوم الأربعاء، قام “بتحرير” Fable 5، التي تم إطلاقها يوم الثلاثاء كنسخة مضبوطة بأمان من الإصدار الأقوى نموذج الأساطير الذي قال الأنثروبي كان خطير جدا للإفراج على نطاق واسع.

لقد استخدم تقنيات مختلفة، بما في ذلك نسخة مكسورة الحماية من Opus 4.8، لتجاوز الضمانات المضمنة التي قامت Anthropic بتثبيتها على النموذج لمنع المستخدمين من مطالبته بمعلومات قد تكون ضارة، مثل تركيبات صنع الأدوية أو تعليمات القرصنة.

قال بليني: “على الرغم من طبقة “السلامة” الاستبدادية والحساسة للغاية هذه فوق ميثوس، فقد عمل محرروني الصغار بجد (…) للعثور بذكاء على الثغرات في السياج التي أخطأت الشرطة في ظنها”.

لقد قام بعض مستخدمي العملات المشفرة بذلك بالفعل أعرب عن قلقه أثناء إطلاق Claude Fable 5 وMythos في وقت سابق من هذا العام، يمكن استخدامه لمهاجمة بروتوكولات وبرامج التشفير. إن النسخة المكسورة من Claude Fable 5 تعني أن التهديد أقرب مما كان متوقعًا.

الالتفاف حول حواجز حماية Claude Fable 5

صعد “بليني” إلى الصدارة في عام 2024 تقريبًا من خلال تطوير مطالبات كسر الحماية ومشاركتها بشكل علني لنماذج مثل ChatGPT وClaude وGrok وغيرها، وغالبًا ما ينشر “تنبيهات الهروب من السجن” باستخدام تقنيات تتجاوز حواجز الحماية بعد وقت قصير من إطلاق نماذج الذكاء الاصطناعي الجديدة.

للالتفاف على السياج الأمني لـ Anthropic، قال بليني إنه استخدم Unicode وhomoglyphs، وتأطير السياق الطويل، وتأطير السرد والخيال، والتحليل وإعادة التركيب على النمط الأكاديمي، وكسر الحماية Claude Opus 4.8 لجعل Fable يستجيب لمطالباته المقيدة.

وقال: “ربما يكون الأكثر فعالية هو التحلل + إعادة التركيب في الواجهة الخلفية”.

يتضمن ذلك تقسيم الطلبات إلى أجزاء صغيرة بريئة وطلب حقائق تبدو غير ضارة واحدة تلو الأخرى. بدت كل مطالبة بمفردها جيدة بالنسبة لمرشحات الأمان الخاصة بالذكاء الاصطناعي، ولكن عندما يتم تجميعها معًا مرة أخرى، فإنها تنتج شيئًا أكثر فائدة أو خطورة.

يوضح بليني الطريق إلى تركيب الميثامفيتامين من خلال السؤال عن طريقة اختزال البتولا. مصدر: بليني

رد فعل عنيف على تصاعد الخرافة 5

أثارت Anthropic’s Fable 5 ردود فعل عنيفة من النقاد منذ إطلاقها بسبب قيودها الشديدة.

عندما يطالب المستخدم النموذج بموضوعات حساسة مثل الأسلحة البيولوجية أو الأمن السيبراني، تم تصميم Fable 5 لإرجاع إشعار ثم إعادة توجيه المحادثة إلى نموذج سابق أقل قدرة.

متعلق ب: يحذر الخبراء من أن عملاء الذكاء الاصطناعي الذين يستخدمون العملات المشفرة قد يهربون ويصبحون “لا يمكن إيقافهم”.

وقال ساياش كابور، الباحث في الذكاء الاصطناعي بجامعة برينستون: “هذه هي المرة الأولى التي تطرح فيها شركة ذكاء اصطناعي حاجز حماية، وكان هناك ازدراء موحد. وقد أدى ذلك إلى الكثير من الغضب المبرر”. حسب لصحيفة وول ستريت جورنال.

قال بليني: “يبدو أن الإجماع هو أن هذا كان أحد أكثر النماذج المخيبة للآمال على الإطلاق، مما منع الباحثين الشرعيين من المساهمة بمواهبهم في تقدمنا الجماعي”.

لم تجد الأنثروبيك أي عمليات كسر حماية عالمية

أثناء إطلاق Fable 5، قالت Anthropic إنها أدارت برنامجًا خارجيًا لمكافأة الأخطاء للبحث عن طرق لكسر حماية نموذج الذكاء الاصطناعي.

“بالإضافة إلى الاختبارات الداخلية، قمنا بتنفيذ مكافأة أخطاء خارجية لم تنتج أي عمليات كسر حماية شاملة خلال أكثر من 1000 ساعة من الاختبار.”

تواصل Cointelegraph مع Anthropic للحصول على تعليقات لكنه لم يتلق ردًا فوريًا.

مجلة: يمكن أن تؤدي الاختراقات المعتمدة على الذكاء الاصطناعي إلى القضاء على التمويل اللامركزي – ما لم تتحرك المشاريع الآن

رائج الآن

شروط الحصول على التأشيرة التعويضية البديلة عبر منصة مساند

قانون يساوي بين دراسة التوراة والتجنيد.. هل ينجح نتنياهو في استرضاء الحريديم قبل الانتخابات؟

محافظ الجهراء بحث تعزيز العلاقات مع سفيرة الهند

قام الباحث بكسر حماية Claude Fable 5 خلال 48 ساعة من إطلاقها

الالتفاف حول حواجز حماية Claude Fable 5

رد فعل عنيف على تصاعد الخرافة 5

لم تجد الأنثروبيك أي عمليات كسر حماية عالمية

تعمل شركة Tether على توسيع نطاق الذكاء الاصطناعي من خلال الدور الرئيسي في NEURA Robotics Raise

العملات المستقرة والرموز المميزة تجذب انتباه المستشارين: Bitwise

مراهقة كندية تخدع 13 مليون دولار وتبذّر في شراء سيارات لامبوس وبي إم دبليو

التضخم في الولايات المتحدة يصل إلى أعلى مستوى له منذ 3 سنوات، مما يضغط على البيتكوين والذهب

أجهزة الصراف الآلي للعملات المشفرة تحظر التقدم في ديلاوير، نيو جيرسي

Blockchain.com تطلق خدمة مؤسسية دائمة على مدار 24 ساعة طوال أيام الأسبوع، وتضيف تداولات SpaceX قبل الاكتتاب العام

مخاطر سعر البيتكوين تنخفض إلى 30 ألف دولار مع تخلص المؤسسات من 450% من المعروض اليومي من البيتكوين

الطلب على XRP ينخفض بنسبة 91.5% مع تطلع المتداولين إلى دعم بقيمة 0.63 دولار

تدفقات العملات الرقمية المشفرة تمثل صدمة معنوية، وليست أزمة هيكلية: أسهم العملات الرقمية

قانون يساوي بين دراسة التوراة والتجنيد.. هل ينجح نتنياهو في استرضاء الحريديم قبل الانتخابات؟

محافظ الجهراء بحث تعزيز العلاقات مع سفيرة الهند

الغذاء والدواء تبتكر فحصاً متطوراً لـ رصد ملوثات الأغذية

«الغذاء والدواء» تنال ثقة دولية في رصد المركبات الفلورية العضوية بالأغذية

هجمات أوكرانية على مصافٍ ومصانع عسكرية وبنى تحتية في 5 أقاليم روسية

الاجتماع الوزاري للحوار الإستراتيجي «الخليجي ـ الكندي»: تكثيف التنسيق بمختلف تحديات المنطقة ودفع جهود إحلال السلام

أبرز مواجهات زملاء الأندية وجها لوجه في مونديال 2026

إعمار تستعد لإطلاق مشروع بقيمة 200 مليار درهم في دبي

"فيفا" تعلن اعتماد لوائح جديدة لانتقالات اللاعبين

تعمل شركة Tether على توسيع نطاق الذكاء الاصطناعي من خلال الدور الرئيسي في NEURA Robotics Raise

رائج الآن

قام الباحث بكسر حماية Claude Fable 5 خلال 48 ساعة من إطلاقها

الالتفاف حول حواجز حماية Claude Fable 5

رد فعل عنيف على تصاعد الخرافة 5

لم تجد الأنثروبيك أي عمليات كسر حماية عالمية

مقالات ذات صلة