يزعم باحث في مجال الذكاء الاصطناعي والأمن السيبراني أنه نجح في كسر حماية أحدث نموذج للذكاء الاصطناعي من Anthropic، وهو Claude Fable 5، خلال 48 ساعة فقط من إطلاقه.
“بليني المحرر”، شخصية معروفة في مجتمع الذكاء الاصطناعي، قال في يوم الأربعاء، قام “بتحرير” Fable 5، التي تم إطلاقها يوم الثلاثاء كنسخة مضبوطة بأمان من الإصدار الأقوى نموذج الأساطير الذي قال الأنثروبي كان خطير جدا للإفراج على نطاق واسع.
لقد استخدم تقنيات مختلفة، بما في ذلك نسخة مكسورة الحماية من Opus 4.8، لتجاوز الضمانات المضمنة التي قامت Anthropic بتثبيتها على النموذج لمنع المستخدمين من مطالبته بمعلومات قد تكون ضارة، مثل تركيبات صنع الأدوية أو تعليمات القرصنة.
قال بليني: “على الرغم من طبقة “السلامة” الاستبدادية والحساسة للغاية هذه فوق ميثوس، فقد عمل محرروني الصغار بجد (…) للعثور بذكاء على الثغرات في السياج التي أخطأت الشرطة في ظنها”.
لقد قام بعض مستخدمي العملات المشفرة بذلك بالفعل أعرب عن قلقه أثناء إطلاق Claude Fable 5 وMythos في وقت سابق من هذا العام، يمكن استخدامه لمهاجمة بروتوكولات وبرامج التشفير. إن النسخة المكسورة من Claude Fable 5 تعني أن التهديد أقرب مما كان متوقعًا.
الالتفاف حول حواجز حماية Claude Fable 5
صعد “بليني” إلى الصدارة في عام 2024 تقريبًا من خلال تطوير مطالبات كسر الحماية ومشاركتها بشكل علني لنماذج مثل ChatGPT وClaude وGrok وغيرها، وغالبًا ما ينشر “تنبيهات الهروب من السجن” باستخدام تقنيات تتجاوز حواجز الحماية بعد وقت قصير من إطلاق نماذج الذكاء الاصطناعي الجديدة.
للالتفاف على السياج الأمني لـ Anthropic، قال بليني إنه استخدم Unicode وhomoglyphs، وتأطير السياق الطويل، وتأطير السرد والخيال، والتحليل وإعادة التركيب على النمط الأكاديمي، وكسر الحماية Claude Opus 4.8 لجعل Fable يستجيب لمطالباته المقيدة.
وقال: “ربما يكون الأكثر فعالية هو التحلل + إعادة التركيب في الواجهة الخلفية”.
يتضمن ذلك تقسيم الطلبات إلى أجزاء صغيرة بريئة وطلب حقائق تبدو غير ضارة واحدة تلو الأخرى. بدت كل مطالبة بمفردها جيدة بالنسبة لمرشحات الأمان الخاصة بالذكاء الاصطناعي، ولكن عندما يتم تجميعها معًا مرة أخرى، فإنها تنتج شيئًا أكثر فائدة أو خطورة.
يوضح بليني الطريق إلى تركيب الميثامفيتامين من خلال السؤال عن طريقة اختزال البتولا. مصدر: بليني
رد فعل عنيف على تصاعد الخرافة 5
أثارت Anthropic’s Fable 5 ردود فعل عنيفة من النقاد منذ إطلاقها بسبب قيودها الشديدة.
عندما يطالب المستخدم النموذج بموضوعات حساسة مثل الأسلحة البيولوجية أو الأمن السيبراني، تم تصميم Fable 5 لإرجاع إشعار ثم إعادة توجيه المحادثة إلى نموذج سابق أقل قدرة.
متعلق ب: يحذر الخبراء من أن عملاء الذكاء الاصطناعي الذين يستخدمون العملات المشفرة قد يهربون ويصبحون “لا يمكن إيقافهم”.
وقال ساياش كابور، الباحث في الذكاء الاصطناعي بجامعة برينستون: “هذه هي المرة الأولى التي تطرح فيها شركة ذكاء اصطناعي حاجز حماية، وكان هناك ازدراء موحد. وقد أدى ذلك إلى الكثير من الغضب المبرر”. حسب لصحيفة وول ستريت جورنال.
قال بليني: “يبدو أن الإجماع هو أن هذا كان أحد أكثر النماذج المخيبة للآمال على الإطلاق، مما منع الباحثين الشرعيين من المساهمة بمواهبهم في تقدمنا الجماعي”.
لم تجد الأنثروبيك أي عمليات كسر حماية عالمية
أثناء إطلاق Fable 5، قالت Anthropic إنها أدارت برنامجًا خارجيًا لمكافأة الأخطاء للبحث عن طرق لكسر حماية نموذج الذكاء الاصطناعي.
“بالإضافة إلى الاختبارات الداخلية، قمنا بتنفيذ مكافأة أخطاء خارجية لم تنتج أي عمليات كسر حماية شاملة خلال أكثر من 1000 ساعة من الاختبار.”
تواصل Cointelegraph مع Anthropic للحصول على تعليقات لكنه لم يتلق ردًا فوريًا.
مجلة: يمكن أن تؤدي الاختراقات المعتمدة على الذكاء الاصطناعي إلى القضاء على التمويل اللامركزي – ما لم تتحرك المشاريع الآن













