تمت إزالة مجموعة كبيرة من بيانات تدريب الذكاء الاصطناعي بعد أن عثرت الدراسة على مواد إساءة معاملة الأطفال

تمت إزالة مجموعة بيانات الذكاء الاصطناعي المستخدمة على نطاق واسع لتدريب Stable Diffusion وImagen ونماذج مولدات الصور الأخرى ذات الذكاء الاصطناعي من قبل منشئها بعد أن وجدت دراسة أنها تحتوي على آلاف الحالات من مواد الاعتداء الجنسي على الأطفال المشتبه بها.

LAION – المعروفة أيضًا باسم الشبكة المفتوحة للذكاء الاصطناعي واسعة النطاق، هي منظمة ألمانية غير ربحية تصنع نماذج ذكاء اصطناعي مفتوحة المصدر ومجموعات بيانات تستخدم لتدريب العديد من نماذج تحويل النص إلى الصورة الشائعة.

لقطة شاشة لمجموعة البيانات المصدر: LAION

ذكر تقرير صدر في 20 ديسمبر من قبل باحثين في مركز السياسات السيبرانية التابع لمرصد ستانفورد للإنترنت أنهم حددوا 3226 حالة مشتبه بها لـ CSAM – أو مواد الاعتداء الجنسي على الأطفال – في مجموعة بيانات LAION-5B، “تم تأكيد الكثير منها على أنها CSAM من قبل أطراف ثالثة، ” وفقًا لمهندس البيانات الضخمة وكبير التقنيين في مركز ستانفورد للسياسات الإلكترونية، ديفيد ثيل.

وأشار ثيل إلى أنه على الرغم من أن وجود CSAM لا يعني بالضرورة أنه سيؤثر “بشكل جذري” على مخرجات النماذج المدربة على مجموعة البيانات، إلا أنه لا يزال من الممكن أن يكون له بعض التأثير.

قال ثيل: “على الرغم من أن كمية الاعتداءات الجنسية والاعتداءات الجنسية الموجودة لا تشير بالضرورة إلى أن وجود الاعتداءات الجنسية والاعتداءات الجنسية يؤثر بشكل كبير على مخرجات النموذج بما يتجاوز قدرة النموذج على الجمع بين مفاهيم النشاط الجنسي والأطفال، فمن المحتمل أنه لا يزال يمارس تأثيرًا”.

وأضاف: “إن وجود حالات متطابقة ومتكررة من مواد الاعتداء الجنسي على الأطفال يمثل أيضًا مشكلة، لا سيما بسبب تعزيزها لصور ضحايا محددين”.

تم إصدار مجموعة بيانات LAION-5B في مارس 2022 وتتضمن 5.85 مليار زوج من الصور والنص، وفقًا لـ LAION.

تتبع LAION سياسة عدم التسامح مطلقًا مع المحتوى غير القانوني. نحن نعمل مع منظمات مثل IWF وغيرها للتحقق من صحة الروابط في مجموعات بيانات LAION باستخدام أدوات التصفية التي طورها مجتمعنا والمنظمات الشريكة للتأكد من أنها آمنة. https://t.co/SStsqukbFK

– لايون (@laion_ai) 20 ديسمبر 2023

وقالت LAION في بيان لها إنها أزالت مجموعات البيانات من باب “الحذر الزائد”، بما في ذلك كل من LAION-5B وLAION-400M، “للتأكد من أنها آمنة قبل إعادة نشرها”.