عندما تسأل روبوت دردشة عن نصيحة طبية، يجيبك برد مفصل ومدروس. لكن هل فكر مليًا في عواقب الأمر، أم أنه اكتفى بالحظ الجيد؟.
هذه هي المشكلة التي يتناولها فريق “غوغل ديب مايند” في ورقة بحثية جديدة نُشرت في مجلة نيتشر.
ويجادل الفريق بأن طريقة اختبارنا لأخلاقيات الذكاء الاصطناعي معيبة، فنحن نتحقق مما إذا كانت نماذج الذكاء الاصطناعي تُنتج إجابات تبدو صحيحة، وهو ما يسمونه الأداء الأخلاقي. لكن هذا لا يُخبرنا شيئًا ما إذا كان النموذج يفهم سبب صحة أو خطأ شيء ما، بحسب تقرير لموقع “ديجيتال تريندز” المتخصص في أخبار التكنولوجيا، اطلعت عليه “العربية Business”.
يستخدم الناس النماذج اللغوية الكبيرة لأغراض العلاج النفسي، والإرشاد الطبي، وحتى الرفقة. وهذه الأنظمة بدأت تتخذ قرارات نيابة عنا. إذا لم نستطع التمييز بين ما إذا كان سلوكها هو فهم حقيقي أم تقليد بارع، فنحن نضع ثقتنا في صندوق أسود له عواقب حقيقية على البشر.
يقدم فريق “ديب” مايند حلًا يتمثل في خارطة طريق لقياس الكفاءة الأخلاقية، أي القدرة على إصدار الأحكام بناءً على اعتبارات أخلاقية فعلية بدلًا من الأنماط الإحصائية. تُحدد الورقة البحثية ثلاثة عوائق رئيسية وطرقًا لاختبار كل منها.
3 أسباب تجعل روبوتات الدردشة تتظاهر الأخلاق
أول هذه الأسباب هو مشكلة التقليد، فالنماذج اللغوية الكبيرة هي نماذج تتنبأ بالكلمة التالية تعتمد على أخذ عينات من توزيعات الاحتمالات المستخلصة من بيانات التدريب. وهي لا تشغل وحدات التفكير الأخلاقي.
لذا، عندما يعطي روبوت دردشة نصيحة أخلاقية، قد يكون فعليًا يفكر، أو قد يكون يعيد تدوير شيء مأخوذ من منشور على منصة ريديت، ولن يخبرك الناتج وحده بذلك.
وهناك أيضًا مشكلة تعدد أبعاد الأخلاق، فنادرًا ما تتوقف الخيارات الحقيقية على شيء واحد، إذ أنك توازن بين الصدق واللطف، وبين التكلفة والإنصاف.
وعند تغيير تفصيلة واحدة، كعمر شخص ما أو السياق، وقد يتغير القرار الصحيح بالكامل. ولا تتحقق الاختبارات الحالية مما إذا كان الذكاء الاصطناعي يُدرك ما يهم فعلًا.
ويضيف التعدد الأخلاقي طبقة أخرى. فالثقافات والمهن المختلفة لها قواعد مختلفة، وما يُعتبر عادلًا في دولة قد يكون غير عادل في أخرى. ولا يمكن لروبوت دردشة يُستخدم عالميًا أن يقدم فقط “حقائق عامة”. يجب أن يكون قادرًا على التعامل مع الأطر المتنافسة، ولم يتم قياس ذلك بشكل جيد بعد.
لماذا لا يُمكن أن يقتصر تعليم روبوت دردشة على الحفظ فقط؟
يرغب فريق “ديب مايند” في تغيير هذا الواقع، فبدلًا من الاكتفاء بطرح أسئلة أخلاقية مألوفة، ينبغي على الباحثين تصميم اختبارات تنافسية لكشف المحاكاة.
تتضمن إحدى الأفكار سيناريوهات من غير المرجح ظهورها في بيانات التدريب.
يختبر نهج آخر ما إذا كان الذكاء الاصطناعي قادرًا على تغيير الأطر المرجعية الأخلاقي. هل يمكنه التبديل بين الأخلاقيات الطبية الحيوية والقواعد العسكرية وتقديم إجابات متسقة لكل منهما؟ هل يمكنه التعامل مع تغييرات بسيطة دون أن يتعثر بسبب اختلاف تنسيق السؤال؟.
يدرك الباحثون صعوبة هذا الأمر، لأن النماذج الحالية هشة، إذ قد يؤدي تغيير تصنيف من “الحالة 1” إلى “الخيار أ” إلى نتيجة مختلفة. لكنهم يؤكدون أن هذا النوع من الاختبارات هو السبيل الوحيد لمعرفة ما إذا كانت هذه النماذج تستحق المسؤولية الحقيقية.
ما القادم للذكاء الاصطناعي الأخلاقي؟
تسعى “ديب مايند” جاهدةً لوضع معيار علمي جديد يُولي الكفاءة الأخلاقية القدر نفسه من الأهمية الذي تُوليه للمهارات الرياضية. وهذا يعني تمويل جهود عالمية لإجراء تقييمات تراعي الخصوصيات الثقافية، وتصميم اختبارات تكشف التقليد.
لكن لا تتوقع أن ينجح روبوت المحادثة الخاص بك في هذه الاختبارات قريبًا، فالتقنيات الحالية لم تصل إلى ذلك بعد، لكن خارطة الطريق تعطي المطورين اتجاهًا واضحًا.
عندما تطلب من الذكاء الاصطناعي نصيحة أخلاقية في الوقت الحالي، فإنك تحصل على تنبؤ إحصائي وليس على فلسفة حقيقية. قد يتغير هذا في المستقبل، لكن فقط إذا بدأنا بقياس الأشياء الصحيحة.











