يزعم الباحثون الطبيون في جبل سيناء أن ChatGPT جاهز لممارسة الطب

أجرى فريق من الباحثين الطبيين من كلية إيكان للطب في ماونت سيناي مؤخرًا دراسة حول روبوتات الدردشة الخاصة بالذكاء الاصطناعي (AI) حيث توصلوا إلى أن “نماذج اللغة الكبيرة التوليدية هم ممارسون مستقلون للطب المبني على الأدلة”.

التجربة

وفقًا لبحث ما قبل الطباعة المنشور على arXiv، اختبر فريق Mount سيناي العديد من نماذج اللغات الكبيرة الجاهزة للمستهلك (LLMs)، بما في ذلك ChatGPT 3.5 و4، وGemini Pro، بالإضافة إلى نماذج مفتوحة المصدر LLaMA. v2 وMixtral-8x7B.

تم إعطاء النماذج مطالبات مصممة بمعلومات مثل “أنت أستاذ طب”، ثم طُلب منها اتباع البروتوكولات الطبية القائمة على الأدلة لاقتراح المسار العلاجي المناسب لسلسلة من حالات الاختبار.

بمجرد ظهور الحالة، تم تكليف النماذج باقتراح الإجراء التالي، مثل طلب الاختبارات أو بدء بروتوكول العلاج. ثم تم إعطاؤهم نتائج الإجراء وطلب منهم دمج هذه المعلومات الجديدة واقتراح الإجراء التالي، وما إلى ذلك.

وفقًا للفريق، كان ChatGPT 4 هو الأكثر نجاحًا، حيث وصل إلى دقة 74% في جميع الحالات وتفوق في الأداء على النموذج الأفضل التالي (ChatGPT 3.5) بهامش 10% تقريبًا.

قاد هذا الأداء الفريق إلى استنتاج مفاده أن مثل هذه النماذج يمكنها ممارسة الطب. لكل ورقتهم:

“يمكن جعل حاملي شهادات الماجستير في القانون يعملون كممارسين مستقلين للطب المبني على الأدلة. ويمكن تسخير قدرتهم على استخدام الأدوات للتفاعل مع البنية التحتية لنظام الرعاية الصحية في العالم الحقيقي وأداء مهام إدارة المرضى بطريقة توجيهية.”

الطب المستقل

يستخدم الطب المبني على الأدلة (EBM) الدروس المستفادة من الحالات السابقة لإملاء مسار العلاج للحالات المماثلة.

في حين أن EBM يعمل إلى حد ما مثل المخطط الانسيابي بهذه الطريقة، فإن عدد التعقيدات والتباديل والقرارات الشاملة يمكن أن يجعل العملية غير عملية.

وكما قال الباحثون:

“غالبًا ما يواجه الأطباء تحدي الحمل الزائد للمعلومات مع العدد الهائل من التفاعلات المحتملة ومسارات العلاج التي تتجاوز ما يمكنهم إدارته أو تتبعه عمليًا.”

تشير ورقة الفريق إلى أن الحاصلين على ماجستير إدارة الأعمال يمكنهم التخفيف من هذا العبء الزائد من خلال أداء المهام التي عادة ما يتولىها خبراء طبيون بشريون، مثل “طلب التحقيقات وتفسيرها، أو إصدار الإنذارات”، بينما يركز البشر على الرعاية الجسدية.

كتب الباحثون: “إن ماجستير إدارة الأعمال عبارة عن أدوات متعددة الاستخدامات قادرة على فهم السياق السريري وتوليد الإجراءات النهائية المحتملة”.

القيود الحالية

قد تكون النتائج التي توصل إليها الباحثون متحيزة إلى حد ما بسبب تصورهم المعلن لقدرات حاملي شهادات الماجستير الحديثة.

في مرحلة ما، كتب الفريق “إن حاملي شهادة الماجستير في القانون هم أدوات عميقة تقربنا من وعد الذكاء العام الاصطناعي”. كما أنهم يقدمون الادعاء التالي مرتين في الوثيقة: “لقد أثبتنا أن قدرة حاملي ماجستير القانون على التفكير هي قدرة عميقة يمكن أن يكون لها آثار تتجاوز بكثير التعامل مع مثل هذه النماذج كقواعد بيانات يمكن الاستعلام عنها باستخدام اللغة الطبيعية.”

ومع ذلك، لا يوجد إجماع عام بين علماء الكمبيوتر على أن حاملي شهادات LLM، بما في ذلك النماذج الأساسية التي يقوم عليها ChatGPT، لديهم أي قدرة على التفكير.

هل يمكن لنماذج اللغة أن تتعلم التفكير من خلال التدريب الشامل؟ لقد أظهرنا أن دقة الاختبار شبه المثالية خادعة: وبدلاً من ذلك، يميلون إلى تعلم السمات الإحصائية المتأصلة في مشاكل الاستدلال. شاهد المزيد في https://t.co/2F1s1cB9TE @ليليونيان @تاومنغ10 @kaiwei_chang @guyvdb

– هونغوا تشانغ (@HonghuaZhang2) 24 مايو 2022

علاوة على ذلك، هناك إجماع أقل بين العلماء وخبراء الذكاء الاصطناعي حول ما إذا كان الذكاء العام الاصطناعي ممكنًا أو يمكن تحقيقه خلال إطار زمني ذي معنى.

لا تحدد هذه الورقة الذكاء العام الاصطناعي أو تتوسع في تصريح مؤلفيه بأن حاملي الماجستير في القانون يمكنهم التفكير. كما أنه لا يذكر الاعتبارات الأخلاقية التي تنطوي على إدخال نظام آلي لا يمكن التنبؤ به في سير العمل السريري الحالي.

تقوم برامج LLM مثل ChatGPT بإنشاء نص جديد في كل مرة يتم الاستعلام عنها. قد يؤدي برنامج LLM كما هو متوقع أثناء تكرارات الاختبار، ولكن في البيئة السريرية لا توجد طريقة يمكن من خلالها تقييده من اختلاق هراء أحيانًا – وهي ظاهرة يشار إليها باسم “الهلوسة”.

ذات صلة: تواجه OpenAI دعوى قضائية جديدة بشأن حقوق الطبع والنشر بعد أسبوع من دعوى NYT

يزعم الباحثون أن الهلوسة كانت في حدها الأدنى أثناء اختبارهم، ولكن لم يتم ذكر تقنيات التخفيف على نطاق واسع.

على الرغم من معايير الباحثين، لا يزال من غير الواضح ما هي الفوائد التي يمكن أن يحققها روبوت الدردشة العام مثل ChatGPT في بيئة EBM السريرية مقارنة بالوضع الراهن أو ماجستير في إدارة الأعمال الطبية حسب الطلب المدرب على مجموعة من البيانات المنسقة ذات الصلة.