ما هو LLM مفتوح المصدر من قبل EPFL و ETH Zurich
يوفر Eth Zurich و EPFL's Open-Weight LLM بديلاً شفافًا لـ Black-Box AI المبني على حساب الأخضر ومُعتزم الإصدار العام.
تعمل نماذج اللغة الكبيرة (LLMS) ، وهي شبكات عصبية تتنبأ بالكلمة التالية في الجملة ، التي تعمل على تشغيل الذكاء الاصطناعي اليوم. يظل معظمهم مغلقين ، يمكن استخدامه من قبل الجمهور ، ولكن لا يمكن الوصول إليه للتفتيش أو التحسين. يتضارب هذا الافتقار إلى الشفافية مع مبادئ Web3 المتمثلة في الانفتاح والابتكار بدون إذن.
لذلك لاحظ الجميع عندما أعلن Eth Zurich والمعهد الفيدرالي السويسري للتكنولوجيا في Lausanne (EPFL) عن نموذج عام كامل ، تم تدريبه على الحاسوب الخارق في سويسرا “جبال الألب” ، ومن المقرر إصداره بموجب Apache 2.0 في وقت لاحق من هذا العام.
يشار إليه عمومًا باسم “LLM المفتوح في سويسرا” ، أو “نموذج لغة تم تصميمه من أجل الصالح العام” ، أو “نموذج اللغة السويسري الكبير” ، ولكن لم تتم مشاركة علامة تجارية محددة أو اسم مشروع في البيانات العامة حتى الآن.
LLM Open -Wight هو نموذج يمكن تنزيل معلماته ومراجعته وتراجعه محليًا ، على عكس أنظمة “black -box” فقط API.
تشريح العام السويسري LLM
- حجم: تم تدريب تكوينين ، 8 مليارات و 70 مليار معلمة ، على 15 تريليون رمز.
- اللغات: التغطية في 1500 لغة بفضل مجموعة بيانات 60/40 إنجليزي – غير اللغة الإنجليزية.
- بنية تحتية: 10000 رقائق Nvidia Grace – Hopper على “جبال الألب” ، مدعومة بالكامل بالطاقة المتجددة.
- رخصة: الرمز والأوزان المفتوحة ، وتمكين حقوق الشوكة والتعديل للباحثين والشركات الناشئة على حد سواء.
ما الذي يجعل LLM في سويسرا تبرز
يمزج LLM في سويسرا الانفتاح والمقياس متعدد اللغات والبنية التحتية الخضراء لتوفير LLM شفاف جذري.
- العمارة المفتوحة التصميم: على عكس GPT-4 ، الذي يوفر الوصول إلى واجهة برمجة التطبيقات فقط ، ستوفر LLM Swiss LLM جميع معلمات الشبكة العصبية (الأوزان) ورمز التدريب ومجموعة البيانات المراجع بموجب ترخيص Apache 2.0 ، مما يمكّن المطورين من التوسع والتدقيق والنشر دون قيود.
- أحجام النماذج المزدوجة: سيتم إصدارها في 8 مليارات و 70 مليار نسخ. تمتد المبادرة خفيفة الوزن إلى الاستخدام على نطاق واسع مع الانفتاح المتسق ، وهو أمر GPT-4 ، الذي يقدر بـ 1.7 تريليون معلمة ، لا يقدم علنًا.
- وصول ضخم متعدد اللغات: تم تدريبه على 15 تريليون رموز عبر أكثر من 1500 لغة (حوالي 60 ٪ من اللغة الإنجليزية ، 40 ٪ غير الإنجليزية) ، وهو يتحدى هيمنة GPT-4 التي تركز على اللغة الإنجليزية مع الشمولية العالمية حقًا.
- الحساب الأخضر ، السيادي: بنيت على مجموعة الألب الكربونية المحايدة في مركز الحوسبة الوطنية السويسرية (CSCS) ، وهي 10000 نفيديا غريس-هوببر التي تقدم أكثر من 40 exaflops في وضع FP8 ، فهي تجمع بين المقياس مع الاستدامة في التدريب السحابي الخاص.
- ممارسات البيانات الشفافة: الامتثال لحماية البيانات السويسرية ، وقواعد حقوق الطبع والنشر وشفافية قانون الاتحاد الأوروبي AI ، يحترم النموذج OPT -OUTS من دون التضحية بالأداء ، مما يؤكد على معيار أخلاقي جديد.
ما هو فتح نموذج الذكاء الاصطناعي بالكامل لـ Web3
تتيح شفافية النموذج الكامل استنتاج OnChain ، وتدفقات البيانات المميزة وتكامل Defi آمن Oracle مع عدم وجود صناديق سوداء مطلوبة.
- الاستدلال Onchain: يمكن أن يؤدي تشغيل الإصدارات المشذبة من أجهزة التسلسل السويسرية داخل Rollup Sequencens إلى تمكين إجراءات التخصيص والاحتيال في الوقت الحقيقي.
- أسواق البيانات المميزة: نظرًا لأن مجموعة التدريب شفافة ، يمكن مكافأة المساهمين في البيانات بالرموز ومراجعة التحيز.
- القدرة على التوافق مع أدوات Defi: تتيح الأوزان المفتوحة المخرجات الحتمية التي يمكن أن تتحقق منها Oracles ، مما يقلل من مخاطر التلاعب عندما نماذج أسعار التغذية LLMS أو روبوتات التصفية.
خريطة أهداف التصميم هذه بشكل نظيف على عبارات كبار المسئولين الاقتصاديين عالية الدقة ، بما في ذلك الذكاء الاصطناعي اللامركزي ، وتكامل الذكاء الاصطناعي blockchain واستدلال Onchain ، مما يعزز قابلية اكتشاف المقالة دون حشو الكلمات الرئيسية.
هل تعلم؟ يمكن أن تعمل LLMs Open-Leight داخل Rollups ، مما يساعد العقود الذكية على تلخيص المستندات القانونية أو المعاملات المشبوهة في الوقت الحقيقي.
AI Market Tailwinds لا يمكنك تجاهلها
- من المتوقع أن يتجاوز سوق الذكاء الاصطناعى 500 مليار دولار ، مع التحكم أكثر من 80 ٪ من قبل مقدمي الخدمات المغلقين.
- من المتوقع أن ينمو Blockchain -AAI من 550 مليون دولار في عام 2024 إلى 4.33 مليار دولار بحلول عام 2034 (22.9 ٪ معدل نمو سنوي مركب).
- 68 ٪ من الشركات التجريبية بالفعل ، و 59 ٪ تشير إلى مرونة النموذج والحوكمة كمعايير اختيار أعلى ، وتصويت الثقة للأوزان المفتوحة.
اللائحة: قانون الاتحاد الأوروبي الذكاء الاصطناعي يلتقي بنموذج السيادة
تم تصميم LLMs العامة ، مثل النموذج القادم في سويسرا ، للامتثال لقانون الاتحاد الأوروبي لمنظمة العفو الدولية ، مما يوفر ميزة واضحة في الشفافية والمواءمة التنظيمية.
في 18 يوليو 2025 ، أصدرت المفوضية الأوروبية إرشادات لنماذج مؤسسة المخاطر النظامية. تشمل المتطلبات الاختبار العددي ، وملخصات التدريب المفصل – DATA ومراجعات الأمن السيبراني ، جميعها الفعالة في 2 أغسطس ، 2025. يمكن للمشاريع المفتوحة التي تنشر أوزانها ومجموعات البيانات أن تلبي العديد من هذه الفرق الشفافية خارج الصندوق ، مما يعطي النماذج العامة حافة الامتثال.
السويسري LLM مقابل GPT – 4
لا يزال GPT -4 يحمل ميزة في الأداء الخام بسبب التحسينات ذات الحجم والملوك. لكن النموذج السويسري يغلق الفجوة ، خاصة بالنسبة للمهام متعددة اللغات والأبحاث غير التجارية ، مع تقديم التدقيق الذي لا يمكن للنماذج الملكية بشكل أساسي.
هل تعلم؟ ابتداءً من 2 أغسطس ، 2025 ، يجب على نماذج الأساس في الاتحاد الأوروبي نشر ملخصات البيانات وسجلات التدقيق ونتائج الاختبار العدواني ، والمتطلبات التي تفيها LLM السويسرية المفتوحة المصدر القادمة بالفعل.
Alibaba Qwen vs Switzerland's Public LLM: مقارنة بين النموذج
بينما تؤكد Qwen على تنوع النموذج وأداء النشر ، تركز LLM في سويسرا العام على الشفافية الكاملة والعمق متعدد اللغات.
LLM العام في سويسرا ليس المنافس الجاد الوحيد في سباق LLM Open الوزن. ظهرت سلسلة Qwen من Alibaba ، Qwen3 و Qwen3-Coder ، كبديل عالي الأداء ومفتوح المصدر بالكامل.
في حين أن LLM العام في سويسرا يضيء بالشفافية الكاملة ، فإن إطلاق أوزانها ورمز التدريب ومنهجية مجموعة البيانات بالكامل ، فإن انفتاح Qwen يركز على الأوزان والرمز ، مع وضوح أقل حول مصادر بيانات التدريب.
عندما يتعلق الأمر بالتنوع النموذجي ، تقدم QWEN نطاقًا واسعًا ، بما في ذلك النماذج الكثيفة والهندسة المعمارية لخليط الخبرة (MOE) المتطورة التي تربح ما يصل إلى 235 مليار معلمة (22 مليار نشط) ، إلى جانب أوضاع التفكير الهجينة لمزيد من المعالجة في السياق. على النقيض من ذلك ، تحتفظ LLM العامة في سويسرا بتركيز أكاديمي أكثر ، حيث تقدم أحجام نظيفة موجهة نحو البحث: 8 مليارات و 70 مليار.
عند الأداء ، تم تعيين QWEN3-CODER من Alibaba بشكل مستقل من قبل مصادر بما في ذلك رويترز ، ELETS CIO و Wikipedia لمنافسة GPT-4 في مهام الترميز والرياضيات. لا تزال بيانات أداء LLM في سويسرا في انتظار الإصدار العام.
فيما يتعلق بقدرة متعددة اللغات ، تحصل LLM العامة في سويسرا على زمام المبادرة بدعم لأكثر من 1500 لغة ، في حين أن تغطية Qwen تشمل 119 ، لا تزال كبيرة ولكنها أكثر انتقائية. أخيرًا ، تعكس بصمة البنية التحتية الفلسفات المتباينة: تعمل شركة LLM العامة في سويسرا على الحاسبات الفائقة المحايدة للكربون في CSCS ، وهي منشأة ذات سيادة خضراء ، بينما يتم تدريب نماذج QWEN وتقدمها عبر Alibaba Cloud ، مما يعرض أولوية على شفافية الطاقة.
فيما يلي نظرة جنبًا إلى جنب على كيفية قياس مبادرات LLM مفتوحة المصدر عبر الأبعاد الرئيسية:
هل تعلم؟ يستخدم QWEN3 – CODER إعداد MOE مع إجمالي 235B ولكن 22 مليار فقط نشطة في وقت واحد ، مما يؤدي إلى تحسين السرعة دون تكلفة حساب كاملة.
لماذا يجب على البناة الاهتمام
- السيطرة الكاملة: امتلك مكدس النموذج والأوزان والرمز ومصلحة البيانات. لا قيود قفل البائع في أو API.
- التخصيص: نماذج خيمة من خلال المهام الدقيقة إلى المجال الخاصة ، تحليل Onchain ، التحقق من صحة Oracle ، توليد الرمز
- تحسين التكلفة: نشر على أسواق GPU أو عقد التدحرج ؛ يمكن أن يقلل الكمية إلى 4 بت من تكاليف الاستدلال بنسبة 60 ٪-80 ٪.
- الامتثال للتصميم: تتماشى الوثائق الشفافة بسلاسة مع متطلبات قانون الاتحاد الأوروبي ، وعقبات قانونية أقل ووقت للنشر.
المزالق للتنقل أثناء العمل مع LLMs مفتوحة المصدر
توفر LLMs مفتوحة المصدر شفافية ولكنها تواجه عقبات مثل عدم الاستقرار ومتطلبات حساب عالية وعدم اليقين القانوني.
تشمل التحديات الرئيسية التي تواجهها LLMs مفتوحة المصدر:
- الفجوات في الأداء والحجم: على الرغم من البنية الكبيرة ، يتساءل إجماع المجتمع عما إذا كانت النماذج المفتوحة يمكن أن تتطابق مع إمكانات التفكير والطلاقة والتكامل للأدوات في نماذج مغلقة مثل GPT-4 أو Claude4.
- التنفيذ وعدم الاستقرار المكون: غالبًا ما تواجه LLM Ecosystems تفتيت البرامج ، مع مشكلات مثل عدم تطابق الإصدار أو الوحدات المفقودة أو تعطل شائع في وقت التشغيل.
- تعقيد التكامل: يواجه المستخدمون في كثير من الأحيان تعارضات التبعية أو إعدادات البيئة المعقدة أو أخطاء التكوين عند نشر LLMs مفتوحة المصدر.
- شدة الموارد: التدريب النموذجي ، والاستضافة والاستدلال الطلب على حساب وذاكرة كبيرة (على سبيل المثال ، متعددة GPU ، 64 جيجابايت ذاكرة الوصول العشوائي) ، مما يجعلها أقل في متناول الفرق الأصغر.
- أوجه القصور في الوثائق: غالبًا ما يعيق الانتقال من البحث إلى النشر عن طريق وثائق غير مكتملة أو قديمة أو غير دقيقة ، مما يعقد التبني.
- مخاطر الأمن والثقة: يمكن أن تكون النظم الإيكولوجية المفتوحة عرضة لتوريد تهديدات سلسلة (على سبيل المثال ، التراجع عبر أسماء الحزم الملموسة). يمكن أن تؤدي الحوكمة المريحة إلى نقاط الضعف مثل الخلفية أو الأذونات غير السليمة أو تسرب البيانات.
- الغموض القانوني و IP: قد يعرض استخدام البيانات المتجددة على شبكة الإنترنت أو التراخيص المختلطة المستخدمين على تعارضات في الممتلك الفكري أو انتهاك شروط الاستخدام ، على عكس النماذج المغلقة المدققة تمامًا.
- قضايا الهلوسة والموثوقية: يمكن أن تولد النماذج المفتوحة مخرجات معقولة وغير صحيحة ، خاصة عند ضبطها دون إشراف صارم. على سبيل المثال ، يبلغ المطورون مراجع الحزمة المهلوسة في 20 ٪ من قصاصات التعليمات البرمجية.
- تحديات الكمون والتوسيع: يمكن أن تعاني عمليات النشر المحلية من أوقات الاستجابة البطيئة أو المهلة أو عدم الاستقرار تحت الحمل ، ونادراً ما يتم رؤيتها في خدمات واجهة برمجة التطبيقات المدارة.