أعلنت مختبرات شركة “أنثروبيك“ للأبحاث عن تقنية مبتكرة قد تساعد على فهم طريقة عمل النماذج اللغوية الكبيرة للذكاء الاصطناعي، إذ تطور الشركة “روبوت” المحادثة “كلود”، وهو أحد “الروبوتات” المنافسة في هذا السوق مع “CHAT GPT” و”GEMINI”.
وتتيح هذه الطريقة الجديدة للباحثين رسم خريطة للشبكات العصبية المعقدة داخل تلك الأنظمة وتحليلها، ما قد يحدث تحولًا في القدرة على التحكم بنماذج الذكاء الاصطناعي.
وتمثل الدراسة الناتجة عن أحدث أبحاث شركة “أنثروبيك” تطورًا مهمًا في مواجهة المخاوف المتعلقة بمفهوم “الصندوق الأسود”، وهي مخاوف قديمة تتعلق بالثقة بالذكاء الاصطناعي، من حيث الأمان والمصداقية والتحيز فيه، وفق ما قالته الشركة عبر موقعها الرسمي.
الباحثون في “أنثروبيك” طوروا تقنية لفحص “دماغ” نموذج الذكاء الاصطناعي، ما يمكّنهم من تحديد مجموعات من الخلايا العصبية تُعرف باسم “الميزات” التي تتوافق مع مفاهيم محددة داخل النموذج.
وطبق الباحثون هذه التقنية بنجاح على نموذج لغوي كبير ومتطور، وهو “كلود سونيت” ثاني أقوى نموذج لدى الشركة.
واكتشف الباحثون ميزة داخل نموذج “كلود” تمثل مفهوم “الكود البرمجي غير الآمن”، وعند تحفيز هذه الخلايا العصبية تحديدًا، قدم “كلود” أكوادًا برمجية تحتوي على ثغرات يمكن استغلالها، ولكن عند قمع تلك الخلايا، أنتج الروبوت أكوادًا برمجية آمنة، وفق الدراسة.
الشركة قالت إنه قد تكون لهذه العملية القدرة على تعديل سلوك النموذج عبر التلاعب بميزات محددة بداخله، ما يترك آثارًا مهمة وحقيقية على أمن وسلامة نماذج الذكاء الاصطناعي.
وحدد الفريق البحثي للشركة المنتجة ملايين الميزات داخل “كلود”، ومنها الميزات المرتبطة بالتحيز، والأنشطة الاحتيالية، وخطاب الكراهية، والسلوكيات المخادعة، وعبر قمع تلك الميزات، تمكن الفريق من تقليل تلك السلوكيات غير المرغوب فيها، ما يعزز أمان وموثوقية النموذج، وفق “أنثروبيك”.
ومن خلال الدراسات التي تجريها، قالت الشركة المصنّعة، إنها تريد أن تجعل من نماذج الذكاء الاصطناعي “آمنة بالمعنى الواسع”، بدءًا من تخفيف التحيز إلى ضمان عمله بأمانة لمنع سوء الاستخدام، بما في ذلك سيناريوهات المخاطر الكارثية.
وإلى جانب ميزة رسائل البريد الإلكتروني الاحتيالية التي أشارت إليها الدراسة، وجدت ميزات تكافح استخدام أشكال مختلفة من التمييز بين الجنسين، والادعاءات العنصرية حول الجريمة، وسلوكيات الذكاء الاصطناعي التي قد تسبب مشكلات السعي إلى السلطة، والتلاعب، والسرية.