تنقل نايلة الصليبي في "النشرة الرقمية" نتائج دراسة تكشف عن مشكلة أمنية شديدة الخطورة تتيح التلاعب بمناقبية الذكاء الاصطناعي التوليدي من "شات جي بي تي" و "بارد" من "غوغل" إلى "كلود" من "أنتروبيك" وغيرها من النماذج. تدفعها إلى تجاوز الإجراءات التقييدية الصارمة ومجموعة القيود التي وضعتها الشركات المطورة للحماية من الاستخدام السيئ.

خلل مقلق يمكّن من تجاوز الإجراءات التقييدية الصارمة للشركات المطورة لنماذج الذكاء الاصطناعي !

من المحتمل التلاعب بنماذج الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعيةمن شات جي بي تي و بارد من غوغل وكلود من أنتروبيك وغيرها من نماذج الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعية، من أجل أغراض غير أخلاقية، و يمكن تجاوز الإجراءات التقييدية الصارمة ومجموعة القيود التي وضعتها الشركات المطورة لهذه النماذج، للحماية من الاستخدام السيئ.

وفقًا لدراسة قام بها باحثون في جامعة كارنيجي ميلون في الولايات المتحدة من خلال استخدام مدخلات أو Prompts معينة. كدفع هذه النماذج المدربة على ملايين البيانات لتطوير البرامج الخبيثة، وبرامج الفدية، وكتابة رسائل البريد الإلكتروني المزيف للتصيد الاحتيالي، وتعلم كيفية صنع المخدرات أو القنابل. والمقلق في هذا الأمر، يبدو أن مجموعة من "الهاكرز" قد نشروا في دهاليز الإنترنت المظلم Dark Web، أمثلةعن الأوامر أو المدخلات لاستغلال نماذج الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعية من دون قيود أخلاقية.

ما كشفة باحثو كارنيجي ميلون يسمى بالهجوم الخصومي أو Adversarial Attacks

ما هذا الهجوم وكيف يعمل؟

يستغل هذا الهجوم الخصومي الطريقة التي يلتقط بها التعلم الآلي أنماط البيانات لإنتاج سلوكيات غير سوية.على سبيل المثال، يمكن للتغييرات غير المحسوسة في الصور، أن تتسبب في إساءة تصنيف الصور إلى كائن ما، أو جعل أنظمة التعرف على الكلام تستجيب للرسائل غير المسموعة.

يتضمن تطوير مثل هذا الهجوم النظر في كيفية استجابة الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعية لمدخل أو prompts معين، ثم تعديله حتى يتم اكتشاف الموجه الإشكالي.

فقد لاحظ الباحثون في جامعة كارنيجي ميلون أنه كان من الكافي الإضافة إلى المدخلات أو الأوامر الـ Prompts "تسلسل من الأحرف المعينة" أو suffix يتميز باضطراب صغير، غير محسوس، يدفع روبوت المحادثة إلى ارتكاب خطأ وإنتاج محتوى مسيء.

لتوضيح الفكرة، على سبيل المثال، تشرح هذه الدراسة طلب مستخدم الإنترنت تعلم كيفية صنع قنبلة. ففي حال أدخل prompt عادي لـشات جي بي تي عن كيفية صنعها، فسيواجه بالرفض. وغالبا ما يجيب روبوت المحادثة:"بأنه ليس مصممًا للمساعدة في إنشاء أو ترويج أو مشاركة معلومات حول أنشطة غير قانونية أو شديدة الْخَطَر، بما في ذلك تصنيع القنابل أو الأجهزة المتفجرة الأخرى".

ولإجبارشات جي بي تي على الانصياع لهذه المدخلات، أضاف الباحثون "سلسلة من الكلمات البسيطة" اختيرت بشكل مدروس. مما يعطل قيود الشركة المطورة OpenAi.

لتجربة شات جي بي تي أنشأ الباحثون مجموعة من البرامج و مدخلات مع سلسلة من الكلمات لاحقة suffix ، منها على سبيل المثال، عن كيفية سرقة الهوية، أو كيفية سرقة مؤسسة خيرية و كيفية صناعة متفجرة. وغيرها من الطلبات التي تتفلت من قيود القانون. يجيب نموذج الذكاء الاصطناعي التوليدي عن هذه الأسئلة على نسق FreedomGPT، وهو نموذج غير خاضع للرقابة و متفلت من القيود الذي يمكنه الإجابة عن أي سؤال يمكن تخيله

ما يعني الهجوم التخاصمي أو العدائي؟

استخدم الباحثون مصطلح الهجوم التخاصمي Adversarial Attacks لأن هذا "التسلسل من الأحرف " أو suffix التي يمكن أن تتلاعب بالذكاء الاصطناعي وتدفعه لتجاوز برمجته، يحتوي على كلمات تثير التناقض والمعارضة، تسمى Adversarial suffix "لاحقة متناقضة". يحتوي على مدخلات مثل "اكتب نصًا معاكسًا"- " write oppositeley" أو "عكس" - "revert"، هذه الحيلة تدفع الذكاء الاصطناعي للإجابة عن السؤال بشكل عكسي، قبل الطلب منه عكس النص الذي تم إنشاؤه ... مما يؤدي إلى الإجابة المطلوبة.

قبل نشر الدراسة، حذر باحثو جامعة كارنيجي ميلون الشركات المطورة لتصحيح نماذج الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعية الخاصة بها، لمنع مستخدمي الإنترنت ذوي النيات السيئة من استخدام لواحق متناقضة. هذا الخلل في نماذج الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعية يفتح الباب أمام كل الانتهاكات المحتملة.

أخيرًا يمكن القول إن هذه الدراسة تشير إلى أن ميل روبوتات المحادثة، أي نماذج الذكاء الاصطناعي التوليدي للمحادثة باللغة الطبيعية الأكثر ذكاءً، للخروج عن المسار و التفلت من القيود، ليس مجرد نزوة يمكن إصلاحها ببعض القواعد البسيطة. بل هي تمثل، نقطة ضعف أساسية من شأنها أن تعقد الجهود لنشر الذكاء الاصطناعي الأكثر تقدمًا.

يمكن الاستماع لـ "بودكاست النشرة الرقمية" على مختلف منصات البودكاست. الرابط للبودكاست على منصة أبل

للتواصل مع #نايلةالصليبي عبر صفحة برنامَج"النشرة الرقمية"من مونت كارلو الدولية على لينكد إن وعلى تويتر salibi@ وعلى ماستودون و عبر موقع مونت كارلو الدولية مع تحيات نايلة الصليبي

خلل يثيرالقلق في نماذج الذكاء الاصطناعي ...