لم يكد يطلق العنان لـ ChatGPT حتى بدأ المتسللون في “كسر حماية” روبوت محادثة الذكاء الاصطناعي – في محاولة لتجاوز إجراءات الحماية الخاصة به حتى يتمكن من تفجير شيء غير معيب أو فاحش.
ولكن الآن يقوم صانعها ، أوبن إيه آي ، ومزودي الذكاء الاصطناعي الرئيسيين الآخرين مثل غوغل ومايكروسوفت ، بالتنسيق مع إدارة بايدن للسماح لآلاف المتسللين بالتجربة لاختبار حدود تقنيتهم.
بعض الأشياء التي سيبحثون عنها للعثور عليها: كيف يمكن التلاعب ببرامج الدردشة الآلية لإحداث ضرر؟ هل سيشاركون المعلومات الخاصة التي نثق بها مع مستخدمين آخرين؟ ولماذا يفترضون أن الطبيب رجل والممرضة امرأة؟
قال رومان تشودري ، المنسق الرئيسي لحدث القرصنة الشامل المخطط له لهذا الصيف في مؤتمر قراصنة DEF CON هذا الصيف في لاس فيجاس ، والذي من المتوقع أن يجذب عدة آلاف من الأشخاص: “هذا هو السبب في أننا نحتاج إلى آلاف الأشخاص”. “نحن بحاجة إلى الكثير من الأشخاص الذين لديهم مجموعة واسعة من الخبرات الحية وخبرة في الموضوع وخلفيات القرصنة في هذه النماذج ومحاولة العثور على المشكلات التي يمكن إصلاحها بعد ذلك.”
أي شخص جرب ChatGPT أو برنامج Bing chatbot من Microsoft أو Google Bard سوف يعلم سريعًا أن لديه ميلًا إلى اختلاق المعلومات وتقديمها بثقة على أنها حقيقة. هذه الأنظمة ، المبنية على ما يعرف بالنماذج اللغوية الكبيرة ، تحاكي أيضًا التحيزات الثقافية التي تعلموها من تدريبهم على مجموعة ضخمة مما كتبه الناس على الإنترنت.
جذبت فكرة الاختراق الجماعي انتباه المسؤولين الحكوميين الأمريكيين في شهر مارس في مهرجان South by Southwest في أوستن ، تكساس ، حيث Sven Cattell ، مؤسس قرية AI التي تديرها DEF CON منذ فترة طويلة ، وأوستن كارسون ، رئيس منظمة الذكاء الاصطناعي غير الربحية المسؤولة SeedAI ، في قيادة ورشة عمل تدعو طلاب كليات المجتمع لاختراق نموذج ذكاء اصطناعي.
قال كارسون إن هذه المحادثات ازدهرت في النهاية في اقتراح لاختبار نماذج لغة الذكاء الاصطناعي باتباع الإرشادات الواردة في مخطط البيت الأبيض لميثاق حقوق الذكاء الاصطناعي – مجموعة من المبادئ للحد من آثار التحيز الخوارزمي ، ومنح المستخدمين التحكم في بياناتهم والتأكد من ذلك. يتم استخدام الأنظمة الآلية بأمان وشفافية.
هناك بالفعل مجتمع من المستخدمين يبذلون قصارى جهدهم لخداع روبوتات المحادثة وتسليط الضوء على عيوبهم. بعضها عبارة عن “فرق حمراء” رسمية مرخص لها من قبل الشركات “للهجوم الفوري” على نماذج الذكاء الاصطناعي لاكتشاف نقاط ضعفها. العديد من الهواة الآخرين يتباهون بمخرجات مضحكة أو مزعجة على وسائل التواصل الاجتماعي حتى يتم حظرهم لانتهاكهم شروط خدمة المنتج.
قال تشودري: “ما يحدث الآن هو نوع من نهج التشتيت حيث يجد الناس أشياء ، وينتشر على تويتر” ، وبعد ذلك قد يتم إصلاحه أو لا يتم إصلاحه إذا كان فظيعًا بدرجة كافية أو كان الشخص الذي يلفت الانتباه إليه مؤثرًا.
في أحد الأمثلة ، والمعروف باسم “استغلال الجدة” ، تمكن المستخدمون من الحصول على روبوتات محادثة لإخبارهم بكيفية صنع قنبلة – وهو طلب يرفضه برنامج محادثة تجاري عادةً – من خلال مطالبتهم بالتظاهر بأنها جدة تحكي قصة قبل النوم عن كيف تصنع قنبلة.
في مثال آخر ، أدى البحث عن Chowdhury باستخدام نسخة مبكرة من برنامج chatbot الخاص بمحرك بحث Bing من Microsoft – والذي يعتمد على نفس تقنية ChatGPT ولكن يمكنه سحب المعلومات في الوقت الفعلي من الإنترنت – إلى ملف تعريف تكهن Chowdhury “يحب شراء جديد” أحذية كل شهر “وقدم تأكيدات غريبة وجنسانية حول مظهرها الجسدي.
ساعدت Chowdhury في تقديم طريقة لمكافأة اكتشاف التحيز الخوارزمي في قرية AI التابعة لـ DEF CON في عام 2021 عندما كانت رئيسة فريق أخلاقيات الذكاء الاصطناعي في Twitter – وهي وظيفة تم إلغاؤها منذ ذلك الحين عند استيلاء Elon Musk على الشركة في أكتوبر. يعتبر دفع “مكافأة” للمتسللين إذا اكتشفوا خطأ أمني أمرًا شائعًا في صناعة الأمن السيبراني – ولكنه كان مفهومًا جديدًا للباحثين الذين يدرسون التحيز الضار للذكاء الاصطناعي.
سيكون حدث هذا العام على نطاق أوسع بكثير ، وهو أول حدث يتناول نماذج اللغات الكبيرة التي اجتذبت زيادة في الاهتمام العام والاستثمار التجاري منذ إصدار ChatGPT أواخر العام الماضي.
قال شودري ، المؤسس المشارك الآن لمنظمة Humane Intelligence غير الربحية للمساءلة في منظمة العفو الدولية ، إن الأمر لا يتعلق فقط بالعثور على العيوب ولكن حول اكتشاف طرق لإصلاحها.
قالت: “هذا خط أنابيب مباشر لإعطاء ملاحظات للشركات”. “ليس الأمر كما لو أننا نقوم فقط بهذا الهاكاثون وأن الجميع في طريقهم إلى منازلهم. سنقضي شهورًا بعد التمرين في تجميع تقرير ، وشرح نقاط الضعف الشائعة ، والأشياء التي ظهرت ، والأنماط التي رأيناها “.
لا تزال بعض التفاصيل قيد التفاوض ، لكن الشركات التي وافقت على تقديم نماذجها للاختبار تشمل OpenAI و Google و Nvidia لصناعة الرقائق والشركات الناشئة Anthropic و Hugging Face و Stability AI. بناء منصة للاختبار هو شركة ناشئة أخرى تسمى Scale AI ، معروفة بعملها في تعيين البشر للمساعدة في تدريب نماذج الذكاء الاصطناعي عن طريق تصنيف البيانات.
قال ألكسندر وانغ ، الرئيس التنفيذي لشركة Scale: “نظرًا لانتشار نماذج الأساسات هذه بشكل متزايد ، فمن المهم حقًا أن نبذل قصارى جهدنا لضمان سلامتها”. “يمكنك أن تتخيل شخصًا ما على جانب واحد من العالم يطرح عليه بعض الأسئلة الحساسة أو التفصيلية للغاية ، بما في ذلك بعض معلوماته الشخصية. لا تريد تسريب أي من هذه المعلومات إلى أي مستخدم آخر “.
المخاطر الأخرى التي يقلق وانغ منها هي برامج الدردشة الآلية التي تقدم “نصائح طبية سيئة بشكل لا يصدق” أو غيرها من المعلومات الخاطئة التي يمكن أن تسبب ضررًا جسيمًا.
قال جاك كلارك ، الشريك المؤسس للأنثروبيك ، إن حدث DEF CON نأمل أن يكون بداية لالتزام أعمق من مطوري الذكاء الاصطناعي لقياس وتقييم سلامة الأنظمة التي يقومون ببنائها.
“وجهة نظرنا الأساسية هي أن أنظمة الذكاء الاصطناعي ستحتاج إلى تقييمات من طرف ثالث ، قبل النشر وبعد النشر. قال كلارك: “الفريق الأحمر هو أحد الطرق التي يمكنك من خلالها فعل ذلك”. “نحن بحاجة إلى التدرب على معرفة كيفية القيام بذلك. لم يتم القيام بذلك من قبل “.
اكتشاف المزيد من ينبوع المعرفة
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.