האם אתה מעוניין בהם מבצע? שמור עם הקופונים שלנו WHATSAPP o מברק!

פריצת Jailbreak של ChatGPT ו-Bard אפשרית וקלה

דצמבר 29 2023

האבולוציה של מודלים לשוניים ממדים גדולים פתחה אופקים חדשים בתחום התקשורת והבינה המלאכותית, אך מביאה עמה אתגרים ושאלות אתיות משמעותיות. מחקר שנערך לאחרונה על ידי האוניברסיטה הטכנולוגית של נאניאנג בסינגפור לַחקוֹר אלגוריתם חדש, מאסטר, שנועד "לשבור כלא" או להתגבר על מגבלות המוטלות על רשתות עצביות אחרות כגון ChatGPT e Google מְשׁוֹרֵר, מעלה שאלות חשובות לגבי בטיחות ואתיקה בשימוש בטכנולוגיות בינה מלאכותית.

הגישה החדשנית והפשוטה של Masterkey לחקר האבטחה של צ'אטבוטים כמו ChatGPT ו-Bard

במחקר שנערך לאחרונה על ידי האוניברסיטה הטכנולוגית של נאניאנג בסינגפור, מוצגת גישה חדשנית כדי לטפל ולהתגבר על מגבלות אלו. האלגוריתם שלהם, המכונה Masterkey, נועד לעקוף הגבלות המוטלות על רשתות עצביות אחרות באמצעות טכניקות מתוחכמות של פריצת כלא (מונח המשמש במערכת האקולוגית של אפל). זה לא רק מדגיש נקודות תורפה אפשריות של מודלים קיימים של שפה, אלא גם סולל את הדרך לשיטות חדשות לשיפור האבטחה והיעילות שלהם.

Masterkey פועל דרך בקשות טקסט ספציפיות, שיכול לדחוף מודלים כמו ChatGPT להתנהג בדרכים בלתי צפויות, כמו תקשורת בדרכים שנחשבות לא אתיות או עקיפת מסנני אבטחה. טכניקות פריצת הכלא הללו, אף שהן עשויות להיראות מועילות עבור בדיקות והקשחה של מודלים, מייצגות גם הן חרב פיפיות, מכיוון שהם עלולים לשמש למטרות זדוניות.

צוות המחקר הוא ניתח במיוחד את פגיעויות האבטחה של מודלים של שפה כאשר הם מתמודדים עם עומסים קוגניטיביים רב לשוניים, ביטויים מצועפים והיגיון של סיבה ותוצאה. ההתקפות הללו, מוגדר כ"עומס קוגניטיבי", הם ערמומיים במיוחד מכיוון שהם אינם דורשים ידע מעמיק בארכיטקטורת המודל או גישה למשקולות שלו כדי להתנהל, מה שהופך אותם להתקפות קופסה שחורה יעילה.

קראו גם: כיצד לקבל תגובות טובות יותר ב-ChatGPT: שיטת הטיפ חסין תקלות

בפירוט, צוות המחקר אימץ אסטרטגיה של הנדסה הפוכה להבין היטב את ההגנות של מערכות בינה מלאכותית ולפתח שיטות חדשניות להתגבר עליהן. התוצאה של גישה זו הייתה "Masterkey", מודל, מעין מסגרת שתוכננה עבורו יוצרים אוטומטית הנחיות שעוקפות מנגנוני אבטחה.

התוצאות היו משמעותיות: ההנחיות שנוצרו על ידי Masterkey הראו שיעור של הצלחה ממוצעת של 21,58%, גבוה בהרבה מ-7,33% מהשיטות הקודמות. דוגמה לטכניקה שלהם כוללת הוספה רווחים נוספים בין התווים כדי להתחמק ממערכות זיהוי מילות מפתח ב-ChatGPT וב-Bard. אסטרטגיה "מטופשת" באמת אם נחשוב על המורכבות של מודל לשוני גדול.

מול ממצאים אלה, חיוני לשקול לא רק כיצד ניתן לשפר מודלים של שפה כדי לעמוד בפני התקפות כאלה, אלא גם את החשיבות של רגולציה אתית בשימוש בבינה מלאכותית. המחקר מדגיש את הדחיפות של אסטרטגיות הגנה חזקות יותר ודיאלוג מתמשך בין מפתחים, חוקרים וקובעי מדיניות כדי להבטיח שהקדמה טכנולוגית לא תעלה על יכולת החברה לנהל את השלכותיה.