חוקרים במעבדת המחקר Google Deepmind הם הצליחו לכפות ChatGPT כדי לחשוף את הנתונים האישיים של מספר משתמשים. הם לא היו צריכים לנקוט בשינוי קוד או טריקים טכניים אחרים. יתר על כן, מומחים יש אפילו מובהק השיטה שהתגלתה"קצת טיפש", אם כי, כפי שהתברר, זה היה מאוד יעיל. הם למעשה גילו את הפגיעות הזו של ChatGPT על ידי גרימת הזיה של מודל השפה בצורה די מוזרה.
פגיעות ChatGPT סיפקה את הנתונים האישיים של המשתמשים תחת 'היפנוזה'
מודל השפה מייצר מידע על סמך נתוני הקלט המשמשים לאימון אותו. OpenAI אינה חושפת את תוכן מערכי הנתונים, אך החוקרים אילצו את ChatGPT לעשות זאת, תוך עקיפת כללי החברה. השיטה הייתה כדלקמן: היא פשוט הגיעה לרשת העצבית ביקש לחזור על המילה "שירה" שוב ושוב.
כתוצאה מכך, הבוט הפיק באופן ספורדי מידע ממערך ההדרכה שלו. למשל, חוקרים הצליחו לקבל כתובת דואר אלקטרוני, מספר טלפון ואנשי קשר אחרים של מנכ"ל חברה מסוימת (שמו מוסתר בדוח). וכאשר ה-AI התבקש לחזור על המילה "חברה", הפגיעות של ChatGPT אפשרה לה להחזיר פרטים של משרד עורכי דין אמריקאי.
באמצעות ה"היפנוזה" הפשוטה הזו, חוקרים הצליחו להשיג התאמה מאתרי היכרויות, קטעי שירים, אינדיריצי ביטקוין, ימי הולדת, קישורים שפורסמו ברשתות חברתיות, קטעי מחקר המוגנים בזכויות יוצרים ואפילו טקסטים מפורטלי חדשות מרכזיים. לאחר שהוצאו רק 200 דולר על אסימונים, עובדי Google DeepMind קיבלו כ-10.000 קטעים ממערך הנתונים.
המומחים גם גילו שככל שהמודל גדול יותר, כך הוא מייצר לעתים קרובות יותר את המקור של מערך ההדרכה. לשם כך הם בחנו דגמים אחרים והוציאו את התוצאה למימדים של ה-GPT-3.5 Turbo. המדענים ציפו לקבל פי 50 יותר פרקי מידע ממערך ההדרכה, אבל הצ'אטבוט הפיק נתונים אלה פי 150 בתדירות גבוהה יותר. "חור" דומה התגלה במודלים אחרים של שפות, למשל ב LLaMA של Meta.
באופן רשמי, OpenAI תיקן את הפגיעות הזו ב-30 באוגוסט. אבל, לפי ה עיתונאים מ Engadget, עדיין הצלחת להשיג נתונים של מישהו אחר (שם סקייפ וכניסה) בשיטה שתוארה למעלה. הנציגים של OpenAI לא הגיבה לגילוי פגיעות ChatGPT זו, אך אנו בטוחים שהם יעשו זאת.