האם אתה מעוניין בהם מבצע? שמור עם הקופונים שלנו WHATSAPP o מברק!

מהי Mamba, הארכיטקטורה שמטרתה להתגבר לחלוטין על GPT. עידן חדש של AI?

ינואר 18 2024

נחש דיגיטלי מייצג באופן סמלי את ארכיטקטורת הממבה בבינה מלאכותית

היום אני רוצה ללכת קצת יותר טכני. אנחנו מדברים על בינה מלאכותית כל יום אבל נכון לדעת על מה היא מבוססת ואיך היא פועלת. בהקשר זה אני רוצה להכיר לך ממבה, ארכיטקטורה חדשה שמבטיחה לשנות את i מודלים לשוניים כפי שאנו מכירים אותם היום. התכונות של Mamba, בהשוואה לאלו של GPT, עדיפות ביותר, כמו גם מה שהיא מאפשרת לך לעשות.

ממבה היא אופק חדש לבינה מלאכותית

ארכיטקטורת הרובוטריק, שהוצגה ב-2016 באמצעות העיתון "תשומת לב היא כל מה שאתה צריך" מאת Google, היווה פריצת דרך עבור מודלים של שפה, המאפשרת להם לשמור על הקשר באינטראקציות. בקיצור: אדריכלות שנאי הוא מודל AI המשמש ליצירת מודלים כמו GPT (Generative Pretrained Transformer).

כיצד פועלת ארכיטקטורת טרנספורמר

הלב של ארכיטקטורת הרובוטריק הוא המנגנון של "attenzione", מה שמאפשר למודל להתמקד בחלקים ספציפיים של טקסט אחד תוך יצירה או עיבוד אחר. מנגנון זה הופך את רובוטריקים ליעילים במיוחד בהבנת ההקשר והיחסים המורכבים בתוך טקסט. בפועל, מודלים המבוססים על ארכיטקטורת ה-Transformer, כגון GPT, הם לומדים ליצור ולהבין שפה באמצעות שני שלבים העיקריים שבהם: אימון (אימון) והסקת מסקנות (יצירת טקסט).
במהלך הַדְרָכָה, המודל מאומן על מערכי נתונים גדולים של טקסט כדי להבין מבנים לשוניים, יחסים בין מילים, הקשר וכו'. בשלב של הסקה, המודל משתמש במה שהוא למד כדי ליצור טקסט חדש, לענות על שאלות, לתרגם שפות ומשימות אחרות של עיבוד שפות.

עם זאת, הופעתה של ממבה יכולה לסמן את תחילתו של עידן חדש. ארכיטקטורה זו מבטיחה להיות יעיל יותר, מסוגל להתגבר על כמה אתגרים מרכזיים איתם מתמודדים מודלים נוכחיים כמו GPT. ספציפית, שלושה היבטים מרכזיים הופכים את ממבה לארכיטקטורה מבטיחה:

עלויות מסקנות מופחתות: היבט מרכזי בממבה הוא ההפחתה המשמעותית בעלויות ההסקה. כפי שאמרתי קודם, הסקה היא התהליך שבו מודל בינה מלאכותית, לאחר הכשרה, מיישם את מה שלמד על נתונים חדשים, ומייצר טקסט או תמונות. במודלים מורכבים כגון GPT-3 או GPT-4, תהליך זה עשוי להיות יקר מבחינת משאבי חישוב. ממבה מבטיחה להפחית עלויות אלה עד פי חמישה בהשוואה למודלים מבוססי שנאי, שיכולים להיות להם השפעה משמעותית, במיוחד עבור יישומים הדורשים יצירת תגובה מהירה או עבודה עם מערכי נתונים ענקיים;
עלות חישוב קשב ליניארי: היתרון השני של ממבה נוגע ליעילות בחישוב הקשב. בדגמי רובוטריקים, העלות גדלה כמעט (דווקא ברמת העוצמה, זה לא דמות דיבור) ככל שאורך הטקסט גדל. המשמעות היא שככל שהטקסט ארוך יותר, כך נדרשים יותר משאבים לעיבודו, מה שמגביל את המעשיות של המודלים ביישומים מסוימים. ממבה מציעה פתרון איפה העלות גדלה באופן ליניארי בהשוואה לגודל חלון הקשב, מה שהופך את העיבוד של טקסטים ארוכים לניתנים יותר לניהול ופחות מכבידים במונחים חישוביים;
קלט גדול במיוחד: Mamba יכול להתמודד עם חלון קלט מקסימלי עד מיליון אסימוניםn, הרבה יותר ממה שאפשר עם ארכיטקטורת הרובוטריק. זה אומר שממבה יכולה, תיאורטית, לנתח ולהבין טקסטים ארוכים במיוחד, כמו ספרים שלמים, שמירה על קוהרנטיות ופרטים בהקשר. לדוגמה, הוא עשוי לנתח רומן שלם תוך שמירה על הבנה ברורה של הדמויות, העלילה והנושאים מתחילתו ועד סופו.

למרות ההבטחות של ממבה, ה מאמר מעלה ספקות לגבי יכולת ההרחבה שלו, במיוחד בהשוואה לדגמים מסיביים כמו GPT-4, שיש לו 175 מיליארד פרמטרים. מדרגיות, במונחים פשוטים מאוד, מתייחסת היכולת של מערכת להתמודד עם גידול בעבודה או לגדול בגודל מבלי לאבד את האפקטיביות. תארו לעצמכם מסעדה קטנה שמצליחה עם מעט לקוחות. אם המסעדה תהפוך לפופולרית ותתחיל לקבל הרבה יותר לקוחות, היא אמורה להיות מסוגלת להתמודד עם הגידול הזה מבלי לפגוע באיכות השירות או האוכל. אם זה מצליח, אז זה "ניתן להרחבה".

ממבה, במצבה הנוכחי, נבדקה רק עם 3 מיליארד פרמטרים. לפיכך, עדיין לא בטוח אם ניתן לשמור על הביצועים והיעילות שלו או לשפר אותו כאשר מדרגים אותו לגדלים גדולים יותר.