The impact of synthetic data rates in imbalanced datasets on convergence characteristics of deep learning networks


מחקר חדש של ד"ר שרון ילוב־הנדזל, ראשת התוכנית לתואר שני בהנדסת מערכות תבוניות,  וקרן גליקמן בוגרת תואר שני במערכות תבוניות, שפורסם לאחרונה בכתב העת הבינלאומי Soft Computing  מבית  Springer, בחן כיצד תוספת של נתונים סינתטיים משפיעה על הדיוק והיציבות של מערכות בינה מלאכותית המתמודדות עם מאגרי מידע לא מאוזנים. תופעה שמאפיינת במיוחד את תחום הבריאות: מאגרי מידע שבהם יש הרבה דוגמאות למקרים נפוצים, אך מעט מאוד דוגמאות למקרים נדירים, מה שמקשה על מערכות AI ללמוד בצורה מדויקת.

המחקר בחן שני מאגרי מידע רפואיים: נתוני לידות ונתוני בדיקות קורונה. אל כל מאגר נוספו כמויות משתנות של נתונים סינתטיים שנוצרו באמצעות שתי שיטות נפוצות בתחום. המטרה הייתה לבדוק האם התוספת מחזקת את הלמידה של המערכת, או דווקא פוגעת בה.

הממצאים הצביעו על תובנה ברורה: תוספת מתונה של נתונים סינתטיים (כ-10%–20%) עשויה לשפר את איכות הלמידה, אך מעבר לכך היא גורמת פגיעה בביצועים ואף לחוסר יציבות בתוצאות. בנוסף נמצא כי יש להתאים את שיטת יצירת הנתונים הסינתטיים לסוג הנתונים: כאלה המבוססים על ערכים רציפים מול נתונים קטגוריים.

המשמעות: בעולם הבריאות וה-AI, שימוש חכם ומדויק בנתונים סינתטיים יכול לשפר את היכולת להתמודד עם אוכלוסיות קטנות ומקרים נדירים, כל עוד נעשה במינון הנכון ובשיטה המתאימה. 

לקריאת המאמר>>