The impact of synthetic data rates in imbalanced datasets on convergence characteristics of deep learning networks
מחקר חדש של ד"ר שרון ילוב־הנדזל, ראשת התוכנית לתואר שני בהנדסת מערכות תבוניות, וקרן גליקמן בוגרת תואר שני במערכות תבוניות, שפורסם לאחרונה בכתב העת הבינלאומי Soft Computing מבית Springer, בחן כיצד תוספת של נתונים סינתטיים משפיעה על הדיוק והיציבות של מערכות בינה מלאכותית המתמודדות עם מאגרי מידע לא מאוזנים. תופעה שמאפיינת במיוחד את תחום הבריאות: מאגרי מידע שבהם יש הרבה דוגמאות למקרים נפוצים, אך מעט מאוד דוגמאות למקרים נדירים, מה שמקשה על מערכות AI ללמוד בצורה מדויקת.
המחקר בחן שני מאגרי מידע רפואיים: נתוני לידות ונתוני בדיקות קורונה. אל כל מאגר נוספו כמויות משתנות של נתונים סינתטיים שנוצרו באמצעות שתי שיטות נפוצות בתחום. המטרה הייתה לבדוק האם התוספת מחזקת את הלמידה של המערכת, או דווקא פוגעת בה.
הממצאים הצביעו על תובנה ברורה: תוספת מתונה של נתונים סינתטיים (כ-10%–20%) עשויה לשפר את איכות הלמידה, אך מעבר לכך היא גורמת פגיעה בביצועים ואף לחוסר יציבות בתוצאות. בנוסף נמצא כי יש להתאים את שיטת יצירת הנתונים הסינתטיים לסוג הנתונים: כאלה המבוססים על ערכים רציפים מול נתונים קטגוריים.
המשמעות: בעולם הבריאות וה-AI, שימוש חכם ומדויק בנתונים סינתטיים יכול לשפר את היכולת להתמודד עם אוכלוסיות קטנות ומקרים נדירים, כל עוד נעשה במינון הנכון ובשיטה המתאימה.
מחקר חדש של ד"ר שרון ילוב־הנדזל: איך נתונים סינתטיים יכולים לשפר מודלי AI ברפואה?
שתף לינק באמצעות:
https://www.afeka.ac.il/industry-and-community/research-in-afeka/researches/מחקר-חדש-של-דר-שרון-ילוב-הנדזל-איך-נתונים-סינתטיים-יכולים-לשפר-מודלי-ai-ברפואה/WhatsApp
Facebook
Twitter
Email
https://www.afeka.ac.il/industry-and-community/research-in-afeka/researches/מחקר-חדש-של-דר-שרון-ילוב-הנדזל-איך-נתונים-סינתטיים-יכולים-לשפר-מודלי-ai-ברפואה/