Voice activity detection

פרויקט גמר 2015
Voice activity detection using different approaches
שם הסטודנט: קיריל ליברמן
מחלקה: הנדסת חשמל
תחום: עיבוד אותות

גילוי פעילות קולית, זוהי טכנולוגיה בהנדסת חשמל השייכת לעולם רחב של עיבוד אות, כאשר בעזרת טכנולוגיה זו מזהים קיום או חוסר קיום של דיבור אנושי באותות המזוהמים ברעשים סביבתיים שונים. שימושים עיקריים של טכנולוגיה זו ניתן לראות בתחומים שונים כגון: עיבוד דיבור, קידוד דיבור,זיהוי דיבור. טכנולוגיה זו הכרחית בכל מוצר אלקטרוני (לדוגמא: מכשירי סלולר, מכשירי קשר ועוד), האמור להעביר אות דיבור אנושי ללא עיוותים  ממיקום מסוים למיקום מסוים.

חסרון משמעותי משפיע רבות על מערכות אלקטרוניות המעבירות סיגנל ממקום למקום והוא רעש סביבתי. חסרון זה משפיע רבות על ביצועים של מערכות אלו וגורמות לעיוותים משמעותיים של האותות המועברים. קיום טכנוליגיית גילוי פעילות קולית הכרחית על מנת שנוכל לאבחן באות מורעש, מהו האות הדיבור ולשדר רק אות דיבור נקי ללא רעש.

בפרוייקט זה יהיה ניתן לגלות פעילות קולית באותות מורעשים ברמות שונות של רעש על ידי מימוש אלגוריתמי VAD שונים ברמת התוכנה.

מטרת הפרויקט היא לממש אלגוריתם שיוכל בזמן אמת להבחין בין דיבור אנושי לבין מקטעים שאינם מכילים דיבור ומכילים רעש. בסוף יהיה ניתן להציג אנליזה שמראה איזה מקטעים סימן האלגוריתם כדיבור, ולהציג את אחוז ההצלחה. האלגוריתמים יבחנו על ידי אחוז הזיהוי שלהם ואחוז הזיהוי הכוזב (אם האלגוריתם יזהה מקטע ללא דיבור כמקטע דיבור זה יחשב כזיהוי כוזב).

פרוייקט זה מחולק לשני שלבים:

שלב א: מערכת מטלב המקבלת מקטע דיבור כלשהו ומשמיעה בזמן אמת את אותו מקטע דיבור לאחר שהמערכת סיננה את המקטעים בהם לא מתקיים דיבור אנושי +אנליזת ביצועים של הגישות השונות שנבחנו לצורך מטרה זו.

שלב ב: מימוש המערכת שנבחרה בשלב א בקוד C בזמן אמת, כאשר התוכנית תרוץ בזמן אמת ע"י פקודות קונסול או תפריט GUI בלבד.

למשל: התוכנית רצה באופן רציף ומחכה לאינפוט, בהכנסת מקטע דיבור אל המערכת, המערכת מיד תוציא מקטע דיבור מסונן ותשמור את נתוני הזיהוי לצורך ניתוח ביצועים.