تحسين أداء الخوارزميات المستخدمة في تمييز الكلام


  • حسين الأحمد
  • طارق علي


تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة وقد تم تطوير العديد من الأنظمة المختلفة من حيث الطرق المستخدمة في استخراج السمات وطرق التصنيف.

يتضمن التعرف على الصوت مجالين هما: التعرف على الكلام والتعرف على المتكلم، حيث اقتصر البحث على مجال التعرف على الكلام.

يقدم البحث مقترحاً لتحسين أداء أنظمة التعرف على الكلمات المفردة عن طريق خوارزمية للجمع بين أكثر من تقنية من التقنيات المستخدمة في استخلاص السمات وتعديل الشبكة العصبونية لدراسة تأثيرها على عملية التعرف ودراسة تأثير الضجيج على النظام المقترح.

تم في هذا البحث دراسة أربع أنظمة لتمييز الكلام, حيث اعتمد النظام الأول خوارزمية  MFCCلاستخلاص السمات واعتمد النظام الثاني خوارزمية PLP , في حين اعتمد النظام الثالث على الدمج بين سمات الخوارزميتين السابقتين اضافة إلى معدل تخطي الصفر, وفي النظام الرابع تم تعديل الشبكة العصبونية المستخدمة في عملية التمييز وتقليل نسبة الخطأ فيها, كما قمنا بدراسة أثر الضجيج على هذه  الأنظمة السابقة.

تمت مقارنة النتائج من حيث معدل التعرف وزمن تدريب الشبكة العصبونية  لكل نظام على حدة, لنحصل على نسبة تعرف وصلت حتى 98% باستخدام النظام المقترح.

The speech recognition is one of the most modern techniques, many related systems were developed, which they differ in feature extraction methods and classification methods.

Voice recognition is divided into two areas: speech recognition and speaker recognition, however the research was limited to focus on the field of speech recognition.

The research offers a proposal to improve the performance of single word recognition systems by an algorithm to combine more than one of the techniques used in features extraction, and modify the neural network to study its effect on speech recognition, and to study the effect of noise on the proposed system.

Four systems were studied for speech recognition, first one used MFCC algorithm for features extraction, second one used PLP algorithm, third one merged MFCC, PLP, and zero crossing rate features ,in the last system we modified the neural network with less error rate, We have studied the impact of noise on these previous systems.

The research provided a comparative study for the recognition ratio, and training time for each system, to obtain a recognition ratio reached up to 98% using the proposed system.


