اختبار وتقييم العوامل المؤثرة في أنظمة التعرف السمعية لكلمات معزولة في اللغة العربية
Abstract
تعد تقنيات التعرف على الكلام من أهم التقنيات الحديثة، وقد تم تطوير العديد من الأنظمة المختلفة من حيث الطرائق المستخدمة في استخراج السمات وطرائق التصنيف، لكن مهما كانت الخوارزمية المستخدمة أو طريقة التصنيف فإن في تكنولوجيا معالجة الكلام للتطبيقات الحقيقية يمكن للعديد من الحقائق أن تشوه أو تتلف الكلام، مما يجعل الكلام لا يبدو بالطريقة التي تم تسجيله فيها. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد على السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية، ومن ثم إضافة مكون الطاقة والمشتقات التفاضلية وتحديد عدد قنوات المرشح الأمثلي في مرحلة استخراج السمات لخوارزمية معاملات تردد ميل لزيادة نسبة التعرف. تم استخدام نماذج ماركوف المخفية في مرحلة التصنيف وتحديد عدد الحالات الأمثلي في المصنف. تم اختبار النظام على 4155 عينة، فبينت النتائج أن السمات المضافة إلى الخوارزمية والاختبارات التجريبية على عدد قنوات المرشح وعدد حالات المصنف مما رفع أداء الخوارزمية وبالتالي معدل التعرف الذي وصل إلى 92%. ومن أجل أغراض الاختبار والتقييم في أنظمة التعرف على الكلام تم إدخال ضجيج مفتعل ومراقبة تأثيره على نسب التعرف، لذلك قام البحث بتطبيق هذه الطريقة لأول مرة على قاعدة بيانات منطوقة باللغة العربية. ولتقليل من أثره تم تطبيق إحدى طرق تقدير إشارة الضجيج – في بحثنا قمنا بتطبيق الطريقة الأكثر تطبيقا" بالنسبة لقواعد البيانات في اللغات الأخرى وهي الطرح الطيفي - لتقدير إشارة الضجيج وطرحها من الاشارة المشوبة وذلك ليكون مدخلا" للحد من أثر الضجيج. هذا التقدير قدم تحسين منخفض عندما طبق على ملفات SNR المنخفضة وحسن النتائج مع ملفات SNR العالية فقط. لكن نتج عن الطرح الطيفي ضجيج موسيقي حيث تمت مراقبته برفع عتبة التوهين لتلائم الكلمات المنطوقة باللغة العربية . The speech recognition is one of the most important techniques of modern techniques, there has been many different systems developed in terms of the methods used in the features extraction and classification methods, But whatever the algorithm used, or the method of classification in speech processing technology in real applications can be for many of the facts that the deformation or damage of speech, making speech does not seem the way you recorded it. This study proposes design a system to identify isolated words depending on the audio features extracted from videos to the words in Arabic Language and then the energy and Temporal derivative components is added, the optimal number of channels in the filterbank determined in extracting features of the method Mel Frequency Cepstral Coefficient (MFCC) stage, it was used hidden Markov models HMM as classification and determine the optimal number of cases in classifier . The system was tested on 4155 samples. The results showed that the added features of the algorithm and experimental tests on the number of channel of filter bank and the number of cases in classifier, raising the performance of the algorithm and thus identify which reached 92% rate. And for testing and evaluation purposes in the speech recognition systems have been introduced artificially noise and monitor its impact on the recognition ratios, so the research application of this method for the first time on the data base pronunciations in Arabic. To minimize the effect of the noise signal we have to applied method of estimating - in our research we have implemented the most way application "For databases in other languages, a Spectral subtraction - to estimate the noise signal and subtracted from the reference vestiges so as to have access" to reduce the impact of noise. This estimate gave a low improve when applied to low SNR and good results with only a high SNR files. But the resulting spectral subtraction musical noise, where it was monitored to raise the threshold of attenuation to match spoken words in ArabicDownloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2018 ttps://creativecommons.org/licenses/by-nc-sa/4.0/
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
The authors retain the copyright and grant the right to publish in the magazine for the first time with the transfer of the commercial right to Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series
Under a CC BY- NC-SA 04 license that allows others to share the work with of the work's authorship and initial publication in this journal. Authors can use a copy of their articles in their scientific activity, and on their scientific websites, provided that the place of publication is indicted in Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series . The Readers have the right to send, print and subscribe to the initial version of the article, and the title of Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Publisher
journal uses a CC BY-NC-SA license which mean
You are free to:
- Share — copy and redistribute the material in any medium or format
- Adapt — remix, transform, and build upon the material
- The licensor cannot revoke these freedoms as long as you follow the license terms.
- Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.
- NonCommercial — You may not use the material for commercial purposes.
- ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.
- No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.