دراسة أداء أنظمة وصف الصور المعتمدة على نماذج مختلفة للتعلم العميق

جعفر الخير, رشا معلا

Abstract


 

تم في البحث الحالي إنجاز عملية وصف الصورة Image Description عبر وضع تسميات توضيحية لمكونات الصورة Image Captioning بثلاث نماذج مختلفة والمقارنة بينها. من أجل بناء نماذج الوصف، تم استخدام مكتبة Keras وهي مكتبة تستخدم كإطار عمل لتعلم الآلة Machine Learning Framework والتي تضم أهم المكاتب اللازمة لإنشاء وتدريب شبكات التعلم العميق. تم استخدام ثلاثة نماذج مطبقة على مكتبة Keras وذلك لاستخدامها في استخلاص سمات الصور وهي نموذج شبكة ResNet50 ونموذج شبكة VGG16 بالإضافة إلى نموذج شبكة VGG19. تتميز هذه النماذج باعتمادها على بنية الشبكة العصبونية الالتفافية Convolutional Neural Network (CNN) وأكثر دقة في استخلاص سمات الصورة من النماذج السابقة. أما لعملية التدريب وربط الوصف مع السمات فقد تم استخدام شبكة عصبونية تكرارية Recurrent Neural Network (RNN).

تم استخدام مجموعة بيانات MSCOCO العالمية حيث تم أخذ مجموعة جزئية منها مؤلفة من 10000 صورة، حيث تم أخذ 9000 صورة منها لمجموعة التدريب Training و1000 صورة لمجموعة التحقق Validation. أما لعملية الاختبار فقد تم استخدام صور من الحياة الطبيعية من خارج مجموعتي التدريب والتحقق.

تمت مقارنة النماذج الثلاثة باستخدام معايير تقييم مختلفة وهي Top-1 وTop-5والعمق والدقة والتي تحدد مدى قرب الوصف الناتج من الوصف الفعلي للصورة. من النتائج تبين أن النموذج ResNet50 يتفوق على النموذجين VGG16 وVGG19 من ناحية دقة الوصف ومدى التشابه مع الوصف الصحيح للصور المدروسة. كما تم ملاحظة أن النماذج الثلاثة تعطي وصفاً أدق وأكثر تشابهاً للصورة عند حساب القيمة المتوسطة لأفضل ثالث توصيف من خرج النظام.

In the current research, an image description process is done by generating captions of the image’s components by three different models and comparing them. In order to build the description models, the Keras library was used as Machine Learning Framework that includes the most important libraries needed to establish and train deep learning networks. Three models were applied to the Keras library to extract features from images, the ResNet50, the VGG16 and the VGG19 network models. These models were characterized by their reliance on the Convolutional Neural Network (CNN) and more accurately in extracting image attributes from previous models. For the training process and matching the description with the features, a Recurrent Neural Network (RNN) was used.

The MSCOCO dataset was used with a subset of 10,000 images taken, 9,000 of which were taken for Training and 1000 for Validation. For the testing process, images of normal life were taken from outside the training and verification groups.

The three models were compared using several measurements which are Top-1, Top-5, depth and accuracy. These metrics define how closely the resulting description of the actual description of the image. The results show that the ResNet50 model outperforms both models VGG16 and VGG19 in terms of the accuracy and the convergence with the correct description of the studied images. Furthermore, the three models give a better accurate and convergence when they use the average value of the best third description of the system output.


Full Text: PDF

Refbacks

  • There are currently no refbacks.


Editor in chief: Prof. Dr. Hani Chaaban

Editorial Board ,Secretary Editor:Dr. Amir Tfiha