دراسة أداء أنظمة وصف الصور المعتمدة على نماذج مختلفة للتعلم العميق
Abstract
تم في البحث الحالي إنجاز عملية وصف الصورة Image Description عبر وضع تسميات توضيحية لمكونات الصورة Image Captioning بثلاث نماذج مختلفة والمقارنة بينها. من أجل بناء نماذج الوصف، تم استخدام مكتبة Keras وهي مكتبة تستخدم كإطار عمل لتعلم الآلة Machine Learning Framework والتي تضم أهم المكاتب اللازمة لإنشاء وتدريب شبكات التعلم العميق. تم استخدام ثلاثة نماذج مطبقة على مكتبة Keras وذلك لاستخدامها في استخلاص سمات الصور وهي نموذج شبكة ResNet50 ونموذج شبكة VGG16 بالإضافة إلى نموذج شبكة VGG19. تتميز هذه النماذج باعتمادها على بنية الشبكة العصبونية الالتفافية Convolutional Neural Network (CNN) وأكثر دقة في استخلاص سمات الصورة من النماذج السابقة. أما لعملية التدريب وربط الوصف مع السمات فقد تم استخدام شبكة عصبونية تكرارية Recurrent Neural Network (RNN).
تم استخدام مجموعة بيانات MSCOCO العالمية حيث تم أخذ مجموعة جزئية منها مؤلفة من 10000 صورة، حيث تم أخذ 9000 صورة منها لمجموعة التدريب Training و1000 صورة لمجموعة التحقق Validation. أما لعملية الاختبار فقد تم استخدام صور من الحياة الطبيعية من خارج مجموعتي التدريب والتحقق.
تمت مقارنة النماذج الثلاثة باستخدام معايير تقييم مختلفة وهي Top-1 وTop-5والعمق والدقة والتي تحدد مدى قرب الوصف الناتج من الوصف الفعلي للصورة. من النتائج تبين أن النموذج ResNet50 يتفوق على النموذجين VGG16 وVGG19 من ناحية دقة الوصف ومدى التشابه مع الوصف الصحيح للصور المدروسة. كما تم ملاحظة أن النماذج الثلاثة تعطي وصفاً أدق وأكثر تشابهاً للصورة عند حساب القيمة المتوسطة لأفضل ثالث توصيف من خرج النظام.
In the current research, an image description process is done by generating captions of the image’s components by three different models and comparing them. In order to build the description models, the Keras library was used as Machine Learning Framework that includes the most important libraries needed to establish and train deep learning networks. Three models were applied to the Keras library to extract features from images, the ResNet50, the VGG16 and the VGG19 network models. These models were characterized by their reliance on the Convolutional Neural Network (CNN) and more accurately in extracting image attributes from previous models. For the training process and matching the description with the features, a Recurrent Neural Network (RNN) was used.
The MSCOCO dataset was used with a subset of 10,000 images taken, 9,000 of which were taken for Training and 1000 for Validation. For the testing process, images of normal life were taken from outside the training and verification groups.
The three models were compared using several measurements which are Top-1, Top-5, depth and accuracy. These metrics define how closely the resulting description of the actual description of the image. The results show that the ResNet50 model outperforms both models VGG16 and VGG19 in terms of the accuracy and the convergence with the correct description of the studied images. Furthermore, the three models give a better accurate and convergence when they use the average value of the best third description of the system output.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2019 ttps://creativecommons.org/licenses/by-nc-sa/4.0/

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
The authors retain the copyright and grant the right to publish in the magazine for the first time with the transfer of the commercial right to Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series
Under a CC BY- NC-SA 04 license that allows others to share the work with of the work's authorship and initial publication in this journal. Authors can use a copy of their articles in their scientific activity, and on their scientific websites, provided that the place of publication is indicted in Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series . The Readers have the right to send, print and subscribe to the initial version of the article, and the title of Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Publisher
journal uses a CC BY-NC-SA license which mean
You are free to:
- Share — copy and redistribute the material in any medium or format
- Adapt — remix, transform, and build upon the material
- The licensor cannot revoke these freedoms as long as you follow the license terms.
- Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.
- NonCommercial — You may not use the material for commercial purposes.
- ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.
- No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.