نمذجة استراتيجية تخزين نقاط الاستعادة/الاسترجاع للوصول إلى أفضل زمن تنفيذ في التطبيقات المتوازية

Authors

  • سمير جعفر
  • محمد مناف الحمد
  • رهف غزال

Abstract

We present a mathematical model of checkpointing/rollback strategy, in order to ensure that execution of parallel applications in High Performance Computing (HPC) platform are completed in as little time as possible, which is achieved through  minimize the computations loss due to expected failures or unnecessary overhead of fault tolerant mechanisms. In our study, we are interested in special failure of components, which is called (crash fault), that shows a constant behavior of system during the work, either failure or work at for a moment, and we study a coordinated checkpointing strategy for fault tolerance to achieve continuity of the application despite the failures. نقدّم في هذا البحث نموذج رياضي لآلية تخزين نقاط الاستعادة / الاسترجاع (checkpoint/recovery)، بهدف ضمان انتهاء تنفيذ التطبيق المتوازي في منصات العمل الحسابية ذات الأداء العالي وبأقل زمن ممكن، والذي يتحقق من خلال تقليل كلفة الخسارة الحسابية نتيجة الأعطال المتوقعة التي قد تصيب مكونات النظام من جهة، والحدّ من الكلفة الزائدة لآليات التسامح مع الأعطال خلال العمل من جهة أخرى. نهتم في بحثنا بنوع خاص من الأعطال قد يصيب المكونات يسمى عطل التوقّف (crash fault) والذي يبدي سلوك ثابت للنظام أثناء التنفيذ إما الفشل أو العمل في لحظة ما، ولتحقيق استمرارية تنفيذ التطبيق بالرغم من حدوث الأعطال ندرس استراتيجية نقاط الاستعادة المتناسقة كآلية للتسامح مع الأعطال.

Published

2019-07-03

How to Cite

جعفرس., مناف الحمدم., & غزالر. (2019). نمذجة استراتيجية تخزين نقاط الاستعادة/الاسترجاع للوصول إلى أفضل زمن تنفيذ في التطبيقات المتوازية. Tishreen University Journal -Basic Sciences Series, 41(3). Retrieved from http://journal.tishreen.edu.sy/index.php/bassnc/article/view/8823