نمذجة استراتيجية تخزين نقاط الاستعادة/الاسترجاع للوصول إلى أفضل زمن تنفيذ في التطبيقات المتوازية

سمير جعفر, محمد مناف الحمد, رهف غزال

Abstract


We present a mathematical model of checkpointing/rollback strategy, in order to ensure that execution of parallel applications in High Performance Computing (HPC) platform are completed in as little time as possible, which is achieved through  minimize the computations loss due to expected failures or unnecessary overhead of fault tolerant mechanisms.

In our study, we are interested in special failure of components, which is called (crash fault), that shows a constant behavior of system during the work, either failure or work at for a moment, and we study a coordinated checkpointing strategy for fault tolerance to achieve continuity of the application despite the failures.

نقدّم في هذا البحث نموذج رياضي لآلية تخزين نقاط الاستعادة / الاسترجاع (checkpoint/recovery)، بهدف ضمان انتهاء تنفيذ التطبيق المتوازي في منصات العمل الحسابية ذات الأداء العالي وبأقل زمن ممكن، والذي يتحقق من خلال تقليل كلفة الخسارة الحسابية نتيجة الأعطال المتوقعة التي قد تصيب مكونات النظام من جهة، والحدّ من الكلفة الزائدة لآليات التسامح مع الأعطال خلال العمل من جهة أخرى.

نهتم في بحثنا بنوع خاص من الأعطال قد يصيب المكونات يسمى عطل التوقّف (crash fault) والذي يبدي سلوك ثابت للنظام أثناء التنفيذ إما الفشل أو العمل في لحظة ما، ولتحقيق استمرارية تنفيذ التطبيق بالرغم من حدوث الأعطال ندرس استراتيجية نقاط الاستعادة المتناسقة كآلية للتسامح مع الأعطال.


Full Text: PDF

Refbacks

  • There are currently no refbacks.


رئيس التحرير: الأستاذ الدكتور هاني محمود شعبان

هيئة التحرير , أمين التحرير: د.أمير درويش تفيحة