Fault Tolerance Configuration for Uncoordinated Checkpoints

Fialho de Queiroz, Leonardo

Fault Tolerance Configuration for Uncoordinated Checkpoints

Fialho de Queiroz, Leonardo

Dirigida por:

Dolores Isabel Rexachs del Rosario Director/a

Universidad de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 08 de julio de 2011

Tribunal:

Casiano Rodríguez León Presidente
Daniel Franco Puntes Secretario/a
Ramón Doallo Vocal

Tipo: Tesis

Teseo: 311434 DIALNET TDX editor

Resumen

La tendencia general de los computadores paralelos es crecer en complejidad y en número de componentes. La miniaturización y la concentración de dichos elementos es la principal causa de la aparición y aumento de los fallos en estos computadores. Asimismo, para permitir la ejecución correcta de las aplicaciones paralelas, existe la necesidad de proveer soporte y de tolerar fallos en estos entornos. Una estrategia amplamente utilizada es el rollback-recovery, que consiste en guardar periódicamente el estado de la aplicación y, en caso de fallos, reanudar la aplicación desde el último estado guardado. El uso de estos protocolos añade una sobrecarga al tiempo de ejecución de la aplicación. Con el uso de protocolos de checkpoints no coordinados, es fácil estimar el tiempo total de ejecución de una aplicación, así como también la frecuencia en la cual estos checkpoints deben ser guardados. Actualmente, existen modelos precisos para estimar estos tiempos. Sin embargo, el uso de protocolos de checkpoints coordinados, puede no ser la mejor solución para proveer tolerancia a fallos en los computadores paralelos de próxima generación. En otras palabras, el actual paradigma de tolerancia a fallos para computadores paralelos, no es adecuado para los futuros sistemas. Los protocolos de tolerancia a fallos no coordinados permiten que, cada proceso de la aplicación paralela guarde su estado independientemente de los demás procesos; la combinación de estos protocolos con técnicas de log de eventos eliminan los inconvenientes de los protocolos no coordinados, como el efecto domino y la aparición de mensajes huérfanos. Esta combinación representa el paradigma emergente de tolerancia a fallos para aplicaciones paralelas escalables. Actualmente, no hay modelos adecuados para estimar el tiempo de ejecución de aplicaciones paralelas que están siendo protegidas por checkpoints no coordinados. Así como tampoco existen modelos para calcular la frecuencia en que dichos checkpoints deben ser creados. El objetivo de esta tesis es, definir los modelos específicos para cada uno de los paradigmas: el coordinado y el no coordinado. Los modelos proveen una estimación del tiempo total de ejecución de las aplicaciones cuando están protegidas por cualquiera de los dos paradigmas. Además, se propone una metodología para definir el valor de las variables necesarias para calcular el intervalo de checkpoints. La principal motivación de este trabajo es proveer el conocimiento necesario para enfrentar el paradigma emergente de tolerancia a fallos y hacerlo asequible para los usuarios de las aplicaciones paralelas.