Performance Improvement Methodology based on Divisible Load Theory for Data Intensive Applications

  1. Rosas Mendoza, Claudia Andreina
Dirigida por:
  1. Anna Sikora Director/a

Universidad de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 16 de julio de 2012

Tribunal:
  1. Jose Cunha Presidente/a
  2. Porfidio Hernández Budé Secretario/a
  3. Casiano Rodríguez León Vocal

Tipo: Tesis

Teseo: 327544 DIALNET lock_openDDD editor

Resumen

L'augment de la quantitat de dades que necessiten ser processades actualment, representa un dels majors reptes a l' ambit de la computaci o. Aix o ha perm es el creixement d'aplicacions amb requeriments especials conegudes com aplicacions intensives en dades. En general, per afavorir l'execuci o en paral lel de aquest tipus d'aplicacions, les dades d'entrada son partits en trossos m es petits que poden ser processats individualment. No obstant aix o, en molts casos, aquestes aplicacions mostren problemes graus de rendiment, deguts principalment a desequilibris de c arrega, l' us ine cient dels recursos de c omput disponibles, i inadequades pol tiques de partici o i distribuci o de les dades. A m es, l'impacte d'aquests problemes de rendiment es pot veure acrescut pel comportament din amic de l'aplicaci o. Aquest treball proposa una metodologia per a millorar, din amicament, el rendiment d'aplicacions intensives en dades, basat en: (i) l'adaptaci o de la grand aria i nombre de les particions de dades amb la nalitat de reduir el temp d'execuci o total; i (ii) l'adaptaci o del nombre de nodes de c omput per aconseguir una execuci o e cient. Proposem observar el comportament de l'aplicaci o per cada iteraci o (o consulta) i utilitzar les dades recollides per a ajustar din amicament el seu rendiment. La metodologia assumeix que cada execuci o inclou m ultiples consultes relacionades sobre una unica c arrega de treball partida. L'ajust del factor de partici o de la c arrega de treball es fa mitjan cant la de nici o de la grand aria inicial dels trossos de dades; la modi caci o de la pol tica de plani caci o (per a enviar primerament els trossos amb major temps d'execuci o); la divisi o dels trossos amb major temps d'execuci o; i el agrupament de trossos de dades amb temps de c omput massa curts. Els criteris per a decidir si el trossos es divideixen o es agrupen estan basats en els temps d'execuci o associats a cada tros (com el temps mitj a i la desviaci o est andard) aix com tamb e en el nombre de nodes de c omputs que s'estan utilitzant. A m es a m es, el referent a l' us de recursos de c omput es va abordar mitjan cant l'avaluaci o din amica del rendiment de l'aplicaci o, juntament amb l'estimaci o i modi caci o del nombre de nodes de processament que es puguin utilitzar e cientment. Hem avaluat la nostra proposta usant aplicacions intensives en dades reals i sint etiques. Aix com tamb e hem analitzat les expressions anal tiques propostes mitjan cant simulaci o. Despr es d'aplicar la nostra metodologia, hem obtingut resultats prometedors en la reducci o del temps total d'execuci o i l' us e cient dels recursos. Paraules claus: balanceig de c arrega; an alisi i sintonitzaci o din amic del rendiment; aplicacions intensives en dades; c arrega arbitr ariament divisible.