Skoči na vsebino

Posli in naloge v sistemu Slurm

Uporabniki računalniških gruč večinoma delamo z vmesno programsko opremo za nadzor poslov, sistemom SLURM (angl. Simple Linux Utility for Resource Management). Sistem Slurm upravlja s čakalno vrsto, poslom dodeljuje zahtevane vire in nadzira izvajanje poslov. Uporabniki si s sistemom Slurm za določen čas zagotovimo dostop do virov (računskih vozlišč), na njih zaganjamo posle in spremljamo njihovo izvajanje.

Posel

Uporabniški program na računskih vozliščih zaženemo preko sistema Slurm. V ta namen pripravimo posel, v katerem navedemo:

  • katere programe in datoteke potrebujemo za izvedbo,
  • kako pokličemo program,
  • kakšne računalniške vire potrebujemo za izvedbo,
  • časovno omejitev izvajanja posla in podobno.

Posel, ki se hkrati izvaja na več jedrih, je običajno razdeljen na naloge (angl. tasks).

Življenski cikel posla

Potem, ko je posel pripravljen, ga pošljemo v čakalno vrsto. Takrat mu sistem Slurm dodeli identifikator (JOBID) in ga postavi na čakanje (angl. pending). Sistem Slurm posle iz čakalne vrste izbira glede na proste računske vire, predvideni čas izvajanja in nastavljeno prioriteto.

Življenski cikel posla

Ko so zahtevani viri na voljo, se posel začne izvajati (angl. runnning). Po končanem izvajanju gre posel preko stanja zaključevanja (angl. completing), ko Slurm čaka še nekatera vozlišča, v stanje zaključen (angl. completed).

Po potrebi lahko izvajanje posla prekinemo začasno (angl. suspended) ali za stalno (angl. canceled). Posel se lahko zaradi napak v izvajanju konča v napaki (angl. failed) ali pa ga sistem Slurm prekine ob preteku časovne omejitve (angl. timeout).