Nvidia Tesla K40 GPE1
Zgradbo tipične GPE si poglejmo na primeru Nvidia Tesla K40, prikazane na spodnji sliki. Vsebuje 15 računskih enot (CU), ki jim pri Nvidia pravijo NeXt Generation Streaming Multiprocessor (SMX).
Zgradba CU je prikazna na spodnji sliki. Vsebuje 128 procesnih enot, ki jim pri Nvidia pravijo jedra (ang. core ali stream processor).
Tesla K40 ima vsega skupaj 1920 procesnih elementov (15 CU * 128 PE v CU).
Izvajanje ščepcev
Programski ščepec (kernel), ki se izvaja na GPE, mora biti napisan tako, da je eksplicitno določeno, kaj dela posamezna nit. Kako to storimo, bomo spoznali v nadaljevanju. Ko se nek ščepec požene na GPE, bo razvrščevalnik niti, na sliki označen kot Giga Thread Engine, najprej posamezne niti razporedil v izvajanje po računskih enotah (CU). Znotraj računskih enot pa bo interni razvrščevalnik razporejal posamezne niti po procesnih elementih. Število niti, ki jih hkrati izvaja in razvrša GPE je omejeno. Prav tako je omejeno število niti, ki jih lahko razvršča in izvaja posamezna računska enot. Natančnejši opis izvajanja ter omejitve pri razvrščanju in izvajanju niti bomo podali v naslednjem poglavju.
-
© Patricio Bulić, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Gradivo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 4.0 Mednarodna. ↩