Nvidia Tesla K40 GPE¹

Zgradbo tipične GPE si poglejmo na primeru Nvidia Tesla K40, prikazane na spodnji sliki. Vsebuje 15 računskih enot (CU), ki jim pri Nvidia pravijo NeXt Generation Streaming Multiprocessor (SMX).

Kepler GPE

Zgradba CU je prikazna na spodnji sliki. Vsebuje 128 procesnih enot, ki jim pri Nvidia pravijo jedra (ang. core ali stream processor).

Tesla K40 ima vsega skupaj 1920 procesnih elementov (15 CU * 128 PE v CU).

Kepler SMX

Izvajanje ščepcev

Programski ščepec (kernel), ki se izvaja na GPE, mora biti napisan tako, da je eksplicitno določeno, kaj dela posamezna nit. Kako to storimo, bomo spoznali v nadaljevanju. Ko se nek ščepec požene na GPE, bo razvrščevalnik niti, na sliki označen kot Giga Thread Engine, najprej posamezne niti razporedil v izvajanje po računskih enotah (CU). Znotraj računskih enot pa bo interni razvrščevalnik razporejal posamezne niti po procesnih elementih. Število niti, ki jih hkrati izvaja in razvrša GPE je omejeno. Prav tako je omejeno število niti, ki jih lahko razvršča in izvaja posamezna računska enot. Natančnejši opis izvajanja ter omejitve pri razvrščanju in izvajanju niti bomo podali v naslednjem poglavju.

© Patricio Bulić, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Gradivo je objavljeno pod licenco Creative Commons Priznanje avtorstva-Nekomercialno-Deljenje pod enakimi pogoji 4.0 Mednarodna. ↩

Nvidia Tesla K40 GPE1

Izvajanje ščepcev

Nvidia Tesla K40 GPE¹