Ve zkratce (protože už mě to celkem rychle přestává bavit): CUDA je API čistě pro GPGPU výpočty a s DirectX nijak nesouvisí (narozdíl od DirectCompute), GraphicsCommandList se objevil poprvé až v DX12 (je úplně jedno, že to CUDA uměla už dřív, je to úplně odlišné API)
Kdo má vůbec tu drzost porovnávat typické GPGPU úlohy s renderováním herní scény??? Bavíme se tu o řádu minut až hodin versus (typicky méně než) 16 milisekund. Když máš matici 1000000x1000000 a děláš nad ní nějakou operaci, tak si ji pochopitelně nabufferovat můžeš a pak ji vesele půl hodiny tlačit přes GPU. Co chceš asi bufferovat, když máš na výpočet v rámci snímku pár milisekund? To jsou dva úplně neporovnatelné koncepty. Dělal jsi vůbec někdy něco v DX nebo OGL nebo vůbec cokoliv co využívalo koncept asynchronních operací? Jestli ne, tak se mi tu nesnaž vnucovat nějaké irelevantní prezentace o CUDA API.
Jedna věc je citovat zdroje, druhá věc je vůbec rozumět používaným pojmům.