Nebyl jsem to já, kdo zcetstně vytáhl CUDA API a buffering (ať to v tom kontextu mělo znamenat cokoliv). Pokud to měl být příklad toho, že architektura Nvidie to umí už od Fermi, tak akorát ke zbytečnému zmatení, protože s tím obsahem předposledního komentáře nemám problém. Ač z hlavy nevím, od jaké verze CGN umí async compute, už tu s námi taky pěkných pár let je a Jestli toho využívali před DX12 bych taky jen spekuloval. Zpátky k ověřitelným faktům:
Já se celou dobu snažím akorát vyjádřit (a je to tuším i v tom reddit postu co jsi poslal), že pokud ACE v GCN umí vyrobit asynchroních 8 tasků s max queue depth 8, + bez velké penalizace za context switching, je to obecně daleko pružnější koncept než 1 fronta s hloubkou 32. O nic víc mi tu celou dobu nešlo. Možná je to pro účely her zbytečně předimenzované, možná ne. To asi ukáže až čas. (spekulativní vsuvka: myslím si že paralelizace front u CGN by měla být logicky ku prospěchu věci)
Navíc, do Pascalu byl scheduling asynchroních operací statický, což vedlo na zbytečné zdržení při synchronizaci -> snížení efektivity, což opět není nic co bych si vycucal z prstu, ale bylo to v tom whitepaperu GTX1080, je to krásně vidět v tom grafu souběžné Graphics a Compute operace.