Přesnost by měa být standardní, FP16 nebo FP32 (teď úpně jistě nevím, ale výsledek se může uložit do FP16 i do FP32). To omezení je tam v tom, že je to jen jedna operace součinu nad 16 dvojicema vstupů a k tomu ten součet zase s 16 čísly. Čili to není srovnatelné s nromální shader ALU, je to spíš jako kdyby to byl specializovaný blok DSP nebo ASIC akcelerátoru.
Užitečné to má být pro určitý algoritmus trénující neuronovou síť přesně těmahle operacema, nic víc, nic míň.