Některé karty Nvidia Titan V mohou dávat nesprávné výsledky ve výpočetních úlohách

26. 3. 2018

Sdílet

 Autor: Redakce

Před Vánoci vydala Nvidia překvapivě kartu své luxusní hráčské řady Titan s čipem GV100 architektury Volta, Titan V. Ovšem s cenou 3000 $ bylo poukazováno na to, že výhodný by mohl být spíše pro ty, kdo potřebují čip GV100 na výpočty. Jeho nasazení na tuto práci však zdá se není bez problémů, minulý týden se objevily informace, že GPU v některých případech nedává správné výsledky zřejmě vlivem nějakého problému se stabilitou.

O problému informoval The Register, kterému o něm řekl inženýr pracující na molekulárních simulacích. Při testech se čtyřmi exempláři Titanu V narazil na to, že dvě z karet vykazovaly numerické chyby, vedoucí k jiným než očekávaným výsledkům. Druhé dvě zřejmě nikoliv, což by naznačovalo, že jde spíš o nějaký problém s hardwarem a ne s ovladači nebo softwarem, což by u GPGPU kódu určitě nebylo neslýchané. Chybné výsledky se projevovaly zhruba s 10% pravděpodobností. Daná úloha by přitom údajně měla mít deterministický výstup a výsledek dávat vždy stejný.

Podle The Registeru by asi nejpravděpodobnějším místem vzniku těchto chyb měly být paměti, Titan V nemá na rozdíl od karet Tesla aktivní ECC. Paměti HBM2 nemají u Titanu nějak extrémně vysokou frekvenci, běží na 1,7 GHz, přičemž Tesly V100 by měly mít takt dokonce vyšší (1,75 GHz). Je nicméně možné, že do Titanů V jdou pouzdra s čipem V100 a HBM2, která při testování nedosáhla na kritéria pro prodej v řadě Tesla a mají i na nižším taktu menší rezervu. Ovšem problém by také mohl být v časování, nikoliv ve frekvenci.

nvidia-titan-v-04Nvidia prý zprvu nechtěla tyto informace komentovat, nicméně během víkendu The Register dostal vyjádření, dle kterého by uživatelé pozorující problémy měli kontaktovat podporu. Ve vyjádření stojí, že všechny GPU Nvidie fungují korektně, zároveň ale také zmiňuje, že pro pro úlohy jako rozsáhlé simulace jsou navržené karty Tesla, které mají ECC (což by mohlo sedět z hypotézou, že problém může být v příliš agresivně nastavených pamětech). Nvidia údajně ví o minimálně jedné aplikaci, kde má Titan V problémy, jde o software pro molekulární dynamiku Amber. O případných řešeních tohoto problému zmínka nepadla, nicméně Nvidia by například mohla ovladačem změnit řízení frekvencí.

bitcoin_skoleni

All of our GPUs add correctly," the rep told us. "Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com.

Při uvedení byl na výpočetním použití důraz

Při hraní her by Titan V zřejmě problémy dělat neměl, nebo na ně alespoň zatím nebylo natrefeno. Při vysoké ceně sice asi není zas tak moc uživatelů, kteří by kartu prověřovali, nicméně validace přímo u Nvidie by snad měla vážnější problémy odhalit. Jak velkým „průšvihem“ je potenciální nespolehlivost ve výpočtech? Nvidia sice poukazuje na to, že pro podobné účely jsou vhodné Tesly, nicméně při uvedení Titanu V se o hraní vlastně ani moc nemluvilo a v prezentaci naopak byla řeč právě o bourání limitů v HPC, vědeckých výpočtech a AI. Titan V tedy aspoň z části výpočetní kartou je a k tomuto segmentu také kartu tlačí její cena. Zatímco pro hráče má velmi špatný poměr cena výkon v porovnání ke kartám GeForce, pro výpočetní nasazení platí opak. Zde je totiž Titan V naopak výrazně levnější alternativou ke kartě Tesla, a tudíž byl pro třeba ty vědecké výpočty atraktivní, jelikož na rozdíl od komerčního sektoru v akademické sféře nebývají kapsy za tak hluboké.

Takto vypadá GPU GV100 na kartách Tesla V100 (Foto: Golem.de) Takto vypadá GPU GV100 na kartách Tesla V100 (Foto: Golem.de)

Tento problém by asi mohl odrážet to, že Titany V jsou přes určité neoficiální či polooficiální „profi“ ambice zřejmě stále testovány a validovány stejně jako karty GeForce pro hraní. Těm asi odpovídají i požadavky na spolehlivost, což znamená menší rezervy ve frekvencích a napětích, byť pochopitelně nevíme úplně jistě, zda je toto skutečně důvod onoho nesprávného chování ve výpočetních zátěžích. Pokud tyto karty pro daný účel používáte, měly byste se asi pokusit nějak ověřit, zda je pro dané úlohy 100% stabilní a nevrací někdy nesprávné výsledky. To ovšem asi není úplně triviální vyloučit. Podle Registeru by bylo ideální počkat, až Nvidia vydá nějaký patch, který by nekorektní fungování odstranil.