Názor k článku AMD vydalo 96jádrové procesory s 3D V-Cache Genoa-X. Zen 4 s víc než gigabajtem cache od Jan Olšan - IMHO se to nedělá spíš proto, že když...

23. 6. 2023 17:32

Jan Olšan

IMHO se to nedělá spíš proto, že když neznám dopředu velikost vektoru, tak se mi těžko optimalizuje algoritmus tak, aby fakt byl rychlejší a na to právě je naráženo v tom RVV patchi, kde autor říká, že to bude ideálně fungovat na 128bitech a s vyšší šířkou to nemusí být ideální.

Optimalizace v assembly se dělají tak, že člověk něco napíše a pak si to testuje na rychlost na reálném CPU a zkouší, co pomůže a co škodí. Když cílí na předem nedefinovanou velikost vektoru a ne moc definové CPU, tak tohle nemůže moc udělat a výsledek může být, že to moc nevyladí nebo třeba vyladí na jedno současné jádro, ale na ostatních to bude neefektivní. To se děje i na x86, protože třeba AVX2 nebo AVX-512 kód byl laděný na Intelu dřív, než byla implementace na AMD, kde to pak nemusí být optimální nebo může dojít ke stavu, kdy AVX2 cesta je pomalejší než SSE*. S těmahle SVE a podobně se ten problém ještě zvětší. Dokážu si představit, když budou šířky vektorů 128, 256, 512, 1024 a 2048, ale když tam uděláte extrémní volnost v šířce jednotek, tak už to bude těžké kočírovat.

P.S.
A taky jee trochu problém, že SIMD není jenom o tom, udělat sčítání nebo násobení 65tisíc krát, ale taky jsou u něj důležité operace které jdou napříč těmi SIMD lanes, permutace. Ty hlavně si s tímhle nebudou moc rozumět.
23. 6. 2023, 17:36 editováno autorem komentáře
- Zobrazit celé vlákno

Nejnovější

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Názor k článku AMD vydalo 96jádrové procesory s 3D V-Cache Genoa-X. Zen 4 s víc než gigabajtem cache od Jan Olšan - IMHO se to nedělá spíš proto, že když...

Návody a tipy

Dále u nás najdete

Nové HDMI 2.2 už je za rohem

I diabetici si mohou dát cukroví. Místo piva však raději střik

Neplaťte si IT kurzy sami, využijte dotace od EU

Firma se vyhnula pokutě za nepodání kontrolního hlášení

Hranolky, pizza, tatarák: Příběhy slavných pokrmů jsou často vymyšlené

Lékaři chtějí po lidech pokutu, když objednaný pacient nedorazí

Naše pleť je pruhovaná, lidské tělo svítí

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

AI chatbot Grok je na X dostupný zdarma

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Raspberry Pi má nový počítač v klávesnici a monitor

Smyčka se utahuje – americké restrikce omezí další firmy

Co najdete v posledním letošním magazínu CIO 6/2024

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

Oběd v KFC, čarodějnice s dárky a rozkvetlá vánoční hvězda

Mykoplazmata řádí, jak lékaři čekali. Před Vánoci přibude chřipky

OpenAI uvádí ChatGPT o1 Pro – za 200 dolarů měsíčně

Češi mají aplikaci, která propojuje lidi podle společných koníčků

Co je nejoblíbenější způsob použití umělé inteligence v práci?