Datacentra 1/2: kde je uložený Internet?

16. 12. 2010

Sdílet

 Autor: Redakce

Jak vypadá Internet

Jak vypadá Internet

Všichni víme, co je „Internet“. Uměli byste jej ale definovat? Na té základní úrovni jde o obrovskou síť počítačů. Svou funkčností a podstatou jej ale mnohem lépe vystihuje obrovské množství služeb, které pro svou funkčnost využívají nepředstavitelné množství dat a výpočetní síly. Kdykoli otevřete webovou stránku, načte se kromě textu také multimediální obsah. Často se po jediném kliknutí na odkaz přenese po síti několik megabajtů dat nutných k zobrazení webové stránky.

Při přehrávání videa a prohlížení fotografií už jde o desítky megabajtů. Za jedinou hodinu aktivního surfování  může i běžný uživatel stáhnout několik set megabajtů dat s různým obsahem. Všechna tato data musí být někde uložena a pro jejich správné zobrazení, vyhledání a odeslání je nutné zajistit dostatečný výpočetní výkon. Podle analytické společnosti McKinsey tvoří v současnosti internet celkem 45 milionů serverů. Kde tyto servery jsou?

Ve velkých datových centrech jsou servery naskládané do racků připomínajících vysoké lednice

Zůstaňme ještě chvíli u řeči čísel. Pokud jeden uživatel stáhne, a případně také uloží, každou hodinu na internet několik desítek megabajtů, kolik dat proteče za jeden den do počítačů ve vaší ulici? Kolik dat v podobě videí, fotografií, textů a webových aplikací pak představuje hodinový provoz města se sto tisíci uživateli připojených k internetu? A kolik dat stáhne každou vteřinu jeden milion uživatelů?

Raději to ani nebudeme počítat. Drtivá většina těchto dat je uložena a neustále zpracovávána v obrovských datových centrech, chcete-li datacentrech (anglicky datacenter). Jejich technická náročnost a dokonalost je fascinující, přestože drtivá většina uživatelů o jejich existenci a dokonalosti v podstatě nic netuší.

Tisíce serverů v jedné budově

Nejpřesnější a zároveň nejjednodušší definici datacentra nabízí Google, který je také největším majitelem a provozovatelem datacenter na světě. Představují totiž značnou konkurenční výhodu a technologický náskok. Datacentrum je zařízení pro hostování obrovského počtu počítačů, které udržují a spravují obrovské množství dat. Postavit a udržovat takové zařízení ovšem není žádná hračka.

Váš osobní počítač spotřebovává několik desítek až stovek wattů a moc dobře víte, jaké dokáže vyprodukovat v zátěži teplo a jak náročné je tento počítač dostatečně chladit. Nyní si představte deset počítačů položených na váš stůl v zapnutém stavu. Slyšíte ten hluk a vnímáte po hodině to teplo?

Nyní naplňte váš pokoj „pouhou“ stovkou počítačů, všech sto počítačů zapojte do zásuvky (rád bych viděl, jak to provedete), připojte k internetu (opět bych u toho velmi rád byl), zapněte je a spusťte aplikace, které vytíží všech sto PC na sto procent.

K dokonalé představě si sedněte na místo doprostřed mezi těchto sto počítačů, poslouchejte hluk, vnímejte sálající teplo a koukejte na běžící měřič energie, kterou na konci měsíce budete muset zaplatit. Aby byla představa problematiky velkého datacentra dokonalá, představte si nyní stejnou situaci ve vašem pokoji se třiceti tisíci velmi výkonnými počítači. Tolik jich totiž v největších datacentrech dnes běžně najdete.

V zajetí horka a hluku

Postavit obrovské datacentrum představuje to stejné: vzít několik desítek tisíc počítačů, všechny připojit do elektrické sítě, všechny připojit k internetu, všechny udržovat 24 hodin denně zapnuté a v provozu, a všechny uvnitř budovy na omezeném prostoru chladit. Posledně jmenovaný problém je technicky nejnáročnější. Zatímco provoz počítačů, jejich zapojení do elektrické sítě i do počítačové sítě je možné řešit víceméně technicky (elektronicky a rozvodem elektřiny), chlazení je mnohem více záležitostí fyziky a tu jen tak neošálíte. Zůstaňme ještě chvíli ve vašem pokoji, kde je naskládáno sto počítačů. Teplota exponenciálně roste. Otevřete tedy všechna okna. Teplota roste dál.

Dokoupíte deset velkých výkonných větráků. Hluk produkovaný stovkou počítačů a přidanými větráky už je pro člověka neúnosný, teplota v pokoji překračuje čtyřicet stupňů Celsia a stále roste. Dobře, zkusíte každý počítač vybavit vodním chlazením. Pak ale musíte zajistit ochlazování vody, přesněji výměníků s vodou. Nemůžete však využít stejnou místnost, to by teplotu uvnitř nesnížilo.

Monstrózní chladící věže jednoho z obřích datacenter Googlu, které díky odpařování vody zajišťují chlazení serverových sálů

Voda by musela proudit do jiné místnosti, kde by ovšem výměníky s vodou musely opět předávat teplo vzduchu a v podstatě byste jen s určitou efektivitou odváděly část tepla z pokoje se stovkou počítačů do druhého pokoje. A nyní si tento problém opět představte s desítkami tisíc počítačů. Běžným způsobem proto obrovské datacentrum bez velkých problémů stavět nejde. A to i v případě, že by se jednalo jen o tisíce počítačů, natož desetitisíce. Podívejme se na technická řešení těch největších datových monster.

Elektřina přímo z elektrárny

Elektřina přímo z elektrárny

Velká datacentra musí zajistit nepřetržitý provoz 24 hodin denně, sedm dní v týdnu. Největší problém představují dostatek nepřerušitelného zdroje elektrické energie, nepřerušitelná konektivita k internetu a neustálé efektivní spolehlivé chlazení. Velká datacentra se občas staví přímo v blízkosti elektráren (například Google postavil své první vlastní datové centrum ve státě Oregon v blízkosti vodní elektrárny The Dalles Dam o výkonu 1,88 gigawattu) a není výjimkou napojení na dva i více nezávislých zdrojů elektřiny. Do důsledku řečeno, více elektráren.

I tak je ovšem třeba zajistit vlastní záložní napájení. Zde proto přichází na řadu dieslové generátory, které jsou schopny s dostatkem nafty zásobovat celé zařízení nepřetržitě i při úplném dlouhodobém výpadku elektřiny. Než se ovšem spustí záložní generátory, je třeba udržet všechny servery v chodu, kritický by byl i třeba jen vteřinový výpadek. K tomu slouží speciální velké akumulátory, které dokážou zajistit chod datového centra po dobu několika málo minut, než se automaticky nahodí zmíněné generátory.

Velkokapacitní sady akumulátorů dokážou zásobovat servery několik minut, než dojde po výpadku elektřiny k nahození dieslových generátorů

Samotná představa baterií, které udrží v chodu desítky tisíc počítačů v plné zátěži po dobu několika minut je ohromující. Obří datacentrum může spotřebovat okolo 20 megawattů, přitom všechny bloky jaderné elektrárny Temelín produkují 2000 megawattů. Stačila by tedy uživit „pouhou“ stovku obrovských datacenter jaké vlastní Google!

Jednoduché ovšem není ani samotné napojení obrovského datového centra na elektrickou síť vysokého napětí a následná distribuce elektrické energie pro jednotlivé počítače, nemluvě o kabeláži. Značnou část elektrické energie pak spotřebuje samotné chlazení. U některých datacenter může spotřeba elektřiny pro chlazení tvořit až 80% celkové spotřeby. Zajímavostí také je, že majitelé datového centra mohou mít odběr energie smluvně zajištěn přímo s konkrétní elektrárnou, nikoli zprostředkující energetickou společností a tudíž postavit a vlastnit i celé vedení z elektrárny do datového centra (to se ovšem bavíme o skutečných gigantech typu Google, Yahoo, Microsoft apod.).

Manažeři velkých společností dokonce přichází s myšlenkami na stavbu datacenter s vlastní elektrárnou. Jiní stratégové naopak přemýšlí nad tím, že by elektrárna mohla v rámci smlouvy na odběr energie dodávat pro datacentra hardware zdarma. Samotná cena hardwaru je totiž často menší než jeho roční spotřeba elektřiny (pochopitelně po přepočtu nákladů na celé zařízení).

Všude samé kabely

Všude samé kabely

Obří datacentra jsou již ve svém návrhu koncipována speciálně ke svému účelu. V místnostech se servery jsou vybudovány dvojité podlahy a někdy i dvojité stropy. Prostor mezi první a druhou podlahou je využíván částečně pro chlazení, velkou měrou pak pro vedení obrovského množství všemožných kabelů, kterých jsou zde miliony a tvoří celkově kilometrová vedení. Částečně jde o klasické dráty, mnohde ale slouží i optické kabely. Kromě toho je v návrhu budov zakomponováno i důmyslné vodovodní potrubí, které je nutné pro účinný systém chlazení. Voda je pak navíc připravena pro případ požáru.

Ve velmi důležitých oblastech může být ovšem k uhašení požáru využit speciální plyn, který zamezí šíření ohně, ovšem nezničí na rozdíl od vody elektroniku. Tento plyn je sice částečně dýchatelný, jeho použití je ale myslitelné jen po evakuaci. Požár je však pro datové centrum největší hrozbou a cena uložených dat je často nevyčíslitelná.

Podstatnou část datacentra tvoří kilometry všemožných kabelů, které zajišťují propojení všech systémů

Voda v potrubí je neustále hnána čerpadly tak, aby se kapalina přebírající teplo dostala do chladicích věží, které díky přeměně vody na páru a následnou zpětnou kondenzací vodu ochladí a vrátí zpět do oběhu. Při tomto procesu je část vody rozptýlena do vzduchu. Kromě obrovského množství elektrické energie spotřebuje obří datové centrum také značné množství vody.

V poslední době proto přichází společnosti IBM, Google a další s ucelenými koncepcemi chlazení, které sníží ekologický dopad datových center. Podle odhadu spotřebují všechny servery na světě společně okolo půl procenta veškeré elektrické energie produkované člověkem. Snaha o snížení spotřeby je tedy více než na místě.

Desetitisíce počítačů

Každý den využíváme při brouzdání internetem servery v datových centrech po celém světě a ani o tom zřejmě nepřemýšlíme. V obecné rovině uvažování se většina výpočetních úkonů a většina dat děje a ukládá na našich počítačích. Není to ovšem pravda. Zadáte-li například do vyhledávacího políčka Google nějaký výraz a potvrdíte Enterem, odešlete tím požadavek do některého ze vzdálených datových center. Tam musí konkrétní přidělený server provést vyhledání v indexu webových stránek (který sám o sobě zabírá několik desítek terabajtů) a poslat výsledek jako webovou stránku s textovými odkazy.

A to je případ „pouhého“ vyhledávání. Při využívání služeb typu YouTube a Facebook se servery zapotí násobně více. Google ovšem musí neustále aktualizovat index stránek. Samotné indexování celého internetu vyžaduje neuvěřitelný výpočetní výkon. Facebook zase jako komplexní systém propojující vzájemně informace a fotografie z účtů jednotlivých uživatelů neustále přepočítává vztahy těchto dat a generuje zobrazené dynamické webové stránky. Takto náročné úlohy musí pochopitelně plnit obrovské množství počítačů využívajících cloud computing (viz rámeček).

Moderní datové centrum je vybaveno tenkými modulárními servery, naskládanými do tzv. racků. To jsou v podstatě plechové skříně připravené pro uchycení serverů a diskových polí. Přestože může být server tenčí než běžný stolní počítač, většinou obsahuje speciální základní desku s paticemi pro více procesorů. Serverové procesory navržené pro určité výpočetní úlohy pak mohou obsahovat třeba osm jader. Jeden server tak může disponovat například šestnácti procesorovými jádry.

Modulární systém je navíc navržen tak, aby mohly být výpočetní úlohy zpracovávány několika servery současně. V případě webových aplikací pak může díky virtualizaci a cloud computingu běžet na několika serverech jedna aplikace, případně operační systém využívající současně tisíce strojů. Síla datového centra tak tkví v možnostech spojit kapacitu a výpočetní sílu mnoha serverů (potažmo mnoha procesorů, pevných disků a paměťových modulů) dohromady.

Gigabajty, terabajty, petabajty

Každý server má vlastní operační paměť, pro běh některých aplikací je možné využívat společnou paměť RAM desítek, stovek nebo i tisíců serverů. V extrémních případech je možné, aby aplikace běžící na serverech využívaly spojenou kapacitu kupříkladu 512 GB operační paměti. Celý systém serverů musí být škálovatelný. Počítače je proto možné do systému za běhu přidávat, ale i ze systému odebírat. Při poruše může být celý server jednoduše za běhu vyměněn, jeho zapojení do systému je většinou realizováno pouze síťovými kabely.

Obdobně je pak možné ze systému vyjmout za běhu některý z pevných disků a nahradit jej novým. Servery (potažmo datacentra) využívají k ukládání dat převážně pevné disky (přesněji řečeno disková pole). Serverové disky se od těch obyčejných liší návrhem pro provoz 24 hodin denně, pro výkonné nasazení jsou připraveny disky s 10 000 otáčkami za minutu. Přechod na disky SSD se teprve plánuje, Google už ale SSD disky vyzkoušel a ve spolupráci se společností Intel je začíná nasazovat do svých serverů. Klasické pevné disky i SSD však mají určitou životnost i jistou poruchovost.

bitcoin_skoleni

Přistupovat k několika desítkám tisíců disků odděleně by bylo nemožné. Disková pole proto dokáží sloučit několik fyzických pevných disků do jednoho virtuálního. Pole RAID dokáže zrcadlit obsah mezi více disků, tím může dosáhnout současně zvýšení výkonu i bezpečnosti. Data mohou být ukládána i čtena z více disků najednou, což zvyšuje rychlost. Pro vyšší bezpečnost jsou opět data zapisována na více disků současně. Dojde-li k havárii disku, je možné jej jednoduše vyměnit a diskové pole automaticky zajistí překopírování a distribuci potřebných dat.

V pondělí se těště na druhý díl, ve kterém se podíváme na datacentra Googlu.