Cerebras představila největší procesor na světě: Bilion tranzistorů a TDP 16 kW
Ještě než se podíváme, co je vlastně procesor WSE od společnosti Cerebras zač, nebude od věci probrat, co je zač společnost Cerebras. Jde o novou firmu, startup, který založili Sean Lie a Andrew Feldman. Pokud by vám tato jména náhodou byla povědomá, je to tím, že jeden startup - serverovou společnost SeaMicro - již na kontě měli. V březnu 2012 bylo SeaMicro koupeno AMD, tehdy pod vedením Roryho Reada.
Jak to bylo s Readovým vedením není pamětníkům potřeba příliš připomínat - pro nepamětníky jen stručně: Přišlo s myšlenkou na všech frontách maximálně zužitkovat malá x86 jádra (jako Bobcat a Jaguar) a rozjelo několik projektů v tomto směru. Vzpomenout lze Skybridge, který měl vyvinout platformy kompatibilní na jednu stranu s malými x86 jádry a na straně druhé s ARM jádry. Dále sem patří nákup společnosti SeaMicro, která měla na malých x86 jádrech stavět mikroservery, platformu, kterou právě SeaMicro vyvinula. Jenže Readovo vedení se mezi tím nechalo připravit Samsungem o vývojový tým malých x86 jader a po jeho rekonstrukci se Samsungem nechalo připravit i o tento druhý vývojový tým malých x86 jader. Následně, poté, co byl Rory Read odejit, nezbylo novému vedení společnosti - již pod taktovkou Lisy Su - než všechny projekty, které byly vázané na ztracený vývoj malých x86 jader - zrušit. V roce 2015 tak skončil projekt Skybridge i divize SeaMicro. |
Sean Lie a Andrew Feldman tedy založili nový startup nazvaný Cerebras. Jeho produktem je procesor WSE (Wafer Scale Engine) určený pro systém SC-1 specializovaný na akceleraci neurálních sítí. Asi první, co člověka napadne při pohledu na procesor velikosti waferu, je, jak je to s výtěžností. Autoři ji řešili na úrovni samotné architektury a to tak, aby každé výpočetní jádro v procesoru bylo deaktivovatelné a datové cesty k němu vedoucí přemostitelné přes některé z okolních zdravých jader. V důsledku výrobních chyb padne na řešení výtěžnosti mezi 1-1,5 % jader čipu.
Jako druhá otázka se nabízí, kolik to vlastně bude žrát. Pokud vezmeme v potaz, že grafická jádra nebo x86 procesory o ploše několika set čtverečních milimetrů vyžadují kolem 300 wattů (ty od Intelu i více), kolik může vyžadovat procesor o ploše (téměř) celého waferu? Je to 15 000 wattů. Pokud by se vám to těžko představovalo, je to zhruba 38 remosek, případně 17 vysavačů, které se těsně vejdou do limitů EU.
Zmínka o remosce a vysavači může nenásilně vnuknout otázky ohledně napájení a chlazení. Celý systém SC-1 je integrován jako zařízení o proporcích 15U racku. Pro napájení je potřeba počítat s 20 kW, z čehož si jen chlazení řekne o 4 kW. 15 kW spolkne procesor WSE a 1 kW jde na ztráty napájecích obvodů. Chladící a napájecí systémy jsou koncipovány jako redundantní a lze je v případě poruchy nebo potřeby údržby měnit za chodu (hot-swap).
SC-1 obsahuje 12× 100GbE rozhraní pro propojení s klasickými výpočetními systémy, případně pro spojení s dalšími jednotkami SC-1. V takovém případě lze soubor těchto jednotek adresovat jako jediný homogenní systém. Systém SC-1 je již v provozu v Argonne National Laboratories, kde je využíván k výzkumu rakoviny a černých děr.
Pokud jde o architekturu čipu, je složen z 400 000 jader navržených pro AI, která využívají 18 GB paměti integrované v čipu (SRAM). Jednotlivá jádra jsou propojena přes síť (míněno doslova, tedy mesh), jejíž celková propustnost dosahuje až 100 Pb/s. Komunikace s pamětí probíhá rychlostí až 72 Pb/s (uváděno 9 PB/s). Čip se skládá z 1,2 bilionu tranzistorů a dosahuje plochy 46 225 mm². Cerebras tyto parametry srovnává s největším GPU současnosti, výpočetním čipem Nvidia Volta GV100:
Cerebras WSE | Volta GV100 | rozdíl | |
---|---|---|---|
plocha | 46 225 mm² | 815 mm² | 56,7× |
jader | 400 000 | 5120 5376 | 78× 74,4× |
int. paměť | 18 GB | 6 MB | 3000× |
paměť. prop. | 9 PB/s | 900 GB/s | 10 000× |
prop. sběrnice | 100 Pb/s | 300 Gb/s | 33 000× |
tranzistorů | 1,2 bilionu | 21 miliard | 57,1× |
Do srovnávací tabulky od Cerebras jsem si dovolil doplnit i srovnání počtu tranzistorů a opravit počet jader. Pokud situaci správně chápu, uvádí Cerebras pro WSA počet všech jader fyzicky obsažených v čipu, ale v případě Volta GV100 odpovídá hodnota 5120 pouze těm aktivním. Fyzicky je přítomných 5376 jader.
Na realizaci čipu WSE a systému SC-1 pracovalo 173 inženýrů a bylo spotřebována investice ve výši $112 milionů. Jádro vyrábí TSMC na 16nm procesu. S tou musela Cerebras spolupracovat i na architektuře, jíž bylo potřeba přizpůsobit limitům výrobních linek. Přestože jde o fyzicky jeden čip, výrobní linky mají určité limity, které odpovídají maximální velikosti čipu. Návrh WSE tedy musel být navržen s ohledem na to, že jej bude linka na křemík kreslit jako několik vedle sebe umístěných čipů, které však nebudou rozřezané, ale zůstanou jako monolit. Řešit se musely například spoje mezi tím, co výrobní linka vnímá jako jednotlivé čipy.
Daleko větší úsilí ale bylo podle Feldmana potřeba vyvinou při řešení jiných tří problémů. První spočíval tepelné roztažnosti. Nikdy nikdo nevyrobil tak velký čip a nemusel řešit jeho tepelnou roztažnost. Nebylo možné jej umístit na PCB s použitím standardních metod, protože by po zahřátí došlo k destrukci spojů. Feldman proto musel vyvinout materiály a konektory, které budou mít podobnou tepelnou roztažnost a problém vykompenzují. Druhý problém spočíval v testování a pouzdření, neboť neexistoval žádný provoz, který by na testování něčeho podobného byl vybavený. Jak po stránce rozměrů, tak po stránce složitosti či spíše rozsahu toho, co je v čipu potřeba otestovat. Třetí soubor problémů se týkal chlazení, které bylo popsáno výše.