Por dentro do futuro rack e microsservidor do Facebook

Os hiperescaladores e construtores de nuvem vêm definindo o ritmo da inovação na área de servidores na última década, particularmente e publicamente desde que o Facebook criou o Open Compute Project em abril de 2011 e aumentou quando a Microsoft se juntou no início de 2014 e basicamente criou todo um novo fluxo de inovação de servidor que era exclusivo - e amplamente incompatível com - os designs lançados pelo Facebook.

A Microsoft não está falando muito sobre seus designs de hardware no Open Compute Summit virtual mais recente desta semana, mas o Facebook sim. Vijay Rao, diretor de tecnologia e estratégia do Facebook, apresentou o sistema de treinamento de aprendizado de máquina "Zion" no OCP Summit no ano passado, com a arquitetura inovadora do OCP Accelerator Module que achamos que vai decolar no setor devido à densidade e modularidade. ofertas e a infinidade de interconexões e aceleradores que podem fazer uso dessa arquitetura. Rao sugeriu como mecanismos de inferência M.2 menores podem ser agrupados e implantados nos projetos de microsservidor "Yosemite" do Facebook, que fizeram sua estreia em março de 2015 e que também foi o mês em que iniciamos a The Next Platform. O chassi Yosemite é um trenó de computação de um terço de largura que se encaixa nos gabinetes Open Rack de 21 polegadas defendidos pelo Facebook e inicialmente tinha até quatro microsservidores de soquete único, além de rede e armazenamento compartilhados entre esses nós e até 24 desses trenós mais duas prateleiras de energia e algum espaço aéreo preencheram um único rack Open para um total de 96 servidores.

Em nosso evento The Next AI Platform no ano passado, Rao falou um pouco mais sobre como o Facebook pode ser massivamente paralelo com mecanismos de inferência relativamente modestos e implantá-los em máquinas como Yosemite, e este ano no virtual OCP Summit, os engenheiros do Facebook delinearam precisamente como eles farão isso, além de falar sobre futuros servidores de um e dois soquetes baseados nos processadores "Cooper Lake" Xeon SP da Intel, que também farão algum trabalho de inferência graças ao suporte de meia precisão FP16 e Bfloat16 formatos de dados e processamento nas unidades vetoriais AVX-512 nesses processadores.

O chassi Yosemite é uma grande parte da infraestrutura do Facebook, juntamente com várias gerações de máquinas de dois soquetes. Traçamos o perfil de como o Facebook configura seus servidores para diferentes cargas de trabalho em 2016, e os sistemas de dois soquetes "Leopard" mais Yosemite representavam a grande maioria de sua infraestrutura, com as máquinas habilitadas para GPU "Big Sur" sendo de volume relativamente baixo, mas crescendo rapidamente em importância. Mas o Facebook criou mais de duas máquinas e as contribuiu para o código aberto, como esta visão geral de Katharine Schmidtke, diretora de fornecimento de ASICs e silício personalizado na rede social, delineou em seu discurso principal:

O Facebook lançou projetos para datacenters, racks, servidores, servidores de armazenamento, vários tipos de mezanino e placas de interface de rede e módulos aceleradores para servidores, switches modulares e de chassi e transceptores ópticos, sem mencionar um monte de software. Você poderia construir um datacenter bastante decente, mesmo com os designs antigos de Prineville, abertos em 2011, e preenchê-lo com equipamentos de baixo custo e sem vaidade, se você tivesse em mente fazê-lo.

No ano passado, o Facebook falou vagamente sobre as modificações que poderia fazer no chassi de Yosemite e como poderia criar complexos de inferência massivamente paralelos usando mecanismos de inferência relativamente modestos de vários fornecedores usando um cartão "Glacier Point" para os bastões de inferência que se encaixam em o recinto de Yosemite. Este ano, eles forneceram detalhes sobre o chassi Yosemite V2.5 atualizado e o cartão de operadora Glacier Point V2 que está realmente em produção. O Facebook tem vários motivos para usar chips de inferência para bebês em placas PCI-Express de fator de forma M.2. Por um lado, a empresa não quer que a inferência, que é uma parte vital de sua pilha de aplicativos, tenha uma enorme área de explosão se algo der errado. Além disso, a inferência é uma carga de trabalho bastante leve e naturalmente massivamente paralela (como o serviço da Web) e que se presta naturalmente à execução em pequenos dispositivos. O preço/desempenho e a temperatura desses dispositivos também são muito atraentes para rodar inferência em GPUs ou FPGAs – pela matemática do Facebook, pelo menos. Mas esses dispositivos não são realmente bons em treinamento e vão exatamente na direção oposta que a Nvidia está fazendo ao convergir HPC, treinamento de IA e inferência de IA para o novo mecanismo de GPU "Ampere" GA100 anunciado esta semana. Mas o Facebook tem outras cargas de trabalho que precisa suportar, como codificação e decodificação de vídeo, que também podem ser executadas em sticks M.2 e implantadas em cartões de operadoras e hospedadas nos servidores Yosemite. Além disso, seu compilador GLOW desenvolvido internamente, sobre o qual falamos aqui, permite que os modelos de inferência sejam divididos em vários dispositivos relativamente pequenos, portanto, não é necessário escolher computação mais pesada para fazer inferência apenas porque tem inferência mais pesada.