O ferro que impulsionará a IA nas plataformas meta

Se há uma coisa consistentemente verdadeira sobre os clusters HPC nos últimos trinta anos e sobre os sistemas de treinamento de IA na última década, é que, à medida que as cargas de trabalho crescem, a rede se torna cada vez mais importante – e talvez tão importante quanto empacotar tantos flops em um nó como fisicamente e termicamente faz sentido.

Para sistemas de treinamento de IA, nada ilustra melhor isso do que a evolução dos servidores sob medida criados pela Meta Platforms, mesmo em 2016, quando ainda se chamava Facebook e quando doou seu primeiro design de sistema de IA para o Open Compute Project que fundou em 2011 Esse co-design de hardware e software de aplicativo nos últimos anos da Lei de Moore foi um dos temas centrais que nos levaram a fundar a The Next Platform, e aqui estamos, oito anos depois, e os hiperescaladores e construtores de nuvem ainda estão ensinando novamente algumas das lições que aprendemos há muito tempo na arena HPC com algumas reviravoltas interessantes que são exclusivas da IA.

No OCP Global Summit no Vale do Silício esta semana, a Meta Platforms revelou seu novo sistema de IA "Grand Teton" e um conjunto de armazenamento de alta capacidade "Grand Canyon" baseado em unidades de disco, cujos projetos serão doados para o Open Compute Projeto para que outros fabricantes possam criar sistemas compatíveis com as Meta Platforms de ferro que usarão para suas próprias pilhas de software de IA.

As especificações completas do sistema Grand Teton não foram divulgadas, o que é uma pena, mas obtivemos algumas informações de um blog postado por Alexis Bjorlin, vice-presidente de infraestrutura da empresa, e as especificações para a matriz de armazenamento do Grand Canyon são, na verdade, disponíveis no OCP. (Apesar de a Meta Platforms ter largura de banda de streaming de vídeo suficiente para hospedar bilhões de pessoas, ela opta por não doar recursos para a OCP para que qualquer pessoa possa participar do evento virtualmente de qualquer lugar. Este ano, as pessoas tiveram que comparecer pessoalmente ao OCP Global Summit, o que não conseguimos fazer. Portanto, não podemos nos apressar pessoalmente para obter mais detalhes, mas fique tranquilo, estamos nos apressando de longe.)

Felizmente, ao pesquisar, encontramos um artigo publicado pela Meta Platforms em abril sobre o sistema Neo de codesign de hardware e software usado para criar o sistema de IA "Zion" da geração anterior de 2019 e o sistema "ZionEX" de 2021 esse foi o seu pontapé inicial e sobre o qual a empresa não falou muito publicamente até este ano. O Neo é um tipo de hipervisor de cache de memória criado pela Meta Platforms que permite o uso flexível e escalável de várias partes da hierarquia de memória em clusters - tudo sob controle de software. (O design ZionEX foi contribuído para o OCP, a propósito, e agora está sob o documento de especificação Zion 1.0. Grand Teton será contribuído para OCP em abril de 2023, de acordo com fontes da Meta Platforms. Não sabemos o que aconteceu para a especificação original do servidor Zion.)

As máquinas ZionEX e o hipervisor de memória cache Neo (este é o nosso termo para isso, não o termo das Meta Platforms) são usados para treinar modelos de recomendação de aprendizagem profunda (DLRMs), que são uma carga de trabalho chave para empresas modernas e, neste caso, é usado para tentar para descobrir qual anúncio e conteúdo mostrar aos usuários no Facebook, Instagram, WhatsApp e o resto da pilha.

A necessidade de potência para DLRMs, bem como para modelos de transformadores (usados no processamento de linguagem natural), é bastante intensa, como mostram estes gráficos do artigo de abril:

A Meta Platforms usou os clusters ZionEX, que agrupam vários sistemas Zion, para treinar modelos DLRM que variam em tamanho de 95 bilhões a 12 trilhões de parâmetros e fornecem uma ordem de grandeza de aceleração em clusters mais simples de máquinas Zion. O design original do Zion não escalou bem, de acordo com a Meta Platforms, e muitas vezes uma execução de treinamento ficava presa dentro de uma máquina. Mas com o ZionEX, a Meta Platforms criou uma topologia totalmente conectada para GPUs que faz uso de RDMA sobre Ethernet convergente para ignorar a pilha de rede da CPU e dar às GPUs acesso total à memória umas das outras através da malha Ethernet. (Mais sobre isso mais tarde.)