banner
Lar / blog / Criando um DGX
blog

Criando um DGX

Jun 27, 2023Jun 27, 2023

Nem todo mundo pode pagar um servidor Nvidia DGX AI carregado com os mais recentes aceleradores GPU “Hopper” H100 ou mesmo um de seus muitos clones disponíveis nos OEMs e ODMs de todo o mundo. E mesmo que eles possam pagar por essa escalada de processamento de IA, isso não significa por um segundo que eles podem colocar as mãos nas GPUs H100 ou mesmo “Ampere” A100 que são parte integrante deste sistema, dada a grande demanda por esses computadores. motores.

Como é habitual, as pessoas encontram substitutos económicos e técnicos, e é assim que funciona uma economia saudável, aumentando o número de alternativas e reduzindo os custos de todas essas alternativas graças à concorrência.

O mesmo acontece com as configurações do SuperNode que o fornecedor de malha combinável GigaIO montou com a ajuda dos fabricantes de servidores Supermicro e Dell. Em vez de usar GPUs Nvidia, os SuperNodes GigaIO são baseados em aceleradores de GPU AMD “Arcturus” Instinct MI210 mais baratos, que se conectam a slots PCI-Express e não possuem os soquetes especiais que as GPUs de ponta da Nvidia, AMD ou Intel exigem – SXM4 e soquetes SXM5 para GPUs A100 e H100 da Nvidia e soquetes OAM da AMD e Intel. E em vez de usar interconexões NVLink para unir as memórias de GPU Nvidia A100 e H100 em um sistema de memória compartilhada ou a interconexão Infinity Fabric da AMD para unir as memórias de GPUs Instinct MI250X de ponta, a configuração SuperNode faz uso de PCI-Express 4.0 alterna para vincular as memórias GPU entre si e aos nós host do servidor.

Essa configuração tem menos largura de banda do que as interconexões NVLink ou Infinity Fabric, é claro, e mesmo quando os switches PCI-Express 5.0 estiverem disponíveis, esse ainda será o elenco – algo que lamentamos recentemente em nome de empresas como GigaIO e seus clientes. Ainda afirmamos que os níveis de lançamento PCI-Express para portas de servidor, placas adaptadoras e switches devem ser disponibilizados em sincronia no hardware, em vez de haver um enorme atraso entre os servidores, os adaptadores e os switches. Se a infraestrutura combinável se tornar comum e se as interconexões PCI-Express forem a melhor maneira de conseguir isso no nível do pod (ou seja, alguns racks de máquinas interligadas), então isso nos parece óbvio.

Nem a GigaIO nem seus clientes têm tempo para esperar que tudo isso se alinhe. Ela precisa construir clusters hoje e trazer os benefícios da capacidade de composição para os clientes hoje, o que pode ser feito como mostramos no passado com estudos de caso e aos quais esses links se referem. Mais importante ainda, a capacidade de composição permite que a utilização de mecanismos de computação caros, como GPUs, seja aumentada à medida que várias cargas de trabalho em execução em clusters mudam ao longo do tempo. Por mais difícil que seja de acreditar – e algo que foi mostrado no San Diego Supercomputing Center em seus benchmarks – você pode usar GPUs de menor desempenho ou menos delas, aumentar sua utilização e ainda obter resultados mais rápidos com infraestrutura combinável do que você pode com um ferro GPU grande e robusto.

As configurações GigaPod, SuperNode e GigaCluster montadas pela GigaIO são uma comercialização dessa ideia e não se limitam às GPUs AMD MI210. Qualquer GPU ou FPGA ou acelerador discreto que se conecte a um slot PCI-Express 4.0 ou 5.0 pode ser colocado nessas configurações.

Um GigaPod tem de um a três nós de computação baseados em servidores de dois soquetes que empregam processadores “Milan” Epyc 7003 da AMD, mas, novamente, não há nada que impeça a GigaIO ou seus clientes de usar outras CPUs ou servidores que não sejam da Dell ou Supermicro. Esta é apenas a configuração totalmente AMD que foi certificada para ser vendida como uma unidade única aos clientes.

O GigaPod possui um switch PCI-Express de 24 portas baseado no switch ASIC Switchtec Gen 4.0 PCI-Express da Microchip Technology. (Traçamos o perfil dos ASICs Microchip Gen 5.0 Switchtec aqui e esperamos que eles comecem a ser comercializados em grande volume em breve.) GigaIO usa ASICs de adaptador PCI-Express da Broadcom para conectar servidores, gabinetes de armazenamento e gabinete de acelerador a esse backbone de comutação, que é seu software FabreX a pilha pode desagregar e compor instantaneamente. O GigaPod tem dezesseis aceleradores, e as CPUs e GPUs são provisionadas usando Bright Cluster Manager da Bright Computing, que foi comprada pela Nvidia em janeiro de 2022.

Enviar consulta
Enviar