A importância da rede na era dos grandes modelos de IA
Na era dos grandes modelos, a demanda por equipamentos de rede, como módulos ópticos e switches, explodiu e a iteração acelerou. Este artigo irá explorar por que a rede se tornou uma parte fundamental na era da IA e discutirá as inovações e oportunidades de investimento no lado da rede.
Origem da Demanda da Rede
Entrando na era dos grandes modelos, a diferença entre o tamanho dos modelos e o limite de uma única placa gráfica está rapidamente a aumentar, levando a indústria a recorrer a clusters de múltiplos servidores para resolver problemas de treino, o que constitui a base para a crescente importância das redes na era da IA. Em comparação com o passado, onde a transmissão de dados era o foco, hoje as redes são mais utilizadas para sincronizar os parâmetros dos modelos entre as placas gráficas, exigindo maior densidade e capacidade de rede.
O aumento do tamanho do modelo resulta em um maior tempo de treinamento. Para reduzir o tempo de treinamento, é necessário aumentar a eficiência computacional, e o aumento do "número de dispositivos" e da "eficiência de paralelismo" determina diretamente o poder de computação.
Na formação de grandes modelos, é necessário alinhar entre GPUs após cada cálculo, o que impõe maiores exigências à transmissão e troca de rede.
O treinamento de grandes modelos geralmente dura vários meses, e uma interrupção pode causar enormes perdas. Uma falha ou um atraso excessivo em qualquer parte da rede pode levar a uma interrupção. As redes de IA modernas tornaram-se sistemas de engenharia complexos comparáveis a aviões e porta-aviões.
Direção da inovação na rede
Com a expansão do investimento em poder computacional para níveis de centenas de bilhões de dólares, a redução de custos, a abertura e o equilíbrio da escala de poder computacional tornaram-se os principais tópicos da inovação na rede.
Mudança de meio de comunicação: Os módulos ópticos buscam taxas de transmissão mais altas, enquanto reduzem custos através de LPO, LRO, silício fotônico, entre outros. Os cabos de cobre dominam a conexão dentro do rack devido a vantagens de custo-benefício. Novas tecnologias como Chiplet e Wafer-scaling aceleram a exploração dos limites da interconexão baseada em silício.
Competição de protocolos de rede: protocolos de comunicação entre chips e forte ligação às placas gráficas, como o NV-LINK da NVIDIA, o Infinity Fabric da AMD, entre outros. A competição entre IB e Ethernet é a melodia principal da comunicação entre nós.
Mudanças na arquitetura de rede: atualmente, a arquitetura Leaf-Spine é amplamente utilizada, mas à medida que o número de nós aumenta, suas características de redundância trazem um custo de rede significativo para grandes clusters. A arquitetura Dragonfly, a arquitetura rail-only, entre outras, têm potencial para se tornarem direções evolutivas para a próxima geração de grandes clusters.
Sugestões de investimento
Elementos centrais do sistema de comunicação: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.
Inovação no sistema de comunicação: FiberHome, Taihan, Yuanjie Technology, Shengke Communication-U, Cambricon, Dekor.
Aviso de risco
A demanda por IA ficou aquém das expectativas, a lei de escalonamento falhou e a concorrência na indústria aumentou.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
11 gostos
Recompensa
11
5
Partilhar
Comentar
0/400
SandwichHunter
· 22h atrás
Ganhar dinheiro é a única verdade.
Ver originalResponder0
FloorSweeper
· 22h atrás
sinais fracos detectados... já a carregar chamadas de $nvda enquanto vocês npcs fomo em jogadas de networking
A ascensão dos grandes modelos de IA provoca uma explosão na demanda por equipamentos de rede, tornando-se um ponto de investimento quente.
A importância da rede na era dos grandes modelos de IA
Na era dos grandes modelos, a demanda por equipamentos de rede, como módulos ópticos e switches, explodiu e a iteração acelerou. Este artigo irá explorar por que a rede se tornou uma parte fundamental na era da IA e discutirá as inovações e oportunidades de investimento no lado da rede.
Origem da Demanda da Rede
Entrando na era dos grandes modelos, a diferença entre o tamanho dos modelos e o limite de uma única placa gráfica está rapidamente a aumentar, levando a indústria a recorrer a clusters de múltiplos servidores para resolver problemas de treino, o que constitui a base para a crescente importância das redes na era da IA. Em comparação com o passado, onde a transmissão de dados era o foco, hoje as redes são mais utilizadas para sincronizar os parâmetros dos modelos entre as placas gráficas, exigindo maior densidade e capacidade de rede.
O aumento do tamanho do modelo resulta em um maior tempo de treinamento. Para reduzir o tempo de treinamento, é necessário aumentar a eficiência computacional, e o aumento do "número de dispositivos" e da "eficiência de paralelismo" determina diretamente o poder de computação.
Na formação de grandes modelos, é necessário alinhar entre GPUs após cada cálculo, o que impõe maiores exigências à transmissão e troca de rede.
O treinamento de grandes modelos geralmente dura vários meses, e uma interrupção pode causar enormes perdas. Uma falha ou um atraso excessivo em qualquer parte da rede pode levar a uma interrupção. As redes de IA modernas tornaram-se sistemas de engenharia complexos comparáveis a aviões e porta-aviões.
Direção da inovação na rede
Com a expansão do investimento em poder computacional para níveis de centenas de bilhões de dólares, a redução de custos, a abertura e o equilíbrio da escala de poder computacional tornaram-se os principais tópicos da inovação na rede.
Mudança de meio de comunicação: Os módulos ópticos buscam taxas de transmissão mais altas, enquanto reduzem custos através de LPO, LRO, silício fotônico, entre outros. Os cabos de cobre dominam a conexão dentro do rack devido a vantagens de custo-benefício. Novas tecnologias como Chiplet e Wafer-scaling aceleram a exploração dos limites da interconexão baseada em silício.
Competição de protocolos de rede: protocolos de comunicação entre chips e forte ligação às placas gráficas, como o NV-LINK da NVIDIA, o Infinity Fabric da AMD, entre outros. A competição entre IB e Ethernet é a melodia principal da comunicação entre nós.
Mudanças na arquitetura de rede: atualmente, a arquitetura Leaf-Spine é amplamente utilizada, mas à medida que o número de nós aumenta, suas características de redundância trazem um custo de rede significativo para grandes clusters. A arquitetura Dragonfly, a arquitetura rail-only, entre outras, têm potencial para se tornarem direções evolutivas para a próxima geração de grandes clusters.
Sugestões de investimento
Elementos centrais do sistema de comunicação: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.
Inovação no sistema de comunicação: FiberHome, Taihan, Yuanjie Technology, Shengke Communication-U, Cambricon, Dekor.
Aviso de risco
A demanda por IA ficou aquém das expectativas, a lei de escalonamento falhou e a concorrência na indústria aumentou.