A Ascensão da IA Privada: O Protocolo Ultra Ethernet e a Redefinição da Infraestrutura Conectada em Larga Escala

A Ascensão da IA Privada: O Protocolo Ultra Ethernet e a Redefinição da Infraestrutura Conectada em Larga Escala

Por Thomas King (*)

A Inteligência Artificial (IA) tornou-se tão estratégica para as organizações que temas como soberania dos dados e conformidade regulatória passaram a estar no centro das implementações.

Na tentativa de proteger informação sensível, muitas empresas estão a migrar para infraestruturas privadas para treino de IA. Porém, obstáculos como o chamado “data center squeeze” (a escassez de espaço físico e de energia elétrica nos data centers) têm dificultado esse movimento. Pelo menos até atrásra.

De acordo com a McKinsey, em parte devido à crescente procura de soberania de dados e de conformidade, até 2030 entre 35% e 40% das cargas de trabalho de IA na Europa e nos EUA deverão ser realizadas em ambientes privados. Um estudo da especialista em data centers Vespertec reforça esta tendência: 25% das empresas já utilizam hardware próprio e 70% ponderam essa opção para o futuro.

As companhias que querem optar pelo caminho da IA privada podem correr os seus modelos on-premises (nas suas próprias instalações) ou recorrer a data centers partilhados, mantendo total controlo sobre a infraestrutura. Esta decisão está geralmente associada à segurança dos dados e à vontade de evitar dependência de um único fornecedor (vendor lock-in), seja no treino de modelos de IA ou na utilização de serviços específicos de cloud.

Mas o crescimento explosivo da infraestrutura de IA tem vindo a criar novos desafios, não apenas em termos de custo, mas também de disponibilidade de espaço e energia elétrica nos data centers, afetando diretamente a capacidade das empresas de escalar a sua infraestrutura conforme as necessidades.

Estrangulamento nos data centers

Um dos principais limitadores é a enorme procura de capacidade de processamento. Encontrar espaço físico e energia elétrica para correr GPUs de alto desempenho já constitui, por si só, um grande desafio.

Muitos data centers internos continuam limitados em termos de capacidade elétrica, enquanto a densidade energética por rack aumentou pelo menos dez vezes com o hardware de IA, em comparação com aplicações tradicionais (que consumiam entre 5 e 10 kW por rack).

A construção de novos data centers enfrenta barreiras como restrições locais de energia. E mesmo quando se concretiza, muitas vezes a capacidade é integralmente ocupada por um único grande cliente, sendo a pré-reserva uma prática cada vez mais comum.

Até mesmo os maiores fornecedores globais de cloud e IA enfrentam dificuldades em acompanhar a crescente procura de espaço em racks nos seus data centers em hiperescala para IA. Alguns chegam ao ponto de construir e operar as suas próprias centrais de produção de energia, de forma a garantir fornecimento estável, algo impensável para empresas de outros setores.

O resultado é que os mercados de data centers em todo o mundo estão a operar com taxas de desocupação historicamente baixas. A CBRE reportou que, em 2025, a taxa na Europa desceu para um novo mínimo de 9%, enquanto nos principais mercados dos EUA caiu para apenas 2,8% no início do ano: a mais baixa de sempre.

Repensar a infraestrutura de IA para treino – superar limitações tecnológicas

A boa notícia é que o design da infraestrutura para computação pesada de IA está a evoluir. Até há pouco tempo, o treino de modelos exigia enormes data centers centralizados, capazes de processar cargas em clusters paralelos.

Agora, começa a vislumbrar-se a possibilidade de treinar modelos de forma mais descentralizada, permitindo que as empresas aproveitem melhor a capacidade disponível em diferentes instalações e expandam para novas zonas da cidade sempre que necessário.

Atualmente, ainda não é possível distribuir uma mesma carga de trabalho de IA por múltiplos data centers de uma cidade. A razão está no InfiniBand, protocolo utilizado para ligar servidores e GPUs. Este exige larguíssima largura de banda (3,2 terabits por unidade de processamento) e latência muito baixa (na ordem dos microssegundos, ou milionésimos de segundo). Esta exigência é de tal forma elevada que os equipamentos precisam de estar a poucos metros de distância, o que força a concentração num único local. Esta é uma fraqueza tecnológica que resultou na necessidade de processamento altamente centralizado para IA.

Embora dominante, o InfiniBand apresenta desvantagens: custo elevado, pouca flexibilidade na distribuição geográfica dos GPUs e reduzido número de fornecedores. O Ethernet, por seu lado, sempre foi visto como alternativa mais acessível, mas até atrásra era considerado menos fiável devido a problemas como perda de pacotes e dificuldade em lidar com congestionamentos e constrangimentos.

Este cenário mudou com o lançamento, em junho de 2025, da versão 1.0 do protocolo Ultra Ethernet (UEC). Ele permite que o Ethernet seja utilizado em ambientes até aqui exclusivos do InfiniBand, como a ligação entre servidores de IA dentro de um data center. As próximas versões, previstas para 2026, deverão permitir ligações entre múltiplas instalações numa mesma região metropolitana, quebrando o bloqueio do InfiniBand e inaugurando uma nova fase no design da infraestrutura de IA.

O futuro: IA privada com infraestrutura distribuída

As novas versões do Ultra Ethernet serão menos dependentes da latência do que o InfiniBand e conseguirão cobrir distâncias maiores. Ainda assim, a latência continuará a ser um fator crítico para garantir máximo desempenho na comunicação entre servidores distribuídos.

A especificação foi concebida para funcionar com latência até 1 milissegundo, tornando o protocolo mais robusto e flexível, além de compatível com plataformas de interconexão de alto desempenho.

Por ser menos complexo, mais simples de utilizar e baseado numa tecnologia já consolidada, o UEC permitirá que grandes modelos de linguagem (LLMs) sejam treinados em várias instalações dentro de uma mesma cidade, aproveitando espaço disponível onde quer que exista.

Esta evolução também impulsiona a chamada computação desagregada (modelo em que CPU, memória, GPU e armazenamento podem ser separados e escalados de forma independente), permitindo que o processamento seja realizado em diferentes locais. Assim, as empresas podem montar a sua infraestrutura privada de IA de forma distribuída, recorrendo a capacidade disponível em vários data centers.

Esta abordagem traz vantagens importantes: reduz o risco de dependência de fornecedores (vendor lock-in) e aumenta o poder de negociação das empresas.

Outro benefício é a compatibilidade com hardware Ethernet já existente. Os fabricantes de equipamentos de rede estão a preparar atualizações rápidas de software para ativar o suporte às novas versões, acelerando a adoção.

O AI Exchange (AI-IX)

A forma mais direta de tirar partido desta evolução é através de um AI Exchange (AI-IX): uma plataforma neutra em relação a data centers e operadoras, preparada para o protocolo Ultra Ethernet.

O AI-IX combina alta largura de banda e baixa latência, reunindo redes relevantes e tecnologias de encaminhamento específicas para IA, tanto para treino distribuído como para inferência.

Ao garantir conectividade direta entre data centers e redes de IA, além de rotas de dados otimizadas, o AI-IX oferece melhor desempenho e menor latência em ambientes distribuídos, dentro da cidade ou à escala global.

Adicionalmente, ajuda a resolver um dos principais desafios na criação de infraestrutura privada de IA: equilibrar eficiência, governação e conformidade. A McKinsey aponta que, para proteger dados sensíveis e propriedade intelectual, os conselhos de administração das empresas já participam nas decisões que vão desde segurança da informação até à escolha de tecnologias e fornecedores de IA.

À medida que os riscos aumentam, executivos de grandes organizações tendem cada vez mais a internalizar o treino de IA, garantindo controlo, conformidade e vantagem competitiva.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Sintraweb.pt
Privacy Overview

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.