A computação em exaescala chegou — o que significa essa nova era e do que supercomputadores em exaescala são capazes?

A computação exaescala pode processar mais de um quintilhão de operações por segundo — permitindo simulações complexas que antes eram impossíveis. Mas como isso funciona?

Com informações de Live Science.

supercomputador
CasarsaGuru/Getty Images

A computação em exaescala é o mais recente marco em supercomputadores de ponta — sistemas de alta potência capazes de processar cálculos em velocidades atualmente impossíveis usando qualquer outro método.

Supercomputadores exascale são computadores que operam na escala exaflop. O prefixo “exa” denota 1 quintilhão, que é 1 x 10 18 — ou um 1 seguido de 18 zeros. Flop significa “Operações de ponto flutuante por segundo”, um tipo de cálculo usado para comparar computadores.

Isso significa que um computador exaescala pode processar pelo menos 1 quintilhão de operações de ponto flutuante por segundo. Em comparação, a maioria dos computadores domésticos opera na faixa dos teraflops (geralmente em torno de 5 teraflops), processando apenas cerca de 5 trilhões (5 x 10 12 ) de operações de ponto flutuante por segundo.

“Um exaflop equivale a um bilhão de bilhões de operações por segundo. É possível resolver problemas em uma escala muito maior, como a simulação de um planeta inteiro, ou com uma granularidade muito maior”, disse Gerald Kleyn, vice-presidente de soluções para clientes de HPC e IA da HPE , à Live Science.

Quanto mais operações de ponto flutuante um computador consegue processar por segundo, mais poderoso ele é, permitindo-lhe resolver mais cálculos com muito mais rapidez. A computação em exaescala é normalmente usada para conduzir simulações complexas, como previsão do tempo, modelagem de novos tipos de medicamentos e testes virtuais de projetos de motores.

Quantos computadores exaescala existem e para que eles são usados?

O primeiro computador exascale, chamado Frontier, foi lançado pela HPE em junho de 2022. Ele tem uma velocidade operacional registrada de 1,102 exaflops. Essa velocidade já foi superada pelo atual líder, o El Capitan , que atualmente opera a 1,742 exaflops. No momento da publicação, existem dois computadores.

Supercomputadores em exaescala foram utilizados durante a pandemia de COVID-19 para coletar, processar e analisar enormes quantidades de dados. Isso permitiu que cientistas compreendessem e modelassem a codificação genética do vírus, enquanto epidemiologistas utilizavam o poder computacional das máquinas para prever a disseminação da doença pela população. Essas simulações foram realizadas em um período de tempo muito menor do que seria possível usando um computador de escritório de alto desempenho.

Vale ressaltar também que computadores quânticos não são a mesma coisa que supercomputadores. Em vez de representar informações usando bits convencionais, os computadores quânticos exploram as propriedades quânticas dos qubits para resolver problemas complexos demais para qualquer computador clássico.

Para funcionar, a computação em exaescala precisa de dezenas de milhares de unidades centrais de processamento (CPUs) e unidades de processamento gráfico (GPUs) avançadas em um único espaço. A proximidade entre CPUs e GPUs é essencial, pois reduz a latência (o tempo que os dados levam para serem transmitidos entre os componentes) dentro do sistema. Embora a latência seja normalmente medida em picossegundos, quando bilhões de cálculos são processados ​​simultaneamente, esses pequenos atrasos podem se combinar e causar lentidão em todo o sistema.

“A interconexão (rede) conecta os nós de computação (compostos por CPUs, GPUs e memória)”, disse Pekka Manninen, diretor de ciência e tecnologia da CSC, à Live Science. “A pilha de software permite, então, aproveitar o poder computacional conjunto dos nós em uma única tarefa de computação.”

Apesar de seus componentes estarem compactados o máximo possível, os computadores exaescala ainda são dispositivos colossais. O supercomputador Frontier, por exemplo, tem 74 gabinetes, cada um pesando aproximadamente 3,5 toneladas, e ocupa mais de 680 metros quadrados – aproximadamente metade do tamanho de um campo de futebol.

Por que a computação exascale é tão desafiadora

É claro que compactar tantos componentes pode causar problemas. Computadores normalmente precisam de resfriamento para dissipar o calor residual, e os bilhões de cálculos executados por computadores exascale a cada segundo podem aquecê-los a temperaturas potencialmente prejudiciais.

“Reunir tantos componentes para operar como um só é provavelmente o caminho mais difícil, porque tudo precisa funcionar perfeitamente”, disse Kleyn. “Como humanos, todos sabemos que já é difícil reunir a família para jantar, quanto mais fazer 36.000 GPUs trabalharem juntas em sincronia.”

Isso significa que o gerenciamento de calor é vital no desenvolvimento de supercomputadores exaescalares. Alguns usam ambientes frios, como o Ártico, para manter temperaturas ideais; enquanto outros usam resfriamento a água, racks de ventiladores ou uma combinação dos dois para manter as temperaturas baixas.

No entanto, os sistemas de controle ambiental também adicionam uma complicação adicional ao desafio da gestão energética. A computação em exaescala requer enormes quantidades de energia devido ao número de processadores que precisam ser alimentados.

Embora a computação em exaescala consuma muita energia, ela pode gerar economia de energia para um projeto a longo prazo. Por exemplo, em vez de desenvolver, construir e testar novos projetos iterativamente, os computadores podem ser usados ​​para simular virtualmente um projeto em um período de tempo relativamente curto.

Os computadores exaescala são altamente propensos a falhas

Outro problema enfrentado pela computação em exaescala é a confiabilidade. Quanto mais componentes houver em um sistema, mais complexo ele se torna. Espera-se que um computador doméstico comum apresente algum tipo de falha em até três anos, mas na computação em exaescala, a taxa de falhas é medida em horas.

Essa taxa de falhas se deve ao fato de a computação em exaescala exigir dezenas de milhares de CPUs e GPUs — todas operando em alta capacidade. Dadas as altas demandas esperadas simultaneamente de todos os componentes, é provável que pelo menos um componente falhe em poucas horas.

Devido à taxa de falhas da computação em exaescala, os aplicativos usam pontos de verificação para salvar o progresso ao processar um cálculo, em caso de falha do sistema.

Para mitigar o risco de falhas e evitar paradas desnecessárias, os computadores exascale utilizam um conjunto de diagnósticos em conjunto com sistemas de monitoramento. Esses sistemas fornecem supervisão contínua da confiabilidade geral do sistema e identificam componentes que apresentam sinais de desgaste, sinalizando-os para substituição antes que causem interrupções.

“Um conjunto de diagnóstico e um sistema de monitoramento nos mostram como a máquina está funcionando. Podemos analisar cada componente individualmente para ver onde está falhando e emitir alertas proativos. Os técnicos também trabalham constantemente na máquina, substituindo componentes com defeito e mantendo-a em condições operacionais”, disse Kleyn. “É preciso muito carinho para manter essas máquinas funcionando.”

As altas velocidades operacionais na computação exaescala exigem sistemas operacionais e aplicativos especializados para aproveitar ao máximo seu poder de processamento.

“Precisamos ser capazes de paralelizar o algoritmo computacional em milhões de unidades de processamento, de forma heterogênea (em nós e dentro de um nó, nos núcleos da GPU ou da CPU)”, Manninen. “Nem todos os problemas de computação se prestam a isso. A comunicação entre os diferentes processos e threads precisa ser orquestrada cuidadosamente; implementar entradas e saídas de forma eficiente é desafiador.”

Devido à complexidade das simulações realizadas, a verificação dos resultados também pode ser desafiadora. Os resultados de computadores em exaescala não podem ser verificados, ou pelo menos não em um curto espaço de tempo, por computadores de escritório convencionais. Em vez disso, os aplicativos usam barras de erro previstas, que projetam uma estimativa aproximada dos resultados esperados, com qualquer valor fora dessas barras sendo descontado.

Além da computação exascale

De acordo com a Lei de Moore, espera-se que o número de transistores em um circuito integrado dobre a cada dois anos. Se esse ritmo de desenvolvimento continuar (e é um grande “se”, pois não pode durar para sempre), podemos esperar a computação em escala zeta — um 1 seguido de 21 zeros — em aproximadamente 10 anos.

A computação exaescala se destaca no processamento simultâneo de um grande número de cálculos em um período de tempo muito curto, enquanto a computação quântica está começando a resolver problemas incrivelmente complexos com os quais a computação convencional teria dificuldade. Embora os computadores quânticos atualmente não sejam tão poderosos quanto os exaescala, prevê-se que eventualmente os superem.

Um possível desenvolvimento poderia ser uma fusão entre computação quântica e supercomputadores. Este supercomputador híbrido quântico/clássico combinaria o poder computacional dos computadores quânticos com o processamento de alta velocidade da computação clássica. Cientistas já iniciaram esse processo, adicionando um computador quântico ao supercomputador Fugaku, no Japão.

“À medida que continuamos a reduzir o tamanho dessas coisas, melhorar nossas capacidades de resfriamento e torná-las mais baratas, será uma oportunidade de resolver problemas que não conseguíamos resolver antes”, disse Kleyn.



Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.