Durante anos, o avanço mais visível da inteligência artificial aconteceu num domínio puramente digital: textos, imagens, código, conversas. Modelos como o ChatGPT e o Gemini se tornaram extraordinariamente bons em manipular símbolos, palavras e pixels. Mas existe um domínio inteiramente diferente, e muito mais difícil, que esses mesmos modelos não dominam: o mundo físico, onde objetos colidem, escorregam, caem e quebram segundo regras que nenhuma quantidade de texto na internet ensina sozinha.
Em 1º de junho de 2026, no palco do Computex em Taipei, a Nvidia lançou o Cosmos 3 e o chamou de o primeiro omni-modelo totalmente aberto para Inteligência Artificial Física, ou seja, a inteligência artificial que governa robôs, veículos autônomos e máquinas que agem no mundo físico.
A frase-chave do anúncio é “omni-modelo totalmente aberto”: um único modelo que raciocina sobre imagens, gera mundos simulados inteiros e produz as ações motoras de um robô, tudo dentro da mesma arquitetura e com pesos disponíveis para download por qualquer pessoa.
O número que melhor explica a escala do lançamento é simples de lembrar: 20 trilhões de tokens de treinamento multimodal, um volume que coloca o Cosmos 3 na mesma categoria dos maiores modelos de linguagem de fronteira do mundo, mas aplicado a um domínio completamente diferente: o da física e do movimento.
O que é Inteligência Artificial Física (Physical AI)
Por que o Mundo Real é um Desafio Diferente
Para entender por que o Cosmos 3 é relevante, é preciso primeiro entender por que ensinar uma IA a operar no mundo físico é fundamentalmente mais difícil do que ensiná-la a escrever um texto ou identificar uma imagem.
O mundo real está sempre em movimento. Para operar de forma autônoma, sistemas de IA física, incluindo robôs, veículos autônomos e espaços inteligentes, precisam entender não apenas o que veem e o que causou aquilo, mas o que provavelmente vai acontecer a seguir. Num armazém, um robô pode encontrar configurações de objetos que nunca viu antes. Numa rua, um carro autônomo pode precisar reagir quando um pedestre sai de repente entre carros estacionados. E numa fábrica, um sistema de segurança precisa prever para onde uma empilhadeira está se movendo, não apenas detectar que ela existe.
Capturar e recriar esses cenários no mundo real é lento, caro e, com frequência, impossível de repetir em escala.
O que é Inteligência Artificial Física (Physical AI)? É o ramo da inteligência artificial dedicado a sistemas que precisam perceber, raciocinar e agir no mundo físico real, em vez de apenas processar dados abstratos como texto ou números. Diferente de uma IA que responde perguntas num chat, uma IA física precisa entender conceitos como peso, atrito, gravidade, equilíbrio e colisão, e tomar decisões em tempo real baseadas nessas leis físicas. Robôs industriais, carros autônomos, drones e sistemas de visão em fábricas são exemplos de aplicações da IA física.
O que é um Modelo de Mundo (World Model)
O Cosmos 3 pertence a uma categoria específica de inteligência artificial chamada modelo de mundo, ou world model.
O que é um modelo de mundo (world model)? É um tipo de modelo de inteligência artificial treinado para entender e simular como o mundo físico se comporta, prevendo o que acontecerá a seguir numa cena, dado um estado atual e uma ação possível. Diferente de um modelo de linguagem, que prevê a próxima palavra num texto, um modelo de mundo prevê o próximo estado físico de um ambiente: como um objeto vai cair, como um braço robótico deve se mover para pegar uma xícara, ou como um carro deve reagir a um obstáculo inesperado. Modelos de mundo são a base teórica para treinar robôs e veículos autônomos sem precisar testar cada cenário no mundo real, o que seria lento, caro e às vezes perigoso.
O que é o Cosmos 3: o Conceito de Omni-modelo
Uma Única Arquitetura para Múltiplas Modalidades
O termo central usado pela Nvidia para descrever o Cosmos 3 é “omni-model” (omni-modelo). Um omni-modelo é um modelo que lida com muitas modalidades diferentes, tanto na entrada quanto na saída, sem depender de um pipeline de módulos separados costurados entre si.
O Cosmos 3 aceita e produz texto, imagens, vídeo, som ambiente e sequências de ação, onde “ação” se refere a dados numéricos concretos, como ângulos das articulações de um braço robótico, posição da garra e pontos de uma trajetória.
O que é um pipeline de módulos separados, em contraste com um omni-modelo? Tradicionalmente, sistemas de IA robótica usavam vários modelos diferentes encadeados: um modelo de visão computacional para identificar objetos, outro modelo separado para planejar movimentos, e um terceiro para controlar os motores do robô. Cada peça desse pipeline precisava ser treinada e ajustada separadamente, e erros em uma etapa se propagavam para as seguintes. Um omni-modelo como o Cosmos 3 substitui esse pipeline fragmentado por uma única arquitetura que processa todas essas modalidades de forma integrada, reduzindo a complexidade e os pontos de falha do sistema.
Veja MaisA Revolução da Inteligência Artificial: a Parceria Estratégica Entre Apple, Google e Nvidia
Governo dos EUA Ordenou à Anthropic que Bloqueasse Estrangeiros de Usar o Fable 5: A Empresa Discorda, mas Obedece
Claude Opus 4.8: O Novo Gigante da Anthropic que Supera o GPT-4o
Apple Intelligence: Tudo Sobre a Nova Inteligência Artificial da Apple
A diferença em relação a um modelo de linguagem clássico é substancial. Um modelo de texto raciocina sobre palavras, enquanto um modelo para IA Física precisa entender como objetos colidem, caem, deslizam, e antecipar consequências físicas dessas interações.
A Arquitetura Mixture-of-Transformers
O Cosmos 3 é construído sobre uma arquitetura mixture-of-transformers, ou seja, mistura de transformadores, que combina raciocínio e geração de conteúdo. A Nvidia afirma que o Cosmos 3 pode funcionar como um modelo de visão e linguagem, como um modelo de mundo para simular ambientes físicos, ou como a fundação para gerar ações de robôs.
O que é a arquitetura mixture-of-transformers (mistura de transformadores)? É um desenho de rede neural que combina dois tipos especializados de componentes transformadores trabalhando juntos: um bloco de raciocínio, que primeiro interpreta o que está acontecendo numa cena, e um bloco de geração, que usa esse contexto para criar saídas fisicamente fundamentadas, desde vídeo sintético até dados de tarefas robóticas. Em vez de um único bloco genérico tentando fazer tudo, a mistura de transformadores divide o trabalho entre especialistas que cooperam, o que melhora tanto a precisão quanto a eficiência computacional.

Para que essa arquitetura funcione de forma cooperativa, o modelo primeiro interpreta o que está acontecendo numa cena por meio do bloco de raciocínio, e então usa esse contexto para produzir resultados fisicamente coerentes através do bloco de geração, seja um vídeo sintético ou os dados de uma tarefa robótica específica.
Forward Dynamics: a Capacidade de Prever o Futuro Físico
Um dos conceitos centrais do Cosmos 3 é o que a comunidade técnica chama de Forward Dynamics, a capacidade do modelo de prever o que vai acontecer fisicamente a seguir.
Pense numa IA que olha para uma cena, entende a física dos objetos (o que é pesado, o que escorrega, o que quebra), planeja o movimento do braço robótico em coordenadas no espaço e prevê o que vai acontecer se ela soltar a peça. Isso é o Forward Dynamics do Cosmos 3.
O que é Forward Dynamics (Dinâmica Direta)? É a capacidade de um modelo de IA prever o estado físico futuro de um sistema dado seu estado atual e uma ação proposta. No caso de um robô, isso significa que, antes de soltar um objeto, o modelo pode simular mentalmente o que aconteceria: o objeto cairia, deslizaria, quebraria? Essa capacidade de “pensar antes de agir” é o que diferencia um sistema robótico verdadeiramente inteligente de um que apenas reage a estímulos sem antecipar consequências.
A Escala dos Dados de Treinamento
20 Trilhões de Tokens e Quase um Bilhão de Imagens
A Nvidia afirma que treinou o Cosmos 3 com 20 trilhões de tokens de dados multimodais, incluindo quase um bilhão de imagens, 400 milhões de vídeos reais e sintéticos, áudio ambiente, texto e dados de ação provenientes de humanos e robôs.
Esses dados de ação são o que diferencia o Cosmos de um gerador de vídeo comum. Ele é feito para modelar como as máquinas se movem, não apenas como as cenas se parecem visualmente, segundo Ming-Yu Liu, vice-presidente do Cosmos Lab da Nvidia, em entrevista ao site Axios.
O que é um token, no contexto de treinamento de IA? Um token é a menor unidade de dado que um modelo de IA processa durante o treinamento e o uso. Em modelos de linguagem, um token costuma representar uma palavra ou parte de uma palavra. Em modelos multimodais como o Cosmos 3, o conceito se expande para incluir fragmentos de imagens, quadros de vídeo, trechos de áudio e pontos numéricos de uma trajetória de movimento. Quanto mais tokens diversos e relevantes um modelo processa durante o treinamento, mais rico é seu entendimento do domínio que ele está aprendendo a modelar.
Ações autônomas são centrais para essa diferenciação. Desenvolvedores podem usar o Cosmos 3 para simular ações em ambientes físicos e, então, construir modelos específicos para tarefas em cima dele, voltados a robôs e outras máquinas.
O Cosmos 3 é projetado para gerar dados de ação, como ângulos das articulações do robô, posições da garra e trajetórias, que podem ajudar a treinar máquinas para navegar e manipular o mundo físico.
Por que a Nvidia Decidiu Tornar o Modelo Totalmente Aberto
A Lógica Estratégica da Abertura
Um dos aspectos mais notáveis do Cosmos 3 é a decisão da Nvidia de abrir completamente o modelo, em vez de mantê-lo restrito ou licenciado.
O Cosmos é um modelo aberto, semelhante à sua família Nemotron anterior, o que facilita aos fabricantes de hardware customizar o Cosmos para suas necessidades e garante que versões futuras se alinhem mais de perto com as necessidades da indústria, afirmou Liu.
Essa decisão estratégica não é apenas filantrópica. Ao abrir o modelo, a Nvidia incentiva um ecossistema mais amplo de empresas a construir produtos sobre a infraestrutura da própria Nvidia, o que reforça a posição da empresa como provedora central de hardware e software para toda a cadeia de IA física, da mesma forma que ela já domina a infraestrutura para treinamento de modelos de linguagem.
A Nvidia continua avançando além dos chips, em direção a modelos de IA e software, posicionando-se para se tornar uma plataforma fundacional para o desenvolvimento de IA física.
Onde Encontrar o Modelo
O modelo está disponível como um modelo de fundação aberto (open foundation model) para IA Física. O artigo técnico e os links para os recursos estão disponíveis no Hugging Face e no GitHub. A página do projeto fica em research.nvidia.com/labs/cosmos-lab/cosmos3.
O que é o Hugging Face? É uma plataforma online onde desenvolvedores e empresas compartilham modelos de inteligência artificial, conjuntos de dados e ferramentas de forma aberta. Funciona como um repositório central da comunidade de IA, similar ao que o GitHub representa para código de software em geral. Quando uma empresa “abre” um modelo no Hugging Face, qualquer desenvolvedor pode baixar, estudar, modificar e usar esse modelo, dentro dos termos de licença estabelecidos.
As Três Variantes do Cosmos 3
A Nvidia lançou o Cosmos 3 em diferentes tamanhos, cada um otimizado para um caso de uso específico.
| Variante | Tamanho | Caso de Uso Principal |
|---|---|---|
| Cosmos 3 Super | 32 bilhões de parâmetros | Pós-treinamento de robótica e veículos autônomos que exigem a máxima precisão física e qualidade de geração |
| Cosmos 3 Nano | 8 bilhões de parâmetros | Raciocínio de vídeo e ação de alta qualidade em fração de segundo |
| Cosmos 3 Edge | Em breve | Inferência em tempo real na borda (diretamente no hardware do robô) |
O Cosmos 3 Super é voltado para o pós-treinamento de modelos de robótica e de veículos autônomos que precisam da maior precisão física e qualidade de geração possível. O Cosmos 3 Nano é destinado a raciocínio de vídeo e ação de alta qualidade em fração de segundo, ideal para cenários em que a velocidade de resposta é crítica. O Cosmos 3 Edge, que chega em breve, é voltado para inferência em tempo real na borda, ou seja, diretamente no hardware embarcado do robô, sem depender de conexão com servidores remotos.
O que é inferência na borda (edge inference)? É o processamento de um modelo de inteligência artificial realizado diretamente no dispositivo físico, como um robô ou um carro autônomo, em vez de enviar os dados para um servidor remoto na nuvem e esperar pela resposta. A inferência na borda é essencial para robótica porque reduz a latência (o tempo de resposta) e permite que o sistema continue funcionando mesmo sem conexão de rede estável, algo crítico em ambientes industriais ou em movimento.

A Cosmos Coalition: Colaboração Global em Modelos Abertos
Quem Faz Parte
A Nvidia também lançou a Cosmos Coalition, uma colaboração global entre construtores de modelos de mundo e desenvolvedores de IA. A Cosmos Coalition é uma colaboração global entre construtores de modelos de mundo, desenvolvedores de IA e líderes em IA física para avançar modelos de mundo abertos em diversas indústrias, permitindo que os membros contribuam com modelos, pesquisas e técnicas de avaliação enquanto usam as tecnologias do Cosmos 3, ferramentas de treinamento e a infraestrutura NVIDIA DGX Cloud para treinamento em larga escala.
Os membros fundadores da coalizão incluem a Agile Robots, a Black Forest Labs, a Generalist, a LTX, a Runway e a Skild AI. Ao construir de forma aberta e contribuir através de um ecossistema compartilhado, a coalizão busca permitir inovação mais rápida, interoperabilidade mais ampla e avanços mais rápidos em IA física.
A Visão de Jensen Huang
O fundador e CEO da Nvidia, Jensen Huang, resumiu a importância do anúncio em termos ambiciosos. Segundo Huang, o “big bang” da IA física está bem próximo, graças a avanços em raciocínio multimodal de linguagem, visão e modelos de mundo. A família Cosmos 3 de omni-modelos abertos e de fronteira dá aos desenvolvedores um salto generacional na capacidade de construir robôs, veículos autônomos e IA de visão que percebem, raciocinam, planejam e agem no mundo físico.
Isaac GR00T: o Robô Humanoide de Referência
A Plataforma Completa Para Construir Robôs
Junto com o Cosmos 3, a Nvidia anunciou o Robô Humanoide de Referência Isaac GR00T, um design de referência aberto que integra um chassi humanoide Unitree H2 Plus, mãos com destreza tátil Sharpa Wave, um módulo de computação embarcada NVIDIA Jetson AGX Thor e a pilha completa de software Isaac GR00T, incluindo Isaac Sim, Isaac Lab, Cosmos, o middleware ROS e as bibliotecas CUDA-X.
Para a galera que põe a mão na massa montando robôs, a Nvidia lançou a plataforma Isaac GR00T, um design de referência que já integra o robô humanoide Unitree H2 Plus com mãos mecânicas cheias de destreza.
As Especificações do Robô de Referência
O chassi humanoide Unitree H2 Plus tem aproximadamente 1,83 metro de altura, pesa cerca de 68 quilos e possui 75 graus de liberdade, ou seja, 75 pontos articulados independentes que permitem movimentos complexos e naturais.
O que são graus de liberdade num robô? Cada grau de liberdade representa um eixo independente de movimento que uma articulação do robô pode realizar, como girar, dobrar ou deslizar. Um braço humano, por exemplo, tem múltiplos graus de liberdade no ombro, no cotovelo e no punho. Quanto mais graus de liberdade um robô tem, mais complexos e naturais são os movimentos que ele consegue realizar, mas também maior é a dificuldade de coordená-los todos de forma fluida e segura.
O módulo de computação embarcada NVIDIA Jetson AGX Thor T5000 entrega 2.070 teraflops de processamento em formato FP4, alimentando todo o processamento de IA diretamente no corpo do robô, sem depender de conexão constante com servidores externos.
O que é o Jetson Thor? É a linha de computadores embarcados de alto desempenho da Nvidia, projetada especificamente para rodar modelos de inteligência artificial diretamente em robôs, veículos autônomos e outros dispositivos físicos. O Jetson Thor concentra num único módulo a capacidade de processamento necessária para que um robô interprete o ambiente, tome decisões e controle seus motores em tempo real, sem depender de uma conexão com a nuvem.
As mãos Sharpa Wave, com cinco dedos e sensores táteis, permitem manipulação de objetos com nível de destreza que se aproxima da capacidade humana, um dos maiores desafios históricos da robótica de manipulação.
| Especificação | Valor |
|---|---|
| Chassi base | Unitree H2 Plus |
| Altura aproximada | 1,83 metro |
| Peso aproximado | 68 quilos |
| Graus de liberdade | 75 |
| Mãos | Sharpa Wave (cinco dedos, sensores táteis) |
| Computação embarcada | Nvidia Jetson AGX Thor T5000 |
| Processamento | 2.070 teraflops em FP4 |
| Disponibilidade | Vendido pela Unitree no final de 2026 |
Quem Vai Usar a Plataforma
Organizações de pesquisa incluindo a Ai2, a ETH Zurique, o Centro de Robótica de Stanford e a Universidade da Califórnia em San Diego planejam usar a plataforma. Isso indica que o Isaac GR00T não é apenas um produto comercial isolado, mas uma referência que a comunidade acadêmica de robótica já está adotando para suas próprias pesquisas.
É importante destacar que a Nvidia não vende o robô físico diretamente. A Nvidia fornece o design de referência, incluindo as especificações de integração, a pilha de software e o ecossistema de parceiros, enquanto o robô físico em si é vendido pela Unitree, fabricante do chassi H2 Plus. O papel da Nvidia é equivalente a um design de referência de hardware aberto: definir a arquitetura, validar a integração e garantir a compatibilidade do software, enquanto o hardware real chega ao mercado por meio da Unitree.
Isaac GR00T N1.7: o Modelo de Fundação Para Robôs Generalistas
Aprendizado a Partir de Vídeo Humano
Complementando o robô de referência, a Nvidia também atualizou o Isaac GR00T N1.7, seu modelo de fundação aberto para robôs generalistas. Esse modelo é treinado numa mistura diversa de dados robóticos, incluindo manipulação bimanual, tarefas semi-humanoides e um conjunto de dados humanoides expansivo. Ele é adaptável por meio de pós-treinamento para diferentes corpos físicos de robôs, tarefas e ambientes.
Um detalhe técnico relevante é que o GR00T N1.7 entrega desempenho comparável à versão anterior, N1.6, com melhor generalização e capacidades de seguimento de linguagem, impulsionadas pela inclusão de 20 mil horas de dados de vídeo humano em primeira pessoa durante o pré-treinamento.
O que são dados de vídeo em primeira pessoa (egocêntricos)? São gravações de vídeo capturadas do ponto de vista de uma pessoa realizando tarefas com as próprias mãos, geralmente usando câmeras presas à cabeça ou aos óculos. Esse tipo de dado é valioso para treinar robôs porque mostra exatamente como um ser humano manipula objetos do mundo real, na perspectiva e no ângulo que um robô bípede ou humanoide também teria ao executar a mesma tarefa.
O modelo é totalmente licenciável para uso comercial sob a licença Apache 2.0, o que significa que empresas podem usá-lo livremente em produtos comerciais, com poucas restrições legais.
Controle de Corpo Inteiro
O GR00T N1.7 suporta controle de corpo inteiro humanoide por meio da etiqueta de incorporação UNITREE_G1 e do controlador GEAR-SONIC. Nesse fluxo de trabalho, o modelo de visão-linguagem-ação prevê tokens de ação latentes compactos que um controlador de corpo inteiro aprendido decodifica em comandos de articulação completos, incluindo pernas, braços e mãos. Uma única política produz manipulação e locomoção coordenadas e condicionadas por linguagem, de ponta a ponta.
Isso significa, em termos práticos, que um único comando em linguagem natural, como “pegue aquela caixa e coloque na mesa”, pode ser traduzido pelo modelo numa sequência coordenada de movimentos envolvendo as pernas para se posicionar, os braços para alcançar e as mãos para segurar, tudo de forma sincronizada.
Ferramentas Complementares do Ecossistema Cosmos
A Nvidia não lançou apenas o modelo Cosmos 3 isoladamente. A empresa construiu um conjunto de ferramentas que cobre todo o ciclo de desenvolvimento de IA física.
O Cosmos Curator permite filtrar, anotar e deduplicar rapidamente grandes quantidades de dados de sensores. O Cosmos Evaluator permite revisar e pontuar saídas de vídeo generativo em escala. Frameworks abertos de pós-treinamento, avaliação e otimização, além de scripts de inferência e habilidades prontas, permitem que desenvolvedores construam, façam pós-treinamento ou implantem modelos de mundo rapidamente.
O que é deduplicação de dados, no contexto de treinamento de IA? É o processo de identificar e remover registros duplicados ou extremamente similares dentro de um grande conjunto de dados antes do treinamento de um modelo. Dados duplicados podem fazer com que o modelo aprenda padrões de forma desequilibrada, dando peso excessivo a cenários que aparecem repetidamente apenas por causa de redundância nos dados, em vez de relevância real para a tarefa.
Esse conjunto de ferramentas é o que permite, segundo a Nvidia, reduzir os ciclos de treinamento e avaliação de IA física de meses para dias, uma aceleração que pode transformar o ritmo de desenvolvimento de toda a indústria de robótica.

A Parceria com a TSMC: IA na Fabricação de Semicondutores
Um dos anúncios paralelos do evento, embora menos central ao Cosmos 3 em si, ilustra a amplitude da estratégia da Nvidia para a IA física: a parceria com a TSMC, a maior fabricante de chips do mundo.
A Nvidia também está levando a IA mais profundamente para a manufatura de semicondutores por meio de sua colaboração com a TSMC. A fabricante de chips está usando as bibliotecas CUDA-X e modelos de IA da Nvidia para litografia computacional, simulação de transistores, controle de processo, inspeção de wafers e agendamento de fábrica.
Isso demonstra que a aplicação de modelos como o Cosmos 3 não se limita a robôs humanoides ou carros autônomos. Os mesmos princípios de simulação física e previsão de comportamento se aplicam a processos industriais complexos, como a fabricação de chips em escala nanométrica.
O que Isso Significa Para o Futuro da Robótica
A Promessa de Acelerar o Desenvolvimento
A proposta central do Cosmos 3 é resolver um dos maiores obstáculos práticos da robótica moderna: a dificuldade e o custo de coletar dados reais suficientes para treinar sistemas robóticos seguros e capazes.
Antes de modelos de mundo como o Cosmos 3, treinar um robô para realizar uma nova tarefa exigia, com frequência, milhares de repetições físicas reais, um processo lento, custoso e que desgasta o próprio hardware do robô. Com um modelo de mundo capaz de simular cenários fisicamente realistas em escala, desenvolvedores podem gerar dados sintéticos de treinamento de forma muito mais rápida e barata, reservando os testes físicos reais para validação final.
Os Setores Mais Beneficiados
Os principais beneficiários dessa tecnologia incluem fabricantes de robôs industriais, que podem treinar braços robóticos para tarefas de manipulação complexas sem precisar de milhares de horas de operação física real; empresas de veículos autônomos, que podem simular cenários de trânsito raros e perigosos sem expor veículos reais ao risco; desenvolvedores de robôs humanoides, que se beneficiam diretamente do robô de referência Isaac GR00T e do modelo N1.7; e sistemas de visão industrial em fábricas, que podem prever comportamentos de máquinas e trabalhadores para prevenir acidentes antes que ocorram.
Os Desafios Que Ainda Restam
Apesar do avanço significativo que o Cosmos 3 representa, é importante manter uma perspectiva equilibrada sobre os desafios que ainda existem na área de IA física.
A chamada lacuna entre simulação e realidade (em inglês, “sim-to-real gap”) continua sendo um problema relevante. Mesmo com simulações fisicamente precisas, sempre existe uma diferença entre o ambiente simulado e as complexidades imprevisíveis do mundo real. Robôs treinados inteiramente em simulação ainda precisam passar por validação e ajuste fino em condições reais antes de operarem com segurança em ambientes não controlados.
O que é a lacuna entre simulação e realidade (sim-to-real gap)? É a diferença de desempenho que um robô ou sistema de IA apresenta quando treinado num ambiente simulado e depois testado no mundo físico real. Mesmo simulações muito sofisticadas não capturam perfeitamente todas as variáveis físicas reais, como atrito exato de superfícies, vibrações imperceptíveis ou condições de iluminação variáveis. Reduzir essa lacuna é um dos principais focos de pesquisa em robótica baseada em simulação.
Nvidia Aposta no Próximo Capítulo da Inteligência Artificial
O lançamento do Cosmos 3 marca um momento importante na trajetória da Nvidia. A empresa, que construiu sua posição dominante fornecendo os chips que treinam os principais modelos de linguagem do mundo, está agora se posicionando para fazer o mesmo na próxima fronteira da inteligência artificial: a que opera diretamente no mundo físico.
Ao tornar o Cosmos 3 completamente aberto, com pesos disponíveis no Hugging Face e no GitHub, a Nvidia replica a estratégia que já demonstrou eficácia com sua família de modelos Nemotron: construir um ecossistema amplo de desenvolvedores e parceiros que dependem da infraestrutura da própria Nvidia para colocar seus produtos em funcionamento.
A combinação do modelo Cosmos 3, do robô de referência Isaac GR00T, da Cosmos Coalition e das ferramentas complementares de curadoria e avaliação de dados forma um pacote completo que cobre, de ponta a ponta, o ciclo de desenvolvimento de sistemas de IA física, da simulação inicial até a implantação real.
Se a visão de Jensen Huang sobre o “big bang da IA física” se concretizar, o Cosmos 3 será lembrado como um dos catalisadores que tornaram robôs verdadeiramente capazes de entender e agir no mundo real uma realidade comercial generalizada, e não mais apenas uma promessa de laboratório.
Quer continuar acompanhando os avanços mais recentes em inteligência artificial, robótica e tecnologia de ponta? Ative as notificações do nosso blog e fique sempre por dentro das novidades que estão moldando o futuro.


