Engenharia

Gemini Robotics-ER 1.6: Elevando o Raciocínio Robótico Embodied

Desvendando o Raciocínio Embodied com Gemini Robotics-ER 1.6

Como Engenheiro de Software Sênior e Arquiteto de Soluções na AITY, tenho o prazer de compartilhar uma inovação que redefine a capacidade dos robôs de interagir com o mundo físico: o Gemini Robotics-ER 1.6. Para que os robôs se tornem verdadeiramente úteis em nosso cotidiano e na indústria, eles precisam ir além de seguir instruções, necessitam raciocinar sobre o ambiente físico. Essa habilidade, que chamamos de "raciocínio embodied", é a ponte entre a inteligência digital e a ação física, essencial para tarefas que vão desde a navegação em instalações complexas até a interpretação de indicadores em medidores de pressão.

O Gemini Robotics-ER 1.6 representa uma atualização significativa para um modelo que prioriza o raciocínio, permitindo que os robôs compreendam seus ambientes com uma precisão sem precedentes. Ao aprimorar o raciocínio espacial e a compreensão multi-visão, estamos desbloqueando um novo nível de autonomia para a próxima geração de agentes físicos.

Capacidades Chave do Gemini Robotics-ER 1.6

Este modelo é especializado em capacidades de raciocínio cruciais para a robótica:

Atuando como o modelo de raciocínio de alto nível, o Gemini Robotics-ER 1.6 pode executar tarefas invocando nativamente ferramentas como o Google Search para encontrar informações, modelos de visão-linguagem-ação (VLAs) ou quaisquer outras funções de terceiros definidas pelo usuário. Ele demonstra uma melhoria significativa em relação às versões anteriores, Gemini Robotics-ER 1.5 e Gemini 3.0 Flash, especialmente no aprimoramento das capacidades de raciocínio espacial e físico, como apontar, contar e detectar sucesso. Também introduz uma nova capacidade vital: a leitura de instrumentos, desenvolvida em colaboração com nosso parceiro, Boston Dynamics.

Apontamento: A Base do Raciocínio Espacial

O apontamento é uma capacidade fundamental para um modelo de raciocínio embodied, evoluindo a cada geração do modelo. Pontos podem ser usados para expressar diversos conceitos:

O Gemini Robotics-ER 1.6 pode usar pontos como etapas intermediárias para raciocinar sobre tarefas mais complexas. Por exemplo, ele pode usar pontos para contar itens em uma imagem, ou para identificar pontos salientes em uma imagem para ajudar o modelo a realizar operações matemáticas e melhorar suas estimativas métricas.

Detecção de Sucesso: O Motor da Autonomia

Na robótica, saber quando uma tarefa está finalizada é tão importante quanto saber como iniciá-la. A detecção de sucesso é a pedra angular da autonomia, servindo como um motor crítico de tomada de decisões que permite a um agente escolher inteligentemente entre tentar novamente uma tentativa falha ou progredir para a próxima etapa de um plano.

Alcançar a compreensão visual na robótica é um desafio, exigindo percepção sofisticada e capacidades de raciocínio combinadas com amplo conhecimento do mundo para lidar com fatores complicadores como oclusões, pouca iluminação e instruções ambíguas. Além disso, a maioria das configurações robóticas modernas inclui múltiplas vistas de câmera, como um feed aéreo e um acoplado ao pulso. Isso significa que um sistema precisa entender como diferentes pontos de vista se combinam para formar uma imagem coerente em cada momento e ao longo do tempo. O Gemini Robotics-ER 1.6 avança no raciocínio multi-visão, permitindo que o sistema compreenda melhor múltiplos fluxos de câmera e a relação entre eles, mesmo em ambientes dinâmicos ou ocluídos.

Leitura de Instrumentos: Raciocínio Visual no Mundo Real

Para entender uma força-chave do Gemini Robotics-ER 1.6, devemos analisar como ele combina capacidades como raciocínio espacial e conhecimento do mundo para resolver problemas complexos e do mundo real. Um exemplo perfeito é a leitura de instrumentos, uma tarefa que surgiu das necessidades de inspeção de instalações, uma área de foco crítica para nossos parceiros da Boston Dynamics.

Instalações industriais contêm muitos instrumentos – termômetros, manômetros, visores de nível de produtos químicos e muito mais – que exigem monitoramento constante. O Spot, um robô da Boston Dynamics, é capaz de visitar os instrumentos em toda a instalação e capturar imagens deles. A leitura de instrumentos requer um raciocínio visual complexo. É preciso perceber com precisão uma variedade de entradas — incluindo ponteiros, níveis de líquido, limites do recipiente, marcas de escala e muito mais — e entender como todos se relacionam entre si. No caso de visores de nível, isso envolve estimar o quanto o líquido preenche o visor, levando em conta a distorção da perspectiva da câmera. Medidores geralmente têm texto descrevendo a unidade, que deve ser lida e interpretada, e alguns têm múltiplos ponteiros que se referem a diferentes casas decimais que precisam ser combinadas.

O Gemini Robotics-ER 1.6 alcança suas leituras de instrumentos altamente precisas usando visão agentic, que combina raciocínio visual com execução de código. O modelo toma etapas intermediárias: primeiro, ampliando uma imagem para obter uma leitura melhor de pequenos detalhes em um medidor, depois usando apontamento e execução de código para estimar proporções e intervalos e obter uma leitura precisa, e finalmente aplicando seu conhecimento de mundo para interpretar o significado.

Nosso Modelo Robótico Mais Seguro Até Agora

A segurança é integrada em todos os níveis de nossos modelos de raciocínio embodied. O Gemini Robotics-ER 1.6 é nosso modelo robótico mais seguro até o momento, demonstrando conformidade superior com as políticas de segurança da Gemini em tarefas de raciocínio espacial adversárias em comparação com todas as gerações anteriores.

O modelo também mostra uma capacidade substancialmente aprimorada de aderir a restrições de segurança física. Por exemplo, ele toma decisões mais seguras por meio de saídas espaciais como apontamento em relação a quais objetos podem ser manipulados com segurança sob restrições de garra ou material (ex: “não manusear líquidos”, “não pegar objetos mais pesados que 20kg”). Também testamos o quão bem o modelo identifica riscos de segurança em cenários de texto e vídeo baseados em relatórios de acidentes da vida real. Nessas tarefas, nossos modelos Gemini Robotics-ER melhoram o desempenho base do Gemini 3.0 Flash (+6% em texto, +10% em vídeo) na percepção precisa de riscos de lesões.

Disponibilidade e Colaboração

A partir de hoje, o Gemini Robotics-ER 1.6 está disponível para desenvolvedores via Gemini API e Google AI Studio. Para ajudar você a começar, estamos compartilhando um Colab para desenvolvedores contendo exemplos de como configurar o modelo e prompt para tarefas de raciocínio embodied.

Estamos comprometidos em garantir que o Gemini Robotics-ER forneça o máximo valor à comunidade de robótica. Se as capacidades atuais forem limitadas para sua aplicação especializada, convidamos você a enviar este formulário com 10 a 50 imagens rotuladas ilustrando modos de falha específicos para nos ajudar a construir recursos de raciocínio mais robustos. Esperamos colaborar com você para aprimorar essas capacidades em nossos próximos lançamentos.

O Impacto Prático na Automação Inteligente

As inovações do Gemini Robotics-ER 1.6, como o raciocínio espacial aprimorado, a detecção de sucesso autônoma e a capacidade de leitura precisa de instrumentos, representam um avanço fundamental para a robótica. Para empresas como a AITY e nossos clientes, isso significa robôs mais autônomos, seguros e capazes de executar tarefas complexas com precisão inigualável em ambientes dinâmicos e desafiadores. Podemos esperar uma aceleração na adoção de soluções robóticas em setores críticos, onde a automação inteligente não apenas otimiza operações, mas também eleva os padrões de segurança e eficiência.

Comentários

Interações
Seu Perfil

Aguardando Login...