Gemini 3.5 Flash realiza tarefas sozinho ao ter acesso à sua tela

O Gemini 3.5 Flash apresentou um recurso que representa um novo avanço da inteligência artificial ao executar tarefas diretamente em computadores, navegadores e aplicativos após acessar a tela do usuário. Nesse sentido, a tecnologia interpreta elementos visuais da interface e realiza ações de forma autônoma, ampliando a automação em empresas. Sendo assim, o Google apresentou a novidade com foco em desenvolvedores e ambientes corporativos.

A capacidade do Gemini 3.5 Flash de realizar tarefas sozinho ao ter acesso à tela do usuário

O Google anunciou a integração da funcionalidade conhecida como “Computer Use” ao Gemini 3.5 Flash, o que permite que agentes de inteligência artificial visualizem a tela e executem ações diretamente em computadores.

Vale ressaltar que a novidade está disponível para desenvolvedores por meio da API do Gemini e também da plataforma Gemini Enterprise Agent. Com isso, ela oferece uma nova abordagem para automação baseada em IA.

Uma inteligência artificial que vai além das respostas em texto

Tradicionalmente, modelos de inteligência artificial eram utilizados para responder perguntas, criar conteúdos, resumir documentos ou analisar informações. Porém, com a nova funcionalidade, o Gemini 3.5 Flash passa a interagir com interfaces gráficas exatamente como uma pessoa faria.

Sendo assim, isso significa que a IA consegue identificar botões, menus, campos de preenchimento, barras de navegação e diversos elementos visuais presentes na tela para realizar ações específicas conforme a solicitação recebida.

Execução de tarefas completas

Entre as atividades que o modelo consegue desempenhar estão:

Clicar em botões;
Preencher formulários automaticamente;
Rolar páginas;
Navegar entre sistemas internos;
Interagir com aplicativos corporativos;
Executar etapas repetitivas de processos administrativos.

Ou seja, na prática, isso transforma o Gemini 3.5 Flash em um agente capaz de concluir tarefas inteiras sem depender de comandos manuais para cada etapa.

Foco inicial no ambiente empresarial

Embora a tecnologia possa futuramente alcançar diferentes públicos, o foco inicial do Google está nas empresas. As aplicações incluem:

Automação de processos internos;
Testes de software;
Processamento de documentos;
Apoio à análise de dados;
Execução de tarefas operacionais repetitivas.

Tal estratégia busca reduzir custos operacionais e aumentar a produtividade das equipes.

Evolução da estratégia do Google

O Google já vinha investindo em agentes inteligentes com recursos como o Auto Browse no Chrome Enterprise. Agora, o Computer Use amplia essa capacidade para praticamente qualquer interface gráfica, independentemente do software utilizado. Essa evolução representa um passo importante rumo a agentes de IA capazes de compreender o contexto visual de qualquer ambiente digital.

Um novo recurso é responsável por fazer com que o Gemini 3.5 Flash realize tarefas sozinho ao ter acesso à tela do usuário. | Foto: DALL-E 3

Detalhes dessa competência do Gemini 3.5 Flash

Apesar do avanço tecnológico, o Google destaca que o sistema ainda possui limitações naturais decorrentes da complexidade das interfaces digitais.

Situações que ainda representam desafios

O modelo pode encontrar dificuldades em cenários como por exemplo:

CAPTCHAs;
Janelas pop-up inesperadas;
Interfaces que mudam constantemente;
Elementos gráficos altamente dinâmicos;
Processos que exigem autenticações especiais.

Todos esses obstáculos podem interromper ou dificultar a continuidade da automação.

Confirmação humana em ações críticas

Para reduzir riscos, o Google implementou mecanismos opcionais de segurança. Dessa forma, entre eles estão:

Solicitação de confirmação antes de executar ações consideradas sensíveis;
Interrupção automática caso seja detectada uma possível tentativa de manipulação;
Barreiras adicionais durante determinadas operações.

Tais recursos podem ser configurados pelas empresas conforme o nível de segurança desejado.

Proteção contra ataques de prompt injection

Outro aspecto importante é o treinamento específico contra ataques conhecidos como prompt injection. Nesse tipo de ataque, páginas da web, documentos ou outros conteúdos escondem instruções maliciosas capazes de induzir a inteligência artificial a realizar ações diferentes das originalmente solicitadas pelo usuário.

Sendo assim, para minimizar esse risco, o Google afirma ter desenvolvido um treinamento adversário que é voltado especificamente para identificar e também bloquear esse tipo de comportamento.

Competição no mercado de agentes inteligentes

A chegada da novidade também fortalece a disputa entre as principais empresas de inteligência artificial. Nesse sentido, a Anthropic já oferece o Claude Computer Use, enquanto a OpenAI continua expandindo seus investimentos em agentes capazes de operar sistemas digitais de maneira autônoma.

Com isso, cresce a competição por soluções que vão além da geração de texto e passam a atuar diretamente sobre interfaces computacionais.

Funcionamento desse recurso do Gemini 3.5 Flash

Uma das maiores novidades é que o “Computer Use” funciona como uma camada nativa dentro do próprio Gemini 3.5 Flash. Em outras palavras, isso elimina a necessidade de utilizar modelos separados exclusivamente para automação, o que simplifica o desenvolvimento das aplicações.

Captura da tela

Todo o processo começa com a captura da imagem da tela atual. Nesse sentido, o modelo recebe essa representação visual e, a partir dela, inicia a análise dos elementos presentes na interface.

Interpretação dos componentes visuais

Após identificar o conteúdo exibido, a inteligência artificial interpreta:

Botões;
Campos de texto;
Menus;
Caixas de seleção;
Links;
Barras de navegação;
Ícones;
Janelas abertas.

Desse modo, tal compreensão permite que o modelo determine quais ações precisam ser realizadas.

Geração das ações

Com base na análise visual, o sistema cria comandos estruturados capazes de executar diferentes operações, como por exemplo:

Cliques;
Digitação;
Rolagem da página;
Seleção de menus;
Mudança entre telas.

Sendo assim, cada comando é executado exatamente na interface que está sendo visualizada.

Atualização contínua

Depois de cada ação, a tela muda. O Gemini captura novamente essa nova imagem, interpreta o resultado obtido e decide qual será o próximo passo. Esse ciclo de observar, interpretar e agir continua até que toda a tarefa seja concluída.

Execução de fluxos complexos

Graças a esse funcionamento contínuo, torna-se possível automatizar processos que envolvem diversas etapas consecutivas. Entre alguns exemplos estão:

Cadastro de informações em sistemas internos;
Atualização de planilhas online;
Navegação entre diferentes páginas corporativas;
Testes automatizados de aplicações;
Validação de formulários.

Ou seja, isso amplia significativamente o potencial de uso da inteligência artificial dentro das empresas.

Como testar essa funcionalidade do Gemini 3.5 Flash?

O Google disponibilizou diferentes recursos para que desenvolvedores possam conhecer, testar e implementar a nova tecnologia em projetos de inteligência artificial. Isso se deve ao fato de que a empresa busca facilitar a adoção do “Computer Use” desde as fases iniciais de desenvolvimento.

Sendo assim, ele está oferecendo ambientes que são preparados para experimentação, documentação técnica e ferramentas voltadas tanto para testes quanto para aplicações em escala empresarial.

Ambiente de demonstração

Uma das opções é utilizar um ambiente de demonstração oferecido em parceria com o Browserbase. Nesse espaço controlado, desenvolvedores conseguem observar como o agente interpreta a interface, identifica botões, menus e campos de formulário, além de executar diferentes ações automaticamente.

Isso permite compreender o funcionamento da ferramenta antes de integrá-la a aplicações reais. Ou seja, reduz riscos durante o desenvolvimento e facilita a criação de fluxos de automação mais eficientes.

API do Gemini

Paralelamente, outra possibilidade consiste em utilizar a API oficial do Gemini. Ela oferece os recursos necessários para incorporar o “Computer Use” em soluções empresariais, permitindo criar agentes personalizados para diferentes necessidades, como por exemplo atendimento, produtividade, operações internas e automação de processos repetitivos.

Gemini Enterprise Agent

Empresas também podem utilizar a plataforma Gemini Enterprise Agent no intuito de desenvolver fluxos completos de automação, combinando o modelo com processos internos e aplicações corporativas. A documentação oficial apresenta exemplos de implementação, boas práticas, orientações para integração e recomendações de segurança, permitindo que equipes acelerem a adoção da tecnologia com maior confiabilidade e controle operacional.

A importância da capacidade do Gemini 3.5 Flash de realizar tarefas sozinho ao ter acesso à tela do usuário

A evolução apresentada pelo Gemini 3.5 Flash é algo que representa uma mudança importante na forma como a inteligência artificial poderá ser utilizada durante os próximos anos. Nesse sentido, em vez de apenas fornecer respostas, os modelos passam a executar atividades completas em ambientes digitais, aproximando-se do conceito de agentes inteligentes.

Mais produtividade nas empresas

Tal transformação é algo que pode trazer ganhos significativos de produtividade, especialmente em tarefas repetitivas. Em outras palavras, ao automatizar operações diretamente sobre interfaces gráficas, empresas conseguem reduzir erros humanos, acelerar processos internos e liberar profissionais para atividades estratégicas.

Segurança continua sendo prioridade

Paralelamente, a adoção desse tipo de tecnologia exige atenção à segurança, privacidade e supervisão humana. Sendo assim, recursos como por exemplo confirmação em operações sensíveis e também proteção contra ataques de manipulação tornam-se fundamentais para garantir uma automação confiável.

Tendência para os próximos anos

Vale ressaltar que a expectativa é que mais organizações adotem agentes de IA capazes de executar tarefas complexas de forma autônoma, com mecanismos de controle que garantam transparência, segurança e conformidade.

Resumindo, à medida que concorrentes também investem em agentes inteligentes capazes de operar computadores, tudo indica que esse será um dos segmentos mais importantes da próxima geração da inteligência artificial. Desse modo, o Gemini 3.5 Flash surge como um dos principais protagonistas dessa nova etapa da automação digital.

Quer conferir mais novidades, recursos e atualizações sobre o Gemini 3.5 Flash? Então, continue acompanhando nosso conteúdo para ficar por dentro de tudo sobre essa nova geração de inteligência artificial.

*com uso de inteligência artificial