O VP do Google provoca o futuro multimodal do Gemini Já vi coisas realmente incríveis.

O VP do Google desafia o futuro multimodal do Gemini Prepare-se para coisas incríveis!

  • O Google está se movendo rápido para lançar seu novo modelo de IA e colocá-lo no Bard.
  • O chefe do Bard e do Assistente da empresa fala sobre trabalhar com um “novo ingrediente mágico”.
  • Ela também discutiu como a empresa está repensando o futuro do Google Assistente.

Tem muita pressão em cima do Google agora.

A empresa está prestes a lançar o Gemini, seu novo e altamente aguardado modelo de linguagem grande, que será comparado de perto ao GPT-4 da OpenAI.

O Gemini será multimodal, ou seja, será capaz de entender e produzir texto, imagens e outros tipos de conteúdo. O CEO Sundar Pichai insinuou que ele também será melhor em planejamento, enquanto o CEO da DeepMind, Demis Hassabis, disse à Wired que o Gemini está sendo treinado usando técnicas que alimentaram seu programa AlphaGo, que derrotou o melhor jogador humano de Go em 2016.

Uma pessoa chave no meio disso tudo é Sissie Hsiao, VP e gerente geral do Bard e Google Assistente do Google. Ela também é membro da lista inaugural da AI 100 da Insider.

Hsiao não faz parte da equipe que está construindo o Gemini – uma coalizão recém-formada da DeepMind e da unidade Brain do Google – mas é responsável por alguns dos principais produtos que darão aos usuários acesso a esses novos sistemas de IA.

“Eu já vi coisas muito incríveis”, disse Hsiao. “Por exemplo, estou tentando assar um bolo, desenhe para mim 3 imagens dos passos de como confeitar um bolo de três camadas, e o Gemini realmente criará essas imagens.”

“Estas são imagens completamente novas. Não são imagens da internet”, acrescentou. “Ele é capaz de se comunicar em imagens com os humanos, não apenas em texto.”

Dizer que o Google precisa que o Gemini seja um sucesso é um eufemismo. A OpenAI anunciou recentemente a terceira iteração de seu gerador de arte visual, o DALL-E, e atualizou o ChatGPT para ter acesso a informações mais atualizadas (até agora, ele não tinha acesso a dados sobre qualquer coisa que aconteceu após setembro de 2021).

Se o Gemini impressionar, ajudará o Google a mudar a narrativa de que foi pego de surpresa pela Microsoft e pela OpenAI. Se decepcionar, dará mais força aos críticos que dizem que o Google ficou para trás.

O gigante das buscas foi honesto desde o início sobre as limitações do Bard, e ainda se refere a ele como um “experimento”. O chatbot tem sido alvo de críticas por produzir desinformação. Recentemente, a equipe de Hsiao introduziu um recurso que destaca informações que o Bard suspeita que possam não ser precisas.

Hsiao, como a maioria dos executivos do Google no momento, adora dizer que o Google está sendo “ousado e responsável”, mas também reconheceu que as coisas dentro da empresa estão se movendo “incrivelmente rápido” e disse que a equipe do Bard se sente como uma “startup” no momento.

“Parece que nos meus primeiros um ou dois anos no Google”, disse ela. “Parece que o começo está acontecendo novamente.”

“As pessoas me perguntam: ‘A empolgação é real?’ Eu não acho que seja empolgação, acho que é real”, ela diz. “Porque eu trabalho com a tecnologia todos os dias.”

“É como se um novo ingrediente mágico tivesse aparecido”

Sissie Hsiao no palco do Google I/O 2023
Josh Edelson/Getty

Hsiao ingressou no Google em 2006 como gerente de produto em busca de imagens e Google Docs. A partir daí, ela passou por vários cargos nos produtos de publicidade do Google.

“Depois de fazer isso por alguns anos, eu realmente olhei e disse: ‘Qual é o produto mais inovador do Google para trabalhar, que ainda não foi resolvido?'”, disse ela. A resposta foi o Google Assistant, e em 2021 o Google reorganizou sua equipe de pesquisa para colocar Hsiao no comando do assistente de voz.

Hsiao disse que queria trabalhar em algo que “juntasse pesquisa inovadora com uma visão inovadora de um futuro que ainda não existe”.

As equipes do Bard e do Assistant foram fundidas no início deste ano sob a liderança de Hsiao, e estamos começando a entender o motivo: o Google anunciou recentemente que o Bard está sendo integrado ao Assistant em dispositivos móveis, logo após a Amazon revelar um novo e mais poderoso Alexa.

O Assistant com Bard, como o Google está chamando, irá combinar os poderes de inteligência artificial generativa do Bard com as habilidades úteis do assistente de voz. Sua chegada também sugere que a empresa está repensando o que o Assistant – que tem estagnado nos últimos anos – realmente é na era dos poderosos LLMs.

“Estamos nos afastando da voz como a modalidade principal”, disse Hsiao sobre a recente atualização do Assistant, que permitirá aos usuários interagir com ele usando texto, voz e imagens.

Se o Google planeja reformular a experiência em alto-falantes inteligentes ainda não se sabe. “Ainda estamos explorando”, disse Hsiao. “É cedo demais para dizer definitivamente se será útil ou não”.

Embora os chatbots e os modelos de linguagem avançados tenham impressionado os usuários, ainda há dúvidas sobre se esses sistemas de IA serão realmente úteis a longo prazo. A vantagem do Google aqui é sua variedade de aplicativos já populares, como Gmail, Docs e Maps, nos quais ele pode inserir as habilidades subjacentes de IA.

Hsiao acredita que o Bard em si tem valor como um produto a longo prazo. “É a expressão mais livre do grande modelo de linguagem”, disse ela ao Insider. “Há um certo encanto em ser uma caixa simples, porque dentro dessa caixa você pode pedir para ela fazer qualquer coisa”.

Ela também acredita que essa nova tecnologia pode ser tanto um produto de IA independente quanto algo que é incorporado a outros produtos.

O Assistant com Bard pode ser um meio do Google provar isso, mas ainda é cedo para dizer – e a equipe de Hsiao, assim como muitas dentro do Google no momento, está se movendo rapidamente para experimentar e encontrar maneiras de inserir IA de maneiras não apenas chamativas, mas genuinamente úteis.

“É como se um novo ingrediente mágico tivesse aparecido”, disse ela, “e você está tentando descobrir o que ele pode fazer”.