Tecnologia

Astra é a resposta ‘multimodal’ da Google ao novo ChatGPT.

# O avanço impressionante da inteligência artificial multimodal: Google e OpenAI surpreendem

Recentemente, o professor assistente do MIT, Pulkit Agrawal, que trabalha com Inteligência Artificial e robótica, comentou sobre as últimas demonstrações do Google e OpenAI, revelando o rápido avanço dos modelos de IA multimodal. A OpenAI lançou o GPT-4V, um sistema capaz de interpretar imagens em setembro de 2023, surpreendendo Agrawal com a capacidade do Gemini de entender vídeos ao vivo, como alterações feitas em tempo real em um diagrama em um quadro branco. A nova versão do ChatGPT da OpenAI também parece promissora.

Agrawal ressaltou a importância das assistentes demonstradas pelo Google e OpenAI, que podem fornecer novos dados de treinamento para as empresas à medida que os usuários interagem com os modelos no mundo real. No entanto, a utilização desses assistentes ainda gera dúvidas sobre sua efetividade e aplicabilidade.

O Projeto Astra do Google, que será disponibilizado por meio de uma nova interface chamada Gemini Live, promete trazer inovações para a empresa. A capacidade do Astra poderá rejuvenescer uma versão dos óculos inteligentes Glass da empresa, mesmo diante de alguns obstáculos enfrentados até o momento na construção de hardware adequado para a IA generativa.

Brenden Lake, professor associado da Universidade de Nova York, que utiliza IA para explorar a inteligência humana, destaca que os modelos de IA atuais ainda são muito centrados na linguagem, diferentemente do aprendizado humano, que se baseia na interação com o mundo físico. Segundo Lake, o processo de criação de modelos multimodais representa um desafio em relação ao desenvolvimento infantil.

Para Demis Hassabis, da Google DeepMind, a compreensão mais profunda do mundo físico será fundamental para o progresso da IA, tornando sistemas como o Projeto Astra mais robustos. Ele acredita que o trabalho em inteligência artificial, incluindo os programas de IA para jogos da Google DeepMind, poderá ser revolucionário para a robótica, uma área na qual a Google também está investindo.

Embora os avanços da Google e OpenAI sejam impressionantes, os modelos multimodais ainda possuem limitações na compreensão do mundo físico e dos objetos nele presentes. Contudo, a busca por um agente universal multimodal representa um caminho em direção à inteligência artificial geral, um objetivo ambicioso para o futuro da tecnologia.

Este artigo foi atualizado em 14 de maio de 2024, às 16h15 EDT, para esclarecer o nome completo do projeto da Google.

Artigos relacionados

Botão Voltar ao topo