Il meglio di Domus direttamente nella tua mail!

Come sta andando Overviews, la ricerca di Google con AI?

Tra allucinazioni come la ricetta della pizza con la colla, errori di valutazione e il rischio di cannibalizzare il web, questa tecnologia potrebbe creare più problemi di quelli che ambisce a risolvere.

“Google googlerà per voi”. Il lancio di AI Overviews – la nuova funzionalità del motore di ricerca basata su intelligenza artificiale – è avvenuto durante la conferenza I/O dello scorso maggio ed è stato accompagnato da questa promessa (in inglese, “Google will do the googling for you”): niente più faticose ricerche compiute districandoci tra contenuti di pessima qualità, rintracciando il paragrafo che ci serve tra testi chilometrici o smarrendoci nei labirintici thread di Reddit.

Grazie all’integrazione del large language model (Llm) di Google – chiamato Gemini e che genera contenuti di ogni tipo rispondendo a nostre richieste formulate in linguaggio naturale – sarà sufficiente porre una domanda per ricevere un testo che riassume le informazioni per noi, liberandoci per l’appunto dall’incombenza di dover cercare, filtrare, trovare ciò che ci serve.

Questa, almeno, era la promessa. Come previsto da più o meno tutti gli addetti ai lavori, le cose non sono andate secondo le speranze del colosso di Mountain View. Nel giro di pochi giorni, hanno infatti iniziato a moltiplicarsi le testimonianze degli incredibili errori commessi da AI Overviews che, per fare solo pochi esempi, ha consigliato a un utente di aggiungere della colla alla pizza, a un altro di mangiare almeno un sasso al giorno e poi ha fornito informazioni relative alla religione musulmana di Barack Obama (che è invece cristiano protestante) e altre assurdità.

Come funziona Overviews

Per capire perché il sistema che dovrebbe “googlare” per noi invece attenti alla nostra salute e confermi le teorie dell’ultradestra statunitense bisogna prima fare un passo indietro. Come funziona un sistema come AI Overviews? Alla sua base, un large language model è un algoritmo di intelligenza artificiale addestrato attraverso un dataset che contiene una quantità immensa di testi (per esempio, l’intera Wikipedia in lingua inglese, gli articoli delle più note testate del mondo, tutti i contenuti presenti su Reddit e altro ancora).

Analizzando questa mole di testi, il large language model impara a generare testi, prevedendo quale parola abbia la maggior probabilità di essere coerente con quella che l’ha preceduta (per esempio, che la frase “porto il cane” debba essere probabilmente seguita da “a fare” e poi “una passeggiata”). In tutto ciò, però, l’intelligenza artificiale non ha nessuna idea di cosa sia un cane, una passeggiata o di cosa significhi il verbo “fare”. Si limita invece a eseguire un calcolo statistico basato su una quantità immensa di informazioni.

Un nuovo Gemini

Google ha annunciato l'aggiornamento del modello multimodale Gemini 1.5 Pro che, secondo l'azienda, migliorerà le capacità di ragionamento, traduzione e generazione di codice del sistema. L'azienda ha anche presentato Gemini 1.5 Flash, un modello potente quanto il Gemini principale ma più efficiente e destinato a "compiti ristretti, a bassa latenza e ad alta frequenza" come la ricerca in locale sui dispositivi.

Ask Photos

Quest'estate Google introdurrà una nuova funzione in Google Foto che consentirà a Gemini di passare al setaccio le foto degli utenti e di rispondere alle richieste basandosi sull'analisi del contenuto visivo delle immagini. Durante una dimostrazione, il CEO di Google Sundar Pichai ha chiesto a Gemini quale fosse la sua targa e il modello ha risposto estraendo un'immagine della targa stessa dalla sua libreria di foto. Notevole, ma dubitiamo che si trattasse della vera targa di Pichai.

Le nuove funzioni AI di Google

Courtesy Google

Google Lens con i video

Google ha aggiornato Google Lens per consentire la ricerca tramite video oltre alla già nota funzionalità di ricerca a partire da un’immagine. Gli utenti possono registrare un video del soggetto di cui vogliono sapere di più e porre una domanda con la voce durante il video. I modelli di Google interpretano il contenuto video e audio per fornire una risposta contestuale e pertinente basata sui risultati di Google Search.

Project Astra

Project Astra è un nuovo assistente AI avanzato progettato per funzionare come un assistente virtuale onnicomprensivo. Dispone di capacità multimodali per osservare e interpretare le immagini attraverso la fotocamera del dispositivo, tenere traccia degli oggetti ed eseguire compiti per l'utente. Con Project Astra Google spera di creare un agente completamente funzionale, in grado di comunicare con gli utenti e di eseguire azioni al posto loro.

Veo

Veo è un nuovo modello di generazione video che compete direttamente con Sora di OpenAI. Il modello è in grado di produrre filmati a 1080p sulla base di input video, fotografici o testuali e con molti stili diversi, dalle riprese aeree ai timelapse. L'azienda ha già iniziato a offrire Veo ad alcuni creatori selezionati su YouTube.