Root NationNotiziaGiornale informaticoMicrosoft ha presentato un approccio multimodale che apre la strada all’intelligenza artificiale a livello umano

Microsoft ha presentato un approccio multimodale che apre la strada all’intelligenza artificiale a livello umano

-

All'inizio di questa settimana, i ricercatori di Microsoft ha presentato Kosmos-1, un modello di intelligenza artificiale multimodale in grado di analizzare immagini per contenuto, risolvere enigmi visivi, eseguire il riconoscimento visivo del testo, eseguire test del QI visivo e comprendere le istruzioni del linguaggio naturale. Secondo i ricercatori, tali modelli di intelligenza artificiale rappresentano il primo passo verso la creazione di un’intelligenza artificiale generale (AI) in grado di svolgere compiti congiunti a livello umano. Cioè, questa tecnologia sarà in grado di sostituire una persona in qualsiasi compito intellettuale. E questo è l'obiettivo dichiarato di OpenAI, un partner commerciale fondamentale Microsoft nel campo dell’intelligenza artificiale.

Cosmo-1

In questo caso, Kosmos-1 è uno sviluppo puramente personale dell'azienda Microsoft. I ricercatori chiamano la loro creazione un "modello linguistico ampio multimodale" (MLLM) perché le sue radici risiedono nell'elaborazione del linguaggio naturale di solo testo come LLM, come ChatGPT. Affinché il modello accetti le immagini di input, i ricercatori devono prima convertire le immagini in una serie speciale di token (principalmente testo) che il LLM possa comprendere.

Cosmo-1

Kosmos-1 è stato addestrato su un database da Internet, inclusi estratti da The Pile (una risorsa di testo in lingua inglese da 800 GB) e Common Crawl. Il modello è stato poi testato con diversi test per la comprensione del parlato, la generazione del parlato, la classificazione del testo senza riconoscimento ottico dei caratteri, la didascalia delle immagini, la risposta visiva alle domande, la risposta alle domande delle pagine web e la classificazione delle immagini con localizzazione. Secondo Microsoft, Kosmos-1 ha sovraperformato i modelli attuali in molti di questi test.

Cosmo-1

Particolarmente interessante è stato il test di Raven's Progressive Reasoning, che misura il QI visivo presentando una sequenza di forme e chiedendo al soggetto di completare la sequenza. Kosmos-1 è stato in grado di dare la risposta corretta nel 22% dei casi.

Cosmo-1

Questi primi passi, che con l'ottimizzazione futura, potrebbero portare a risultati ancora più significativi, consentendo ai modelli di intelligenza artificiale di percepire e influenzare qualsiasi forma di media, ampliando notevolmente le capacità degli assistenti artificiali.

Leggi anche:

Iscrizione
Avvisare su
ospite

0 Commenti
Recensioni incorporate
Visualizza tutti i commenti