La lettera “o” in GPT-4o, il modello di intelligenza artificiale annunciato da OpenAI lo scorso maggio, significa “omni”, e indica un nuovo, sostanziale progresso tecnologico verso la AI generativa multimodale. Rispetto alle precedenti versioni di GPT, numerosi video esemplificativi sulla pagina web dedicata mostrano l’abilità impressionante di GPT-4o nel conversare vocalmente con le persone: il modello risponde in tempo reale, e con estrema naturalezza, a input vocali e visivi. Percepisce il tono di voce degli interlocutori, interpreta gesti ed espressioni facciali, e, a seconda di ciò che sente e vede, è in grado di esprimere emozioni, cantare, generare frasi scherzose o risate.
Attualità
AI generativa multimodale: l’evoluzione continua (e prepara la strada alla AGI)
A meno di due anni dall’introduzione sul mercato del chatbot ChatGPT, l’intelligenza artificiale sta rapidamente evolvendosi, e sviluppando capacità multisensoriali. La AI e la GenAI multimodali promettono di migliorare la versatilità di utilizzo di queste tecnologie in molti campi applicativi.
Giornalista

Continua a leggere questo articolo
Argomenti
Canali
Speciale Digital Awards e CIOsumm.it