Applicazioni multimodali nei servizi interattivi

Nuovi apparati e reti di comunicazione offrono l’opportunità di migliorare l’esperienza utente e creare una nuova categoria di applicazioni che supportano in parallelo la voce e la vista.La multimodalità offre quel livello di flessibilità e adattabilità che gli utenti si aspettano e apre uno scenario nuovo e coinvolgente sia per chi progetta i sistemi sia per chi sviluppa contenuti e servizi

Lo sviluppo delle caratteristiche tecniche rende i telefoni (in
particolare quelli mobili) sempre più simili ad apparati
multimediali; vengono rese disponibili modalità di connessione
diversificate, oltre a strumenti di produttività personale e
funzionalità specifiche per l’intrattenimento. La
diffusione dei telefoni mobili è in continuo, progressivo
aumento. Secondo Itu (International Telecommunication
Union) circa il 30% della popolazione mondiale utilizza un
telefono mobile. Entro il 2010, il 60% dei telefoni mobili sarà
di tipo 3G.

Contemporaneamente, anche i telefoni di rete fissa evolvono
diventando più simili, da un punto di vista funzionale, ai
telefoni mobili. Ed è sempre più vicino il momento in cui
l’impiego del telefono in modo mobile e fisso potrà essere
disponibile attraverso lo stesso apparato.

Anche le reti di telecomunicazione evolvono sia per il fisso che
per il mobile. La velocità di connessione dati delle reti 3G è
paragonabile a quella dell’ADSL. Questo implica, oltre ad
un migliore livello di implementazione di funzionalità che
richiedono un uso significativo di trasmissione dati, come ad
esempio il video, la possibilità di accesso ad Internet
direttamente dall’apparato telefonico. Idc prevede che
oltre un miliardo di persone si connetterà ad Internet
attraverso telefoni mobili entro il 2008.

Una delle capacità chiave che spinge verso la
realizzazione di servizi interattivi sofisticati e ricchi di
caratteristiche è la connettività contemporanea in voce/video e
dati. Questo caratteristica si ritrova sia nelle reti
mobili 3G che nelle nuove reti fisse in architettura IP.

L’interazione al telefono

Ci sono essenzialmente tre modalità di interazione utente
supportati dagli attuali telefoni.

• Tastierino

• Riconoscimento vocale

• Puntare e fare clic su (point and click, browse)

Recentemente, nuovi dispositivi come le console di gioco sono
anche in grado di riconoscere gesti fisici e queste
caratteristiche potrebbero essere attuate, in futuro, anche sui
dispositivi telefonici.

In passato, gli utenti del telefono erano abituati a interagire
con i servizi di rete attraverso sequenze di tasti digitati sulla
tastiera del telefono. Alcuni dei nuovi telefoni hanno aggiunto
una tastiera completa (tipo QWERTY) che rende il compito più
semplice in alcune applicazioni (come Sms, Mms, e-mail).
Tuttavia, i tasti rimangono piccoli e fastidiosi da usare e
c’è anche il problema del “BlackBerry thumb”
di cui preoccuparsi.

La maggior parte delle persone preferirebbe piuttosto dire ciò
che vuole, invece di lottare con i tasti. La voce è un grande
strumento per chiedere informazioni e la tecnologia di
riconoscimento vocale è oggi utilizzabile in modo affidabile. Ma
la voce funziona bene per dare comandi, non per ricevere
informazioni. Quando la necessità è quella di
“cogliere” informazione è più facile per un essere
umano guardare e leggere. Quindi, è chiaro che la strada
principale è quella di utilizzare sia la voce che la vista per
meglio interagire. Quando le due vie di comunicazione
sono supportate contemporaneamente sul dispositivo/rete, possiamo
dire che abbiamo a che fare con servizi di interazione
multimodale.

L’interazione multimodale

Il supporto per la connettività simultanea di voce e dati
permette di costruire applicazioni innovative che abilitano
l’esperienza multimodale degli utenti.

Inoltre, una vera applicazione multimodale dovrebbe consentire
all’utente di rispondere attraverso l’interfaccia
più adatta per il passo e il contesto di interazione.

Ad esempio, consideriamo un’applicazione che utilizza, come
interfacce, la voce come schermo e tastiera. L’utente
sceglierà di solito l’interfaccia più efficace per lo
specifico passo d’interazione: fare una richiesta a voce
per evitare un’eccessiva digitazione; “click”
su un elenco o una mappa sullo schermo invece di ascolto di
lunghe descrizioni delle opzioni disponibili. Tuttavia, va
osservato che il contesto di interazione può influenzare
notevolmente la scelta delle interfacce: un utente può essere
riluttante a fare richieste a voce mentre si trova in un luogo
affollato e digitare può essere un’apprezzata alternativa.
D’altro canto, di solito è difficile concentrarsi su uno
schermo mentre si cammina; mentre si è alla guida l’uso
della tastiera potrebbe essere illegale e dovrebbe essere
generalmente evitato – una richiesta vocale diventa una scelta
migliore.

La chiave per l’interazione multimodale efficace è
l’effettiva sincronizzazione delle modalità
supportate, che deve essere garantita
dall’architettura software della piattaforma runtime che
controlla l’esecuzione dei servizi applicativi.

Un ulteriore elemento è rappresentato dalla possibilità di
personalizzare l’applicazione in modo tale da rendere
significativamente migliore l’efficacia
dell’interazione ed il gradimento dell’esperienza da
parte del chiamante. Ciò può essere ulteriormente rafforzato
integrando nelle regole di personalizzazione i fattori di
presenza e localizzazione. La mobilità del chiamante è una
nuova dimensione con le sue proprie specifiche sfide ed
opportunità.

La progettazione delle applicazioni

Applicazioni IVR (Interactive Voice Response) ben progettate
rendono disponibili con successo servizi critici ed accesso 24/7
per i clienti. I miglioramenti nelle tecnologie di riconoscimento
vocale e di comprensione del linguaggio naturale consentono di
implementare un fluido flusso di conversazione tra sistema e
chiamante anziché costringere alla navigazione di estesi menù a
cascata dei classici IVR “premi 1 per …, premi 2 per
…”.

La multimodalità, la grafica e la connettività dati ad alta
velocità dei nuovi dispositivi permettono ai progettisti di
aggiungere un fattore di miglioramento per le loro applicazioni.
La comunicazione visiva coinvolge nuovi sensi ed aumenta
significativamente il flusso di informazioni. Date le
possibilità e l’esperienza utente fornite da queste nuove
tecnologie, possiamo anche immaginare che più utenti
preferiranno interagire con applicazioni self-service, piuttosto
che parlare con gli operatori del call center. Una ben
progettata combinazione di interfacce vocali e visive renderà
l’esperienza interattiva del chiamante più efficiente e
soddisfacente.

Un buona progettazione dell’interazione è un elemento
fondamentale per una implementazione di successo di
un’applicazione multimodale. Le principali considerazioni
di progettazione sono elencate qui di seguito.

• Scegliere la modalità

Dove possibile, all’utente dovrebbe sempre essere data una
scelta di modalità di interazione. Il design non deve
costringere ad usare una modalità, né deve necessariamente
richiedere o consentire l’uso di tutte le modalità.

Le scelte dell’utente saranno guidate dalle informazioni
presentate, le preferenze dell’utente, le competenze e
l’ambiente. L’ambiente e i fattori di situazione
possono evidenziare le carenze dell’interfaccia utente e
impedire all’utente di completare le interazioni.

• Sfruttare le caratteristiche della modalità
selezionata

Il design, per ogni modalità, dovrebbe sfruttare pienamente le
corrispondenti capacità tecniche e fornire la migliore
interfaccia possibile.

Per esempio, un’interfaccia vocale che semplicemente itera
attraverso elementi visivi è inferiore a quella basata su
grammatiche multi-slot e dialoghi a iniziativa mista. Invece di
una sequenza di domande dirette e relativa risposta,
l’utente sarà in grado di pronunciare frasi più complesse
con più contenuti (dati) informativi.

Sebbene la presentazione visiva dovrebbe aiutare l’utente a
dire le cose giuste, il layout dello schermo non deve
limitare il flusso di conversazione vocale in alcun modo. Le
modalità di progetto devono sostenersi reciprocamente senza
compromettere i loro specifici benefici ed efficienze.

• Ottimizzare la presentazione delle
informazioni

I contenuti presentati attraverso ciascuna delle modalità
previste dovrebbero essere complementari. Ad esempio, lo schermo
può presentare l’elenco degli oggetti/ elementi, mentre la
voce può limitarsi a dire il numero dell’item da
selezionare. Questa asimmetria minimizza la ridondanza di
informazioni, pur indicando la disponibilità di più modalità.
Inoltre, l’utente può scegliere di rispondere selezionando
un oggetto sullo schermo o chiedendo in voce per avere maggiori
informazioni.

• Sincronizzare presentazione e input

Le presentazioni attraverso diverse modalità devono essere
strettamente sincronizzate.

Se i cambiamenti non avvengono in modo tempestivo, l’utente
potrebbe pensare che l’errore sia da parte sua o che si
tratti di un errore del sistema. In entrambi i casi potrebbe
interrompere l’interazione ed avere un’impressione
negativa del servizio. Il tempestivo feedback positivo
all’utente nel corso di tutta l’applicazione è
fondamentale sia per la fluidità della conversazione
sia per la percezione dell’utente di comunicare
efficacemente con il sistema.

L’applicazione ha un limitato controllo sulla
temporizzazione del canale dati e le diverse modalità possono
andare fuori sincronizzazione. L’applicazione deve essere
progettata per supportare il recupero da situazioni di questo
tipo. L’utente può rispondere attraverso molteplici
canali. A seconda del contesto del dialogo, i singoli input
possono essere elementi di un input utente complesso costituito
da modalità multiple. Ad esempio, un utente potrebbe puntare a
un elemento grafico e pronunciare un comando vocale. La semantica
dei singoli input deve essere presa in esame per discriminare tra
input compositi validi ed errori dell’utente.

• Arricchire la funzione di interazione

Utilizzare la tecnologia degli avatar può trasportare
l’esperienza utente in uno scenario di call center
virtuale; l’avatar può essere personalizzato per
l’ambiente applicativo e adattato al contesto.

L’esperienza utente con l’applicazione, la situazione
fisica e le preferenze possono incidere sul livello di
interfaccia/aiuto necessari per l’utente.

Un buon design deve prendere in considerazione tutti questi
fattori per determinare il livello adeguato di assistenza da
fornire all’utente.

• Consapevolezza della situazione attuale

La consapevolezza della situazione e delle attività di un utente
è in grado di aiutare l’applicazione a
regolare/sintonizzare correttamente l’interfaccia.

Ad esempio, l’utente dovrebbe essere in grado di effettuare
una dichiarazione esplicita (“sono alla guida” o
“sono in riunione”) per guidare l’adattamento
dell’interfaccia.

L’applicazione può anche ottenere indizi dalle
informazioni di presenza e localizzazione, nonché dal livello di
rumore attraverso il motore di riconoscimento vocale.

In futuro sono attesi telefoni capaci di rilevare il movimento
fisico e l’orientamento. Quindi, l’applicazione sarà
in grado di “capire” che può iniziare a
“parlare” quando l’utente mantiene il telefono
in basso o quando sta camminando.

La soluzione applicativa è il risultato di un mix di
tecnologie, regole logiche, informazioni ed attori virtuali (vedi
schema sotto).

Le applicazioni multimodali rendono le interazioni più
efficienti ed arricchiscono l’esperienza, ma la loro
struttura interna è molto complessa. L’architettura
generale consente il partizionamento della logica applicativa in
un insieme di moduli cooperanti. Questo, a sua volta, offre
opportunità per il riutilizzo del codice e migliora la
manutenibilità dell’applicazione.

Anche il test di applicazioni richiede nuovi approcci. Ci sarà
bisogno di portare la nostra applicazione fuori dal laboratorio e
provarla negli ambienti del mondo reale. La valutazione delle
modalità da parte dell’utente cambia a seconda del
contesto fisico in cui si trova, soprattutto per gli utenti
mobili. La folla, il rumore, la luce, il movimento e altri
fattori ambientali possono influenzare notevolmente
l’utilizzabilità e le prestazioni delle applicazioni. I
servizi andranno testati durante la guida, camminando a piedi o
seduti ad un caffè.

Le tecnologie mobili disponibili

La funzionalità di interazione multimodale descritta dipende
dalla disponibilità di connessioni voce e dati
simultanee. Questa capacità è disponibile sulle reti 3G
GSM, che usano la tecnologia UMTS (Universal Mobile
Telecommunications System) che, a sua volta, usa
l’interfaccia radio W-CDMA (Wideband Code Division Multiple
Access). Molte reti 3G GSM implementano anche il protocollo HSDPA
(High-Speed Downlink Packet Access) per aumentare la velocità
del downlink, ridurre la latenza ed aumentare la capacità grazie
ad una migliore efficienza di spettro. A marzo 2007, esistevano
già 98 operatori 3G HSDPA GSM in 52 nazioni.

Alcuni telefoni supportano anche Wi-Fi e possono mantenere
connessioni dati su LAN (local area network) durante
l’esecuzione di chiamate vocali. Questo permette
funzionalità multimodali contemporanee nell’ambito di spot
Wi-Fi. La futura adozione di WiMAX (anche, talvolta, definito 4G)
estenderà la dimensione dello spot e diminuirà le
limitazioni/vincoli dell’approccio wireless LAN.

Esempi di applicazioni già realizzate

Interactive Media ha avuto la possibilità di impiegare i propri
sistemi per alcuni servizi video innovativi quali, ad esempio, le
recenti implementazioni di video televoto su rete fissa Telecom
Italia in occasione del Festival di San Remo ed i servizi 3G
dell’operatore Personal (Paraguay) che guidano gli utenti
all’utilizzo delle nuove tecnologie video disponibili sulla
rete mobile, offrendo altresì, come primo esempio operativo, il
servizio di video mail.

Nel primo caso, ovvero il video televoto da videotelefoni di rete
fissa per il Festival di Sanremo, l’applicazione permette
di scegliere attraverso un menu il cantante da votare e, una
volta effettuata la votazione, può essere visualizzato un
filmato del cantante prescelto. Questo tipo di applicazione è
replicabile per qualsiasi tipo di televoto, collegando al
personaggio prescelto uno o più contenuti multimediali
selezionabili a scelta del chiamante; il servizio può ovviamente
essere reso disponibile anche su rete mobile.

Nel caso di Personal, invece, la realizzazione è stata più
articolata e sofisticata: i sistemi IVVR (Interactive Voice and
Video Response) e Video Mail di Interactive Media sono stati
integrati con i sistemi MSC, SMSC e Media Gateway
dell’operatore per offrire diversi servizi informativi ed
operativi; come esempio di integrazione si può citare
l’invio di una notifica Sms al destinatario ogni volta che
un nuovo videomessaggio viene depositato nella relativa casella
video mail; l’interfaccia di integrazione si basa su un web
service.

L’implementazione iniziale è stata articolata in due
servizi principali.

• 3.5G Video Portal

Il servizio è raggiungibile attraverso una numerazione speciale
(*xyxy). Il cliente viene informato sui vantaggi del 3.5G:
cos’è il 3G, le connessione Internet a banda larga, la
videocomunicazione. Il portale 3.5G (giochi e contenuti) viene
presentato con una sezione specifica dedicata alle promozioni ed
offerte speciali; infine, è possibile accedere a video clip e
contenuti multimediali (canzoni, filmati TV,…).

• Video Mail

Il servizio Video Mail Drop permette di lasciare un video
messaggio per il chiamato: l’MSC dirotta a Interactive
Media IVVR la chiamata se il chiamato non risponde dopo un certo
numero di squilli, se non è raggiungibile, se è occupato o se
rifiuta la videochiamata. Con Video Mail Check, tramite accesso
rapido (una numerazione *xyz) si accede alla propria video
mailbox; si può navigare tra i propri video messaggi,
visualizzarli, cancellarli ed accedere alla sezione
personalizzazione per impostare il messaggio di benvenuto ed i
vari parametri (PIN code,…).

La buona notizia è che mentre nel caso del video televoto
l’implementazione ha richiesto alcuni giorni di lavoro, nel
caso dei servizi 3G e video mail il lavoro di installazione,
integrazione e personalizzazione è stato svolto dai tecnici di
Interactive Media nell’arco di una settimana
(dall’installazione del sistema, allo sviluppo e
personalizzazione dei servizi, all’integrazione di MSC,
SMSC e Media Gateway): questo testimonia che la flessibilità e
la rapidità di deployment di IVVR rappresenta un effettivo
vantaggio competitivo per gli utilizzatori, siano essi network o
service provider.

Le implementazioni descritte poggiano sul Solutions Framework di
Interactive Media e sulla piattaforma Meltemi, che forniscono un
ambiente robusto ed efficiente per lo sviluppo ed esecuzione di
servizi interattivi innovativi sia per le reti mobili che per
quelle fisse. Meltemi è un ambiente server-based basato su
standard e include, oltre al motore applicativo, gli strumenti di
gestione, amministrazione e reporting necessari per un efficace
esercizio del sistema.

Applicazioni multimodali nei servizi interattivi

Articoli correlati

CPU nei sistemi Linux: i comandi utili per controllarne le informazioni

CentOS 7 al capolinea: come gestire rapidamente la transizione per evitare rischi e vulnerabilità

Codice Rss

Codice Rss