Tra i tanti interventi tenuti durante il Google I/O 2017 Daniel Padgett, Conversation Designer Lead di Google, si è distinto presentando le soluzioni per una corretta progettazione di UX associata alla Voice Interaction. Come abbiamo accennato altre volte, anche il modello di conversazione di Google sembra prendere spunto dalle serie tv di fantascienza quali Star Trek e Star Wars. Nelle serie viene spesso previsto il futuro dell’interazione uomo-macchina, ma come questo sia realmente realizzabile è sempre una sfida. Il nome di questa sfida è Conversation Design: ovvero il risultato del rapporto tra le persone e l’intelligenza artificiale.
Si potrebbe definirlo anche la pratica che conduce a un’esperienza immersiva arricchita dalle cose che vediamo, che possiamo sentire e toccare in un determinato contesto. Obiettivo del Conversation Design è quindi dialogare con le persone allo scopo di capire le attività che compiono abitualmente per raggiungere un obiettivo, i loro interessi e le loro aspettative in un dato contesto.
Con questa riflessione Padgett aiuta a ragionare su quanto sia articolato l’apprendimento (machine learning) delle intelligenze artificiali per capire cosa le persone desiderano fare; qual è il risultato che si aspettano dalle azioni che compiono e quindi i feedback che si aspettano di ricevere dai dispositivi e dall’ambiente in generale.
Nello specifico, la sfida di Google si basa su alcuni principi del Voice Interaction che non corrispondano al tradizionale design di interfacce desktop o mobile:
- Zero UI.
- Velocità.
- Semplicità.
- Ubiquità.
- Linguaggio.
- Apprendimento.
Zero UI
Come abbiamo anticipato in Interfacce, Anno Zero, gli assistenti vocali non hanno una interfaccia utente grafica.
Velocità
I comandi vocali sono estremamente veloci rispetto alle interfacce classiche. Niente icone, schermi, gesti, testo. Tutto si traduce in una domanda diretta: Che tempo fa a Springfield?
La sfida dei comandi vocali è trovare la migliore risposta a seconda della persona che la chiede. Come spiega Padgett, l’intelligenza artificiale dovrebbe sapere se la persona che pone la domanda è di Springfield o no, se è interessata a passare una vacanza a Springfield ma soprattutto sapere di quale Springfield sta chiedendo.
Semplicità
Partendo dal presupposto che le persone hanno un dispositivo con un microfono, una connessione Internet e la capacità di porre domande a voce, progettare soluzioni e buone esperienze di voice interactions significa, e dovrà significare, offrire la possibilità di dire quello che si vuole e erogare una risposta pertinente.
Aggiungiamo che non bisogna dimenticare i risultati raggiunti in ambito di accessibilità, documentati dal World Wide Web Consortium, riguardo i comandi vocali. La ricerca ha investito in questi anni nella progettazione di soluzioni che abbattessero le barriere architettoniche e di interazione uomo-macchina. La voice interaction sarà una possibile strada per aiutare e semplificare la vita delle persone.
Ubiquità
Essere sempre in ascolto e apprendere dalle conversazioni precedenti. L’apprendimento costante del machine learning è garantito dal sempre più alto numero di device sparsi nell’ambiente. Un esempio è Google Assistant, l’ambizioso progetto di Google che include Google Allo e Google Home.
Attraverso la presenza di questi device, sempre pronti a rispondere ai comandi eseguiti dopo la frase OK Google, le persone vengono sempre più definite (o profilate) apprendendo i loro interessi, le loro abitudini, i loro spostamenti e le loro relazioni con altre persone a seconda del luogo in cui si trovano. Questo permette in misura crescente di anticipare i nostri desideri e rispondere puntualmente alle nostre domande.
Linguaggio
Parlare in linguaggio naturale è un altro valore importante. Una delle soluzioni per migliorare l’apprendimento delle intelligenze artificiali è porre domande per migliorare la risposta alla richiesta dell’utente.
Come nell’esempio posto da Daniel Padgett, alla richiesta Play Yesterday l’intelligenza artificiale non risponderà con la canzone dei Beatles ma chiederà alla persona se intende la canzone, il film, la playlist ascoltata ieri e intitolata “Yesterday” o il videogioco. La prossima volta che le verrà chiesto “Play Yesterday”, l’intelligenza avrà un indizio in più. Chi sia già abituato ai comandi vocali di Google Assistant presenti negli smartphone, conoscerà la tipica domanda di Google alla richiesta chiama Laura:
Hai 3 contatti in rubrica associati al nome “Laura”. Quale vuoi chiamare?
Apprendimento
A questo punto possiamo estrapolare l’assunto principe del modello del linguaggio rivolto alla progettazione del Conversation Design: riconoscere cosa gli utenti dicono e capire cosa gli utenti intendono dire. Così:
- Usare il linguaggio naturale.
- Porre domande facili.
- Elaborare le informazioni in modo che siano facili da ritrovare.
E inoltre:
- Capire cosa gli utenti dicono.
- Capire cosa gli utenti intendono dire.
Queste probabilmente sono le sfide più difficili. Daniel Padgett suggerisce di non avere paura di porre domande per capire meglio la risposta, ricordando le scelte dell’utente per la volta successiva. Questa è la parte più complessa dell’apprendimento del Conversation Design. Conservare i dettagli sarà straordinariamente utile per semplificare le interazioni del futuro e interpretare meglio le future richieste dell’utente.
- Contesto.
Bisogna ricordare che gli utenti hanno le mani occupate, gli occhi occupati, compiono azioni in multitasking, vivono in uno spazio privato (e confortevole). Per questo motivo gli utenti hanno una bassa tolleranza agli errori ed alte aspettative. L’intelligenza artificiale deve continuamente tendere a semplificare l’interazione.
Per chi sviluppa, non possiamo dimenticare due altri interventi di Google I/O 2017 riguardo i comandi vocali e Google Assistant:
- Bringing the Google Assistant to Any Device di Chris Ramsdale e Glen Shires.
- Building Apps for the Google Assistant di Brad Abrams (Product Manager Google).