back to Project management
back to DITELO

Progetto: DITELO (DIalogo su TELefonO)

Responsabile: Roberto Gretter

Obiettivi

Questo progetto ha l'obiettivo di realizzare sistemi di accesso ad informazioni mediante il riconoscimento automatico della voce su linea telefonica. Durante il 1997 è stato fornito a Telecom Italia un riconoscitore di sequenze di cifre e conferme per i servizi "Italy Direct" e "170", ed è cominciata una collaborazione con la ditta Alceo per la fornitura di un riconoscitore a vocabolario variabile. Il servizio "Italy Direct", che gestisce in maniera automatica migliaia di trasferimenti di chiamata al giorno, ha permesso di acquisire una notevole esperienza sulle problematiche relative alla variabilità degli utenti, che potrà essere sfruttata nell'ambito di questo progetto. Durante il 1998 si vuole concentrare l'attività di ricerca su due temi principali: il miglioramento del riconoscitore acustico e l'uso di sistemi di dialogo per il reperimento di informazioni via telefono.

Per migliorare l'attuale riconoscitore su vocabolari aperti occorrerà svolgere attività sulla modellizzazione acustica (parametri acustici, rigetto di frasi non corrette, verifica della frase riconosciuta, adattamento al canale/parlatore). Occorre considerare che diversi laboratori di ricerca stanno lavorando sul riconoscimento via telefono con vocabolari di migliaia di termini, mentre la nostra tecnologia attuale permette di gestire perplessità dell'ordine delle centinaia. Questa attività è fondamentale per poter fornire alle aziende, che attualmente vendono il nostro riconoscitore, uno strumento più robusto e competitivo dell'attuale.

Si ritiene poi strategico cominciare ad affrontare il problema del dialogo, inteso come modalità di accesso a informazioni in domini molto ristretti (ad es. informazioni su orari ferroviari), permettendo all'utente di esprimersi con una certa libertà. Una limitazione dei sistemi attuali riguarda il fatto che l'utente è costretto a seguire un menu predefinito per raggiungere l'informazione che desidera. Questa ricerca è da ritenersi strategica perché i primi sistemi di dialogo stanno per arrivare sul mercato; non affrontarla significherebbe trovarsi spiazzati nel giro di pochissimi anni.

Stato dell'arte

Il riconoscimento del parlato su linea telefonica è sempre più una realtà. I paesi più attivi in questo senso sono USA, Francia, Germania. Il focus della ricerca non è più tanto sulle problematiche acustiche (comunque importanti), quanto sul fatto che gli utenti possano interagire con sistemi più "intelligenti" e flessibili, capaci in qualche modo di reagire positivamente a utenti più o meno "intraprendenti". Si parla a questo proposito di sistemi di dialogo ad iniziativa mista.

Dal punto di vista acustico sono disponibili prototipi capaci di riconoscere migliaia di parole. Ad esempio: accesso a informazioni ferroviarie in parlato continuo con un vocabolario di 3000 stazioni; riconoscimento di 8000 comuni; riconoscimento in cascata di comune, cognome, via/nome per restituire il numero di telefono di una persona scelta tra milioni di abbonati. Rimangono comunque aperti problemi a prima vista semplici, come il riconoscimento di sequenze di cifre. I dati raccolti sul campo nell'ambito del servizio "Italy Direct" ed il confronto con sistemi simili su altre lingue dimostrano come il problema del riconoscimento su linea telefonica, con utenti veri, sia ancora lontano dall'essere risolto.

Dal punto di vista dell'interazione, le recenti "olimpiadi" tenutesi a Eurospeech '97 hanno dimostrato il crescente interesse nei confronti di sistemi di dialogo, in cui l'utente è lasciato libero di prendere l'iniziativa per ottenere l'informazione che sta cercando. CSELT sta lavorando ad un prototipo di un sistema di dialogo per parlato continuo relativo a informazioni su orari ferroviari; Philips ha già in campo diverse applicazioni, operanti su lingue diverse, che fanno uso di dialogo.

In ITC-IRST sono presenti tutte le competenze necessarie ad affrontare il parlato continuo su linea telefonica; inoltre nell'ambito dei progetti C-STAR e SpeeData sono stati affrontati problemi e sviluppate soluzioni per estrarre informazioni utili da frasi complesse. Tutto questo ci pone nelle condizioni di affrontare efficacemente le tematiche proposte.

Collocazione rispetto alla programmazione pluriennale del centro

Il progetto, continuazione dei progetti "Tecnologie vocali per il telefonico" e "Pronto", si colloca nell'area del riconoscimento del parlato all'interno della divisione Sistemi Sensoriali Interattivi.

Collaborazioni

Nell'ambito dei progetti che si occupano di riconoscimento vocale, come negli anni scorsi sarà possibile una certa condivisione di conoscenze e risorse su problematiche simili.

È in atto una collaborazione con la ditta AT-System di Rovereto (a sua volta agganciata a Italtel) per la fornitura di un riconoscitore di cifre e conferma commissionato da Telecom (praticamente concluso). Si parla di una possibile estensione a vocabolario variabile e/o multilingua.

È in atto una collaborazione con la ditta Alceo di Venezia, che ha prodotto un sistema in cui è integrato un nostro riconoscitore a vocabolario variabile. Tale sistema viene commercializzato dalla rete di vendita Philips.

È in atto una collaborazione con CARITRO per la realizzazione di un centralino automatico

È possibile che nel corso dell'anno vengano presi contatti per presentare una proposta di progetto alla CE.

Fasi di esecuzione

L'attività si articola su tre tasks principali:

Task T1: RICONOSCITORE.

Comprende tutti i miglioramenti acustici, intesi a perfezionare la tecnologia di riconoscimento sia per i sistemi con menu a vocabolario variabile attualmente prossimi ad una fase di commercializzazione, sia per il sistema di dialogo che si dovrà appoggiare ad un riconoscitore di parlato continuo con medio vocabolario. Parte di questa attività, prevista nel budget 1997, non è stata sviluppata per carenza di risorse.

Task T2: DIALOGO.

Comprende lo studio di tecniche utilizzate nell'ambito del riconoscimento voce per modellare dialoghi; l'implementazione di una prima versione di sistema di dialogo, il cui motore acustico sia costituito da un riconoscitore di medi vocabolari in cui le informazioni salienti siano rappresentate da grammatiche costruite "a mano", sfruttando l'esperienza maturata per il data-entry in SpeeData. L'acquisizione, studio e labellizzazione di dialoghi, ottenuti utilizzando la prima versione del sistema, dovrebbero consentire quindi un affinamento del sistema.

Task T3: COMMESSE E SISTEMI

Milestones:

Risorse impegnate

Le risorse previste sono a fronte degli impegni attuali. Per quanto riguarda i sistemi / prototipi non contemplati in questo budget; l'eventuale loro accettazione è subordinata ad una ripianificazione delle risorse.
 
 
Ricercatori T1  T2  T3  Tot.
Bianca Angelini 4 mesi 2 mesi 6 mesi
Daniele Falavigna 5 mesi 3 mesi 8 mesi
Roberto Gretter 3 mesi 5 mesi 2 mesi 10 mesi
Totale 8 mesi 9 mesi 7 mesi 24 mesi
Inoltre sarà presente un consulente junior: Anita Castellani (8 mesi su T2, 4 mesi su T3).

Forme di finanziamento

Commesse finanziate da committenti esterni (CARITRO, AT-SYSTEM); royalties su licenze di riconoscitori venduti (ALCEO). Il ricavo atteso è di Lit. 70.000.000.

Main Events

La sperimentazione col prototipo del sistema di dialogo permetterà di capire come potremo collocarci rispetto ad una tecnologia emergente.