Per migliorare l'attuale riconoscitore su vocabolari aperti occorrerà svolgere attività sulla modellizzazione acustica (parametri acustici, rigetto di frasi non corrette, verifica della frase riconosciuta, adattamento al canale/parlatore). Occorre considerare che diversi laboratori di ricerca stanno lavorando sul riconoscimento via telefono con vocabolari di migliaia di termini, mentre la nostra tecnologia attuale permette di gestire perplessità dell'ordine delle centinaia. Questa attività è fondamentale per poter fornire alle aziende, che attualmente vendono il nostro riconoscitore, uno strumento più robusto e competitivo dell'attuale.
Si ritiene poi strategico cominciare ad affrontare il problema del dialogo, inteso come modalità di accesso a informazioni in domini molto ristretti (ad es. informazioni su orari ferroviari), permettendo all'utente di esprimersi con una certa libertà. Una limitazione dei sistemi attuali riguarda il fatto che l'utente è costretto a seguire un menu predefinito per raggiungere l'informazione che desidera. Questa ricerca è da ritenersi strategica perché i primi sistemi di dialogo stanno per arrivare sul mercato; non affrontarla significherebbe trovarsi spiazzati nel giro di pochissimi anni.
Dal punto di vista acustico sono disponibili prototipi capaci di riconoscere migliaia di parole. Ad esempio: accesso a informazioni ferroviarie in parlato continuo con un vocabolario di 3000 stazioni; riconoscimento di 8000 comuni; riconoscimento in cascata di comune, cognome, via/nome per restituire il numero di telefono di una persona scelta tra milioni di abbonati. Rimangono comunque aperti problemi a prima vista semplici, come il riconoscimento di sequenze di cifre. I dati raccolti sul campo nell'ambito del servizio "Italy Direct" ed il confronto con sistemi simili su altre lingue dimostrano come il problema del riconoscimento su linea telefonica, con utenti veri, sia ancora lontano dall'essere risolto.
Dal punto di vista dell'interazione, le recenti "olimpiadi" tenutesi a Eurospeech '97 hanno dimostrato il crescente interesse nei confronti di sistemi di dialogo, in cui l'utente è lasciato libero di prendere l'iniziativa per ottenere l'informazione che sta cercando. CSELT sta lavorando ad un prototipo di un sistema di dialogo per parlato continuo relativo a informazioni su orari ferroviari; Philips ha già in campo diverse applicazioni, operanti su lingue diverse, che fanno uso di dialogo.
In ITC-IRST sono presenti tutte le competenze necessarie ad affrontare il parlato continuo su linea telefonica; inoltre nell'ambito dei progetti C-STAR e SpeeData sono stati affrontati problemi e sviluppate soluzioni per estrarre informazioni utili da frasi complesse. Tutto questo ci pone nelle condizioni di affrontare efficacemente le tematiche proposte.
È in atto una collaborazione con la ditta AT-System di Rovereto (a sua volta agganciata a Italtel) per la fornitura di un riconoscitore di cifre e conferma commissionato da Telecom (praticamente concluso). Si parla di una possibile estensione a vocabolario variabile e/o multilingua.
È in atto una collaborazione con la ditta Alceo di Venezia, che ha prodotto un sistema in cui è integrato un nostro riconoscitore a vocabolario variabile. Tale sistema viene commercializzato dalla rete di vendita Philips.
È in atto una collaborazione con CARITRO per la realizzazione di un centralino automatico
È possibile che nel corso dell'anno vengano presi contatti per presentare una proposta di progetto alla CE.
Task T1: RICONOSCITORE.
Comprende tutti i miglioramenti acustici, intesi a perfezionare la tecnologia di riconoscimento sia per i sistemi con menu a vocabolario variabile attualmente prossimi ad una fase di commercializzazione, sia per il sistema di dialogo che si dovrà appoggiare ad un riconoscitore di parlato continuo con medio vocabolario. Parte di questa attività, prevista nel budget 1997, non è stata sviluppata per carenza di risorse.
Comprende lo studio di tecniche utilizzate nell'ambito del riconoscimento voce per modellare dialoghi; l'implementazione di una prima versione di sistema di dialogo, il cui motore acustico sia costituito da un riconoscitore di medi vocabolari in cui le informazioni salienti siano rappresentate da grammatiche costruite "a mano", sfruttando l'esperienza maturata per il data-entry in SpeeData. L'acquisizione, studio e labellizzazione di dialoghi, ottenuti utilizzando la prima versione del sistema, dovrebbero consentire quindi un affinamento del sistema.
| Ricercatori | T1 | T2 | T3 | Tot. |
| Bianca Angelini | 4 mesi | 2 mesi | 6 mesi | |
| Daniele Falavigna | 5 mesi | 3 mesi | 8 mesi | |
| Roberto Gretter | 3 mesi | 5 mesi | 2 mesi | 10 mesi |
| Totale | 8 mesi | 9 mesi | 7 mesi | 24 mesi |