back to Project
management
back to DITELO
Progetto: DITELO (DIalogo su TELefonO)
Responsabile: Roberto Gretter
Obiettivi
Questo progetto ha l'obiettivo di realizzare sistemi che
consentano di gestire interazioni flessibili per accedere ad informazioni
in domini ristretti, mediante il riconoscimento automatico della voce su
linea telefonica. L'attività degli anni scorsi ha consentito di
integrare tecnologie di riconoscimento e di dialogo, permettendo di fornire
soluzioni per una vasta gamma di applicazioni telefoniche. Durante il 1999
sono stati migliorati i prototipi di sistemi di dialogo su linea telefonica
(centralino automatico, accesso ad orari ferroviari) e ne sono stati realizzati
altri (riconoscimento di grandi vocabolari, accesso ad informazioni turistiche).
Sono continuate due commesse, VOX e ATP, iniziate nel 1998 e finanziate
da entità esterne, entrambe incentrate sulla realizzazione di sistemi
/ prototipi di dialogo per l'accesso ad informazioni. È stata realizzata
una tecnologia ritenuta da diverse aziende, attive nel mercato dei Call-Centers,
migliore di altre soluzioni attualmente disponibili. Negli anni passati
ci siamo resi conto che per ottenere un impatto significativo sul mercato
della tecnologia di riconoscimento vocale è necessario sviluppare
e fornire alle aziende interessate delle interfacce di programmazione standard.
Questo tipo di attività è già stato parzialmente affrontato
(implementazione di oggetti OCX per il sistema operativo WindowsNT nell'ambito
del progetto VOX), ma si ritiene strategico sviluppare librerie di interfaccia
compatibili con gli standard più diffusi nel mondo (ad esempio JavaSpeech).
Inoltre, la possibilità di accedere via telefono a servizi presenti
nel WEB, l'evoluzione della telefonia mobile (telefonini dotati di visore)
ed il proliferare di linguaggi che arricchiscono HTML con funzionalità
vocali suggeriscono di investire in tale ambito. Accanto a questi fattori
occorre migliorare la tecnologia di base, indispensabile per rimanere competitivi.
Si ritiene strategico sia continuare attività già impostate,
come l'introduzione di una misura di confidenza delle ipotesi di riconoscimento
o l'integrazione di modelli statistici nelle grammatiche di dialogo e il
miglioramento dei modelli acustici, sia affrontare tematiche nuove come
l'introduzione nel sistema della funzione di barge-in, ovvero la
possibilità di interrompere il sistema mentre sta parlando. Al fine
di irrobustire la tecnologia e di migliorarne le prestazioni è di
fondamentale importanza utilizzare per l'affinamento dei modelli acustici
nuove basi di dati, anche di bassa qualità. Sono attualmente disponibili
registrazioni di notiziari (una decina di ore circa) trascritte manualmente.
Invece, l'acquisizione di nuove basi dati per il progetto è strettamente
legata all'andamento delle attuali commesse industriali e di quelle in
fase di definizione.
Collocazione rispetto alla programmazione pluriennale del
centro
Il progetto, continuazione dei progetti Tecnologie vocali
per il telefonico (1996), Pronto (1997) e DITELO (1998-1999), si colloca
nell'area del riconoscimento del parlato all'interno della divisione Sistemi
Sensoriali Interattivi.
Posizionamento rispetto allo stato dell'arte e ai principali
progetti europei e nazionali di riferimento
Il dialogo uomo-macchina su linea telefonica sta diventando
una realtà di mercato, sulla quale stanno investendo tutte le grandi
multinazionali che operano nel settore delle telecomunicazioni. Se da una
parte la tecnologia va ulteriormente raffinata, dall'altra si stanno rendendo
disponibili sistemi e interfacce di programmazione che permettono di gestire
interazioni ad iniziativa mista (cioè, l'utilizzatore può
prendere il controllo del dialogo quando vuole). Quasi tutti i centri di
ricerca hanno messo a punto sistemi basati su dialogo; i più avanzati,
dopo aver costruito ed affinato dei servizi reali, hanno raccolto una considerevole
quantità di interazioni sul campo sulle quali possono fornire le
prestazioni di riconoscimento. Per quanto riguarda lo stato dell'arte,
CSELT ha realizzato un prototipo di dialogo per parlato continuo relativo
a informazioni su orari ferroviari, che potrebbe essere messo in campo
tra breve (attualmente è in linea un sistema a menu); Philips ha
già in campo diverse applicazioni, operanti su lingue diverse, che
fanno uso di dialogo. Lernout & Hauspie (associata a Microsoft) attualmente
commercializza un pacchetto di librerie e degli strumenti di sviluppo che
permettono di realizzare applicazioni telefoniche multilingua; tuttavia
le prestazioni per l'italiano non sembrano essere molto soddisfacenti.
Per essere competitivi con i maggiori centri, almeno per la lingua italiana,
risulta abbastanza evidente la necessità di investire in tecnologie
di dialogo vocale.
Collaborazioni
Nell'ambito della commessa VOX si collaborerà principalmente
con l'azienda Alceo s.r.l. di Venezia, che si occupa dello sviluppo di
servizi telefonici automatici. Nella commessa TAL si collaborerà
con CSELT per la definizione di specifiche software. Sono attivi alcuni
contatti con aziende italiane che sviluppano prodotti per telefonia (Vocal
Search, Selfin). Tali aziende si sono dette interessate ad integrare la
nostra tecnologia di riconoscimento nei loro prodotti. È in fase
di definizione la possibilità di collaborare con SUN Microsystem
Italia per rendere compatibile l'interfaccia al server di riconoscimento
I.R.S.T. (Spinet) con il protocollo JavaSpeech. È possibile che
venga attivata una collaborazione di ricerca con AT&T finalizzata a
scambiarsi conoscenze e/o dati anche attraverso visite periodiche di ricercatori.
Tempi e fasi di esecuzione e risultati previsti
L'attività del progetto per il prossimo anno si articola
su alcuni task principali, fortemente interallacciati tra loro per quanto
riguarda le attività. I miglioramenti ottenuti saranno da un lato
integrati nelle demo attuali, dall'altro resi disponibili alle aziende
interessate. I temi principali che verranno affrontati sono i seguenti.
-
Robustezza acustica. Si ritiene importante migliorare l'accuratezza
del riconoscitore, al fine di soddisfare le esigenze sempre crescenti richieste
da un sistema di dialogo.
-
Barge-in. Si vuole dare all'utente la possibilità
di interrompere il sistema mentre sta parlando.
-
Verifica/confidenza. Questa attività, iniziata nel
1999 e interrotta per problemi di risorse, è ritenuta strategica
e dovrà essere ripresa. In una applicazione di dialogo telefonico,
in cui il chiamante deve fornire informazioni, è quasi sempre necessario
che il sistema chieda all'utente di confermare i dati riconosciuti sino
ad un certo istante. Si vogliono pertanto studiare e valutare delle tecniche
che consentano di gestire al meglio la fase di conferma dei dati.
-
Modelli del linguaggio per dialogo. Si vuole integrare un'informazione
linguistica di tipo statistico (bigrammi di parole) nella struttura di
reti ricorsive attualmente utilizzate dai prototipi di dialogo, per migliorare
le prestazioni del riconoscitore.
-
Implementazione di librerie di interfaccia (ad esempio per
gli ambienti Java e/o CT-Access) e definizione di protocolli di accesso
al WEB tramite telefono (ad esempio usando il Linguaggio XML). Questa attività
ha come scopo principale poter fornire ad aziende interessate la nostra
tecnologia, minimizzando gli sforzi di integrazione.
Task T1: RICERCA DI BASE.
Questo task sarà principalmente orientato all'irrobustimento
dell'attuale tecnologia. I miglioramenti ottenuti nei verranno integrati
appena possibile nel sistema. In particolare saranno sviluppati i seguenti
punti:
-
T1.1: Robustezza;
-
T1.2: Barge-in;
-
T1.3: Verifica/Dialogo.
Task T2: commessa VOX (filone call-center).
Ha lo scopo di realizzare un sistema prototipale per l'accesso
ad informazioni via telefono, in linguaggio naturale, nell'ambito di domini
limitati. Si focalizzerà l'attenzione sia su tematiche tese a sviluppare
la tecnologia di base, sia sull'acquisizione di dati per l'affinamento
dei diversi moduli. Per ulteriori dettagli si rimanda al documento di progetto.
-
T2.1: consegna prototipo finale.
Task T3: commessa TAL. Definizione di specifiche software
per: API di riconoscimento ed API di dialogo. Sviluppo di API di riconoscimento.
-
T3.1: Realizzazione di API di riconoscimento.
-
T3.2: Integrazione delle risorse di riconoscimento in un
ambiente grafico adatto a generare applicazioni di dialogo. Questa attivita`
consistera`, essenzialmente, nel fornire supporto necessario a CSELT e
alle aziende coinvolte nel progetto TAL.
Task T4: Tecnologia. Questo task sarà orientato
allo sviluppo di interfacce standard (per esempio JavaSpeech) verso il
server di riconoscimento. Tali interfacce sono indispensabili per integrare
la nostra tecnologia di riconoscimento in diversi prodotti commerciali.
Nell'ambito di questo task verranno anche definiti e valutati protocolli
emergenti (basati ad esempio su XML) che consentono l'accesso a servizi
WEB tramite il telefono.
-
T4.1: Sviluppo dell'interfaccia JavaSpeech.
-
T4.2: Definizione e sviluppo di protocolli per Internet.
Milestones:
-
T1:
-
1 maggio 2000 - prima versione barge-in funzionante in demo
interna.
-
1 settembre 2000 - prima versione modulo di verifica integrato
in demo interna.
-
T2:
-
1 marzo 2000 - consegna prototipo finale;
-
T3:
-
1 giugno 2000 - realizzazione API di riconoscimento secondo
quanto convenuto in TAL.
-
T4:
-
1 giugno 2000 - prima release di API di riconoscimento compatibile
con il formato JavaSpeech.
Risorse impegnate (in mesi-uomo)
| Ricercatori |
T1 |
T2 |
T3 |
T4 |
Tot. |
| Falavigna Daniele |
|
|
9 |
3 |
12 |
| Gretter Roberto |
4 |
2 |
6 |
|
12 |
| Lazzari Gianni |
|
|
1 |
|
1 |
| Orlandi Marco |
|
|
11 |
1 |
12 |
| Totale |
4 |
2 |
27 |
4 |
37 |
| Giordani Dimitri |
|
|
|
2 |
2 |
| Tot. complessivo |
4 |
2 |
27 |
6 |
39 |
Forme di finanziamento
La commessa VOX porterà nel 2000 131 milioni di Lit
(IVA compresa); la commessa TAL dovrebbe portare circa 84 milioni di Lit.;
si ipotizza un rientro anche in base al numero di licenze vendute.
Main Events
Per il task T1 si segnala la realizzazione di una demo con
barge-in (1 maggio 2000); per il task T2 si segnala la consegna del prototipo
di dialogo finale (1 marzo 2000). Per il task T4 si segnala la realizzazione
dell'interfaccia JavaSpeech per giugno 2000.