back to Project management
back to DITELO

Progetto: DITELO (DIalogo su TELefonO)

Responsabile: Roberto Gretter

Obiettivi

Questo progetto ha l'obiettivo di realizzare sistemi che consentano di gestire interazioni flessibili per accedere ad informazioni in domini ristretti, mediante il riconoscimento automatico della voce su linea telefonica. L'attività degli anni scorsi ha consentito di integrare tecnologie di riconoscimento e di dialogo, permettendo di fornire soluzioni per una vasta gamma di applicazioni telefoniche. Durante il 1999 sono stati migliorati i prototipi di sistemi di dialogo su linea telefonica (centralino automatico, accesso ad orari ferroviari) e ne sono stati realizzati altri (riconoscimento di grandi vocabolari, accesso ad informazioni turistiche). Sono continuate due commesse, VOX e ATP, iniziate nel 1998 e finanziate da entità esterne, entrambe incentrate sulla realizzazione di sistemi / prototipi di dialogo per l'accesso ad informazioni. È stata realizzata una tecnologia ritenuta da diverse aziende, attive nel mercato dei Call-Centers, migliore di altre soluzioni attualmente disponibili. Negli anni passati ci siamo resi conto che per ottenere un impatto significativo sul mercato della tecnologia di riconoscimento vocale è necessario sviluppare e fornire alle aziende interessate delle interfacce di programmazione standard. Questo tipo di attività è già stato parzialmente affrontato (implementazione di oggetti OCX per il sistema operativo WindowsNT nell'ambito del progetto VOX), ma si ritiene strategico sviluppare librerie di interfaccia compatibili con gli standard più diffusi nel mondo (ad esempio JavaSpeech). Inoltre, la possibilità di accedere via telefono a servizi presenti nel WEB, l'evoluzione della telefonia mobile (telefonini dotati di visore) ed il proliferare di linguaggi che arricchiscono HTML con funzionalità vocali suggeriscono di investire in tale ambito. Accanto a questi fattori occorre migliorare la tecnologia di base, indispensabile per rimanere competitivi. Si ritiene strategico sia continuare attività già impostate, come l'introduzione di una misura di confidenza delle ipotesi di riconoscimento o l'integrazione di modelli statistici nelle grammatiche di dialogo e il miglioramento dei modelli acustici, sia affrontare tematiche nuove come l'introduzione nel sistema della funzione di barge-in, ovvero la possibilità di interrompere il sistema mentre sta parlando. Al fine di irrobustire la tecnologia e di migliorarne le prestazioni è di fondamentale importanza utilizzare per l'affinamento dei modelli acustici nuove basi di dati, anche di bassa qualità. Sono attualmente disponibili registrazioni di notiziari (una decina di ore circa) trascritte manualmente. Invece, l'acquisizione di nuove basi dati per il progetto è strettamente legata all'andamento delle attuali commesse industriali e di quelle in fase di definizione.

Collocazione rispetto alla programmazione pluriennale del centro

Il progetto, continuazione dei progetti Tecnologie vocali per il telefonico (1996), Pronto (1997) e DITELO (1998-1999), si colloca nell'area del riconoscimento del parlato all'interno della divisione Sistemi Sensoriali Interattivi.

Posizionamento rispetto allo stato dell'arte e ai principali progetti europei e nazionali di riferimento

Il dialogo uomo-macchina su linea telefonica sta diventando una realtà di mercato, sulla quale stanno investendo tutte le grandi multinazionali che operano nel settore delle telecomunicazioni. Se da una parte la tecnologia va ulteriormente raffinata, dall'altra si stanno rendendo disponibili sistemi e interfacce di programmazione che permettono di gestire interazioni ad iniziativa mista (cioè, l'utilizzatore può prendere il controllo del dialogo quando vuole). Quasi tutti i centri di ricerca hanno messo a punto sistemi basati su dialogo; i più avanzati, dopo aver costruito ed affinato dei servizi reali, hanno raccolto una considerevole quantità di interazioni sul campo sulle quali possono fornire le prestazioni di riconoscimento. Per quanto riguarda lo stato dell'arte, CSELT ha realizzato un prototipo di dialogo per parlato continuo relativo a informazioni su orari ferroviari, che potrebbe essere messo in campo tra breve (attualmente è in linea un sistema a menu); Philips ha già in campo diverse applicazioni, operanti su lingue diverse, che fanno uso di dialogo. Lernout & Hauspie (associata a Microsoft) attualmente commercializza un pacchetto di librerie e degli strumenti di sviluppo che permettono di realizzare applicazioni telefoniche multilingua; tuttavia le prestazioni per l'italiano non sembrano essere molto soddisfacenti. Per essere competitivi con i maggiori centri, almeno per la lingua italiana, risulta abbastanza evidente la necessità di investire in tecnologie di dialogo vocale.

Collaborazioni

Nell'ambito della commessa VOX si collaborerà principalmente con l'azienda Alceo s.r.l. di Venezia, che si occupa dello sviluppo di servizi telefonici automatici. Nella commessa TAL si collaborerà con CSELT per la definizione di specifiche software. Sono attivi alcuni contatti con aziende italiane che sviluppano prodotti per telefonia (Vocal Search, Selfin). Tali aziende si sono dette interessate ad integrare la nostra tecnologia di riconoscimento nei loro prodotti. È in fase di definizione la possibilità di collaborare con SUN Microsystem Italia per rendere compatibile l'interfaccia al server di riconoscimento I.R.S.T. (Spinet) con il protocollo JavaSpeech. È possibile che venga attivata una collaborazione di ricerca con AT&T finalizzata a scambiarsi conoscenze e/o dati anche attraverso visite periodiche di ricercatori.

Tempi e fasi di esecuzione e risultati previsti

L'attività del progetto per il prossimo anno si articola su alcuni task principali, fortemente interallacciati tra loro per quanto riguarda le attività. I miglioramenti ottenuti saranno da un lato integrati nelle demo attuali, dall'altro resi disponibili alle aziende interessate. I temi principali che verranno affrontati sono i seguenti. Task T1: RICERCA DI BASE.

Questo task sarà principalmente orientato all'irrobustimento dell'attuale tecnologia. I miglioramenti ottenuti nei verranno integrati appena possibile nel sistema. In particolare saranno sviluppati i seguenti punti:

Task T2: commessa VOX (filone call-center).

Ha lo scopo di realizzare un sistema prototipale per l'accesso ad informazioni via telefono, in linguaggio naturale, nell'ambito di domini limitati. Si focalizzerà l'attenzione sia su tematiche tese a sviluppare la tecnologia di base, sia sull'acquisizione di dati per l'affinamento dei diversi moduli. Per ulteriori dettagli si rimanda al documento di progetto.

Task T3: commessa TAL. Definizione di specifiche software per: API di riconoscimento ed API di dialogo. Sviluppo di API di riconoscimento. Task T4: Tecnologia. Questo task sarà orientato allo sviluppo di interfacce standard (per esempio JavaSpeech) verso il server di riconoscimento. Tali interfacce sono indispensabili per integrare la nostra tecnologia di riconoscimento in diversi prodotti commerciali. Nell'ambito di questo task verranno anche definiti e valutati protocolli emergenti (basati ad esempio su XML) che consentono l'accesso a servizi WEB tramite il telefono.