EL HABLA


> abordando la idea de mi instalación, me encontré con el primer problema: reconocimiento automático del habla (ASR). Tiene (en principio) dos complicaciones: por un lado encontrar un software con la menor tasa de errores posibles, y por otro poder integrar el resultado de texto dentro del programa que administrará la base de datos que diseñe.

Buscando ayuda para resolver esta primer problemática, encontré esta materia optativa de la carrera Ciencias de la Computación, dictada en Ciudad Universitaria, Pabellón I:

Procesamiento del Habla 
Profesor: Agustín Gravano
El procesamiento del habla tiene como objetivo manejar computacionalmente el lenguaje oral: extraer información de la señal acústica (p.ej.: palabras, emociones, características del hablante) y también producir y modificar señales de habla. Gracias a los avances de las últimas décadas, las tecnologías del habla han ido incorporándose gradualmente a nuestra vida cotidiana. Ejemplos de ello son los sistemas de dictado automático, los sistemas de diálogo y las interfaces multimodales. Estas tecnologías presentan un pobre desarrollo en nuestro país y en Latinoamérica; en ese sentido, esta materia intentará fomentar el desarrollo y la investigación de tecnologías locales. Asimismo, dado que esta rama de la Inteligencia Artificial posee fuerte interacción con disciplinas como la Lingüística, la Fonética, la Física y las Neurociencias, esta materia presentará a los alumnos nuevos enfoques en la resolución de problemas, fomentando la interdisciplinariedad y la apertura hacia otras concepciones de la Ciencia.

Enotnces me contacté con el docente: el día Lunes 10-07 tenemos un encunetro en el Laboratorio Turing del Pabellón I, para profundizar sobre el proyecto por un lado, así como también para ver si existe algún alumno interesado en colaborar en mi proyecto.

Dejo aquí lo que el Prof. Agustín Gravano respondió a mi consulta:


"Veamos, das en el clavo al señalar la dificultad de transcribir las palabras de la voz humana. Es una tarea difícil, llamada formalmente "reconocimiento automático del habla" (en inglés, automatic speech recognition. o ASR). Pese a grandes avances en los últimos años, la tasa de errores (palabras mal reconocidas) sigue siendo muy alta en condiciones poco favorables: habla espontánea (es decir, no leída ni preparada de antemano), con mucho ruido de fondo, y en un dominio abierto (sin restricciones respecto de qué se puede decir).
Estas dificultades, si no se manejan bien, podrían comprometer seriamente tu instalación. Imaginate que si alguien cuenta que le gustaba "visitar a los abuelos" y reconoce "vigilar a los sabuesos", sería cómico/triste el resultado.
Dicho esto, lo que te sugiero es que pruebes la función de dictado que viene en los smartphones. La conocés? En Android, por ejemplo, es un iconito de micrófono al lado del teclado, que te permite dictar. Con eso podés evaluar la tasa de errores que tiene, tratando de simular lo mejor que puedas a lo que diría la gente en tu instalación, y darte una idea de si podría funcionar o no.
Si te parece que sí, entonces hay varios servicios de ASR para español "latino" que son bastante baratos (salen centavos para volumenes chicos), ofrecidos por empresas grandes como Microsoft, IBM, Google o Amazon.
Si eso te sirviera, no es difícil de programar de modo de poder pasarle los resultados al resto de tu instalación. Podría ayudarte a buscar algún alumno de la licenciatura de computación a quien le cope la idea y te quiera ayudar."

Comentarios

Entradas populares