Un estudio publicado el pasado lunes, anunciado como un logro histórico por Microsoft, detalla una nueva tecnología de reconocimiento de voz que es capaz de transcribir el habla conversacional al mismo nivel que los humanos -- o al menos, como un transcriptor profesional (que es mejor que la mayoría de las personas).
La tecnología obtuvo una tasa de error por palabra (WER) del 5,9%, que fue inferior al 6,3% del reportado el mes pasado. “Es el más bajo jamás registrado respecto al Conmutador? standard en la industria de reconocimiento de voz“, ha informado Microsoft. La tasa fue la misma (o incluso más baja) que los transcriptores profesionales humanos que transcribieron la misma conversación.
“Hemos alcanzado la paridad humana“, dice Xuedong Huang, científico principal del discurso de Microsoft. La nueva tecnología utiliza modelos de lenguaje neural que permiten una generalización más eficiente al agrupar palabras similares.
Esto se consigue décadas después de que se estudiara por primera vez el reconocimiento del patrón de habla en los años setenta. Con el software DeepMind de Google siendo la referencia? en cuanto al reconocimiento del habla y las imágenes (y hablando como las personas), esta tecnología es la oportuna contribución de Microsoft a la investigación y desarrollo de la inteligencia artificial acelerada (AI).
El logro fue conseguido utilizando el sistema de Microsoft para el aprendizaje en profundidad: “Computational Network Toolkit”.
PRÓXIMO PASO: ENTENDER
Las aplicaciones para la nueva tecnología están destinadas a mejorar la experiencia del usuario con el asistente de voz personal de Microsoft para Windows y Xbox One. “Esto hará que Cortana sea más poderosa, haciendo posible un asistente realmente inteligente“, dice Harry Shum, el vicepresidente ejecutivo del grupo de Inteligencia Artificial e Investigación de Microsoft. “Por supuesto, también dará lugar al desarrollo de un mejor software de transcripción de voz a texto”.
Microsoft aclara, sin embargo, que la paridad no significa perfección. La computadora no reconocía claramente todas las palabras, algo que ni siquiera los humanos podrían hacer (ni Siri ni otros asistentes de voz existentes).
Aunque resulte impresionante, todavía queda espacio para la mejora. El siguiente objetivo: hacer que las computadoras comprendan la conversación humana. “La siguiente frontera es pasar del reconocimiento a la comprensión“, dice Geoffrey Zweig, director del grupo de investigación de Discurso y Diálogo.
*
ALCANZADA LA PARIDAD HUMANA
Un estudio publicado el pasado lunes, anunciado como un logro histórico por Microsoft, detalla una nueva tecnología de reconocimiento de voz que es capaz de transcribir el habla conversacional al mismo nivel que los humanos -- o al menos, como un transcriptor profesional (que es mejor que la mayoría de las personas).
La tecnología obtuvo una tasa de error por palabra (WER) del 5,9%, que fue inferior al 6,3% del reportado el mes pasado. “Es el más bajo jamás registrado respecto al Conmutador? standard en la industria de reconocimiento de voz“, ha informado Microsoft. La tasa fue la misma (o incluso más baja) que los transcriptores profesionales humanos que transcribieron la misma conversación.
“Hemos alcanzado la paridad humana“, dice Xuedong Huang, científico principal del discurso de Microsoft. La nueva tecnología utiliza modelos de lenguaje neural que permiten una generalización más eficiente al agrupar palabras similares.
Esto se consigue décadas después de que se estudiara por primera vez el reconocimiento del patrón de habla en los años setenta. Con el software DeepMind de Google siendo la referencia? en cuanto al reconocimiento del habla y las imágenes (y hablando como las personas), esta tecnología es la oportuna contribución de Microsoft a la investigación y desarrollo de la inteligencia artificial acelerada (AI).
El logro fue conseguido utilizando el sistema de Microsoft para el aprendizaje en profundidad: “Computational Network Toolkit”.
PRÓXIMO PASO: ENTENDER
Las aplicaciones para la nueva tecnología están destinadas a mejorar la experiencia del usuario con el asistente de voz personal de Microsoft para Windows y Xbox One. “Esto hará que Cortana sea más poderosa, haciendo posible un asistente realmente inteligente“, dice Harry Shum, el vicepresidente ejecutivo del grupo de Inteligencia Artificial e Investigación de Microsoft. “Por supuesto, también dará lugar al desarrollo de un mejor software de transcripción de voz a texto”.
Microsoft aclara, sin embargo, que la paridad no significa perfección. La computadora no reconocía claramente todas las palabras, algo que ni siquiera los humanos podrían hacer (ni Siri ni otros asistentes de voz existentes).
Aunque resulte impresionante, todavía queda espacio para la mejora. El siguiente objetivo: hacer que las computadoras comprendan la conversación humana. “La siguiente frontera es pasar del reconocimiento a la comprensión“, dice Geoffrey Zweig, director del grupo de investigación de Discurso y Diálogo.
*