Voice Recognition Vs Speech Recognition
La voz es un sistema muy conveniente de comunicación. Es “manos libres”, “ojos libres” y hasta “teclados libres”. Como hablar es natural no requiere que aprendamos nuevas habilidades. Los humanos podemos hablar en promedio 150 palabras por minuto, en comparación con 40 cuando escribimos. Las generaciones jóvenes, las personas mayores, muchas personas con discapacidades e incluso las personas sin mayores estudios (o sin ninguno) ya dominan la interacción del habla. Se usa habla hasta en circunstancias donde las interacciones podrían ser desafiantes, como mientras se conduce, se cocina, se trabaja, sin luz o incluso sin visión. Estas ventajas hacen del habla un medio cada vez más popular para interactuar en procesos, dispositivos y aplicaciones.
El mercado de reconocimiento del habla y de voz se valoró en USD 8,83 mil millones en 2019 y se prevé que alcance los USD 33,62 mil millones para 2027, creciendo a una tasa compuesta anual del 19,63% de 2020 a 2027, según un estudio publicado por Verified Market Research. Entre los factores más notables que impulsan dicho mercado resaltan el aumento de la demanda en el sector automotriz, el incremento de la demanda de sistemas biométricos de voz para la autenticación de usuarios y el alto potencial de crecimiento en las aplicaciones de atención médica.
Entendiendo el potencial y expectativas que genera a nivel global la interacción Omnicanal por voz natural/sintética, se hace importante aclarar algunas diferencias existentes en esta interfaz conversacional, en especial lo relacionado con las tecnologías de Voice Recognition y Speech Recognition. ¿Cuál es el propósito de cada tecnología, sus principales diferencias, funcionamiento y aplicaciones que las hacen atractiva a cada caso de uso?
Empecemos.
Las diferencias
Las tecnologías de Voice Recognition (reconocimiento de voz) y de Speech Recognition (reconocimiento del habla) son términos que se usan indiscriminadamente. Sin embargo, ambos hacen referencia a asuntos que difieren mucho entre sí. El uso de la transliteración indistinta al español de las palabras en inglés “Speech” y “Voice” como “Voz”, también suele ser un inconveniente para el entendimiento de los conceptos base de dichas tecnologías. Por lo tanto, utilizaremos en este artículo las palabras “Habla”, al referirnos a la expresión “Speech”, y “Voz” al referirnos a la expresión “Voice”.
El propósito detrás del speech recognition es concentrarse en las palabras que se están pronunciando (el qué se dice) y, a partir de allí identificar, usar o analizar dichas palabras en procesos útiles posteriormente. Por lo tanto, las soluciones de speech recognition no toman en cuenta la forma en la que las personas se expresan o pronuncian las palabras, sus los acentos, cadencia, tono o timbre, etc. Las tecnologías de voice recognition por su parte, tiene como objetivo principal la identificación o verificación de la persona que habla (quién habla) con base en las características propias de su voz, en vez de enfocarse en las palabras que dice en sí mismas.
Speech Recognition
Cómo funciona
De forma muy simplificada, speech recognition implica tomar las palabras habladas utilizando una fuente de captura de audio, como un micrófono o un teléfono. El software de reconocimiento del habla descompone el audio de una muestra de voz en sonidos individuales, analizando cada sonido, utiliza algoritmos para encontrar la palabra más probable que encaje en ese idioma, y finalmente transcribe esos sonidos en texto.
Algunos usos y aplicaciones
La tecnología de speech recognition tiene una larga lista de aplicaciones. De acuerdo con su función, dichas tecnologías podría dividirse en:
Automatic Speech Recognition:
Los sistemas de automatic speech recognition hacen uso del reconocimiento del habla para programar o automatizar acciones al distinguir intenciones del hablante por las palabras que expresa. Algunos usos implican el uso de manos libres para computadoras, desarrollo de servicio al cliente automatizado, automatización de procesos vía comandos precisos de voz, sistemas de navegación activados por voz, asistentes virtuales en general tipo Google, Alexa, ventas (IVR y bots cognitivos conversacionales auto responsivos). También se utiliza para tomas de dictado general, transcripciones en el campo médico, transcripciones y traducciones en línea y otras.
Con capas posteriores de análisis e inteligencia el speech analytics (analítica del habla), se enfoca en extraer información de los datos (palabras) y el análisis en contexto de las palabras dichas durante una conversación, silencios durante ella, interacción, identificación de palabras clave y muchas otras . Esto permite el análisis integral de la “voz de cliente” y logra que las empresas moneticen uno de los activos intangibles no estructurados menos explorados (grabaciones), cuando se utiliza en ambientes corporativos de operaciones por voz.
Text To Speech Technologies:
Text-to-speech es la generación de voz sintetizada a partir de texto; se refiere a la síntesis del habla (speech synthesis) o una producción artificial del habla, ésta última a la que suele también llamársele speech computer o speech synthesizer. Permite crear voces humanas sintéticas con un sonido natural y fluido, que coincide con patrones y entonación de voces humanas.
Los casos de uso al igual son variados, encontrando estas tecnologías en plataformas de e-learning convirtiendo contenido de aprendizaje, lectores de noticias mientras el usuario va manejando un automóvil, videojuegos, asistentes personales como los que hoy encontramos dentro de nuestros smartphones. Los editores y propietarios de contenido pueden convertir de forma rápida y económica libros, artículos y cualquier material escrito en audio con texto a voz. Con el uso de voces que suenan naturales, el texto a voz puede mejorar la calidad del centro de contacto interactivo y admitir aplicaciones de comunicación, entre otros muchos.
Voice Recognition
El propósito del voice recognition es identificar o verificar a la persona que está hablando. En otras palabras, identificación digital en los canales de voz.
¿Cómo funciona?
El reconocimiento de voz funciona escaneando los aspectos de la voz que difieren entre las personas. Todo el mundo tiene una forma de hablar única. Esto es el resultado de dos elementos:
Su fisiología (forma y tamaño de la boca y garganta, cuerdas vocales, cavidad craneal, posición de los dientes, y otros cientos de parámetros o características físicas del aparato fonador).
Patrones de comportamiento (cómo usa el aparato fonador: tono de voz, acento, estilo de hablar, etc.).
Ambos aspectos combinados generan un patrón único de la voz de su titular. Y es precisamente ese factor único el que puede ser utilizado para identificar o verificar inequívocamente a su hablante.
Algunos usos y aplicaciones
Los usos de las tecnologías de reconocimiento de voz son decididamente diferentes de los del reconocimiento de habla. La tecnología de reconocimiento de voz se usa para confirmar la identidad del hablante o determinar la identidad de un individuo desconocido. Utiliza la voz de una persona para autenticar si es quien dice ser, porque la voz de una persona es un identificador único.
Los sistemas de verificación del hablante se utilizan en situaciones en las que los usuarios desearían servicios seguros. Por esta razón, de acuerdo con la forma de uso, a las tecnologías de voice recognition se dividen en tecnologías o servicios de:
Speaker Verification (o verificación del hablante o locutor):
Constata, verifica o auténtica si la voz que se está inspeccionando, corresponde o no con la identidad de la persona con la se asocia.
Speaker Identification (Identificación del hablante o locutor):
Permite asociar la voz de un hablante desconocido con la identidad de una persona, si previamente existe dicho patrón de identificación.
La aplicabilidad de dichas tecnologías puede ser muy variadas, siendo ambas utilizadas en ventas (contact center que requieren validar la identidad de un usuario antes de facilitar acceso a algún servicio o facilidad), operaciones (cuando un usuario requiere acceso a un sistema de información y se valida con su voz), prueba de vida (en los sistemas de pensiones o por procedimientos de aseguramiento, es necesario validar que una persona sea quien dice ser y adicionalmente esté viva como requisito de enviar recursos económicos mensuales, para lo cual frecuentemente se combinan con capas de servicios o tecnologías), juegos o servicios en línea (algunos sistemas requieren validar que solo un usuario válido adecuado puede ingresar a utilizarlos), control de acceso (sistemas físicos que requieren acceso sin contacto) y muchas otras.
Conclusión
Para finalizar recordamos que recientemente Microsoft anunció la adquisición de Nuance, un jugador importante en el campo del reconocimiento de voz y del habla e inteligencia artificial, por USD 19.700 millones; una cifra 14 veces más alta que los ingresos proyectados de Nuance para el 2021. Esto ilustra a todas luces que hacerse un lugar de privilegio en el mercado de las tecnologías de voz es una necesidad y una apuesta de presente y futuro.
La creciente demanda de tecnologías de reconocimiento de voz de alto nivel, para proporcionar una gestión de riesgos eficaz y combatir casos de fraude y robo de identidad, y la explosión de aplicaciones de reconocimiento del habla en terrenos del sector automotriz, salud, y la vida diaria misma han aumentado también la adopción de tecnologías biométricas de voz.
Por tanto, reconocer la voz y el uso de sus tecnologías asociadas como un canal conveniente de alto valor de comunicación, nos permitirá aplicarlas identificando nuevos y mejores casos de uso en nuestros entornos corporativos y de experiencia al cliente.
Por su facilidad, naturalidad, eficiencia y aplicabilidad la voz se convierte así en la interfaz del futuro, hoy.
Puedes encontrar más información de un caso práctico, descargando el documento aquí.
En ITNG somos expertos en el uso de Biometría de Voz en el campo de reconocimiento de la voz y del habla. Da clic aquí para más información.
Comentarios