Servicios de Reconocimiento de Voz a Texto (STTS)

El reconocimiento de voz es un término general que se utiliza para describir una adaptación en la que la comunicación hablada y otra información auditiva se traducen en texto en tiempo real. Un proveedor de servicios escribe lo que escucha, y luego el texto aparece en una pantalla para el sordo persona para leer.

Existen tres sistemas principales utilizados para proporcionar subtítulos en tiempo real: Traducción en Tiempo Real de Acceso a la Comunicación (CART), C-Print® y TypeWell.

Saad Ghani habla sobre su experiencia usando CART. Leer la descripción completa del video

Tipos de servicios de reconocimiento de voz a texto

Los servicios de conversión de voz a texto se dividen en dos categorías generales: palabra por palabra y significado por significado.

Texto literal Los proveedores de servicios de reconocimiento de voz a texto transcriben casi todas las palabras habladas, incluyendo inicios en falso, errores y palabras o frases de relleno como "um" o "sabes". Aunque esto varía según muchos factores, incluido el tema, una hora de conferencia producirá aproximadamente 40 páginas de transcripción. CART es un sistema de transcripción literal.

Significado por significado los proveedores de servicios escuchan el lenguaje hablado y destilan lo que se ha dicho en una traducción de texto basada en el contexto. Por lo general, eliminarán los inicios en falso, los errores al hablar y las palabras y frases de relleno. Formatearán la información utilizando elementos como cursivas, negritas y viñetas para reducir la cantidad de palabras escritas. Aunque esto varía según muchos factores, incluido el tema, una hora de conferencia producirá aproximadamente 15 páginas de transcripción. C-Print® y TypeWell son sistemas de significado por significado.

Texto literal

INSTRUCTOR: Darcy, tú te dedicas a las acciones, ¿verdad?

ESTUDIANTE: Sí, lo hago.

INSTRUCTOR: Solo quiero darte esto que escuché recientemente, sabes, que si tienes acciones en Continental Bank, sabes, véndelas muy rápido porque están a punto de quebrar. ¿Está bien? ¿Lo tienes? Bien. Bien.

Bueno, esto es un ejemplo de un rumor falso. Hoy vamos a hablar sobre rumores y varios temas relacionados con los rumores. Vamos a hablar de varios temas, ya están listados en tu esquema, pero los pongo aquí. ¿Qué es un rumor?

¿Cuáles son las circunstancias relacionadas con las generaciones de rumores? ¿Cuándo deberías creer un rumor? ¿Y hay algo que puedas hacer para combatir un rumor?

Significado por significado

Profesor: Darcy, tú te dedicas a las acciones, ¿verdad?

Darcy: Sí, lo hago.

Profesor: Quería darte un consejo que escuché recientemente. Si tienes acciones en Continental Bank, sal ahora. Están a punto de ir a la bancarrota. ¿Lo tienes?

Este es un ejemplo de un rumor falso. Hoy vamos a hablar sobre rumores. Hablaremos sobre varios temas que aparecen en tu esquema.

  • ¿Qué es un rumor?
  • ¿Cuáles son las circunstancias relacionadas con las generaciones de rumores?
  • ¿Cuándo deberías creer un rumor?
  • ¿Y hay algo que puedas hacer para combatir un rumor?
 

¿ Qué se debe considerar al elegir un sistema de reconocimiento de voz?

La selección del sistema más adecuado dependerá de la situación específica y de la persona que solicite el servicio. Algunas personas preferirán CART porque quieren ver cada palabra. Otras personas pueden preferir un sistema de traducción palabra por palabra porque se sienten abrumadas por demasiado texto y desean un formato más visual.A veces, las personas prefieren diferentes servicios para distintas situaciones. Por ejemplo, un estudiante puede solicitar subtítulos palabra por palabra para una clase de historia, subtítulos con significado aproximado para una clase de sociología y interpretación en ASL para una clase de matemáticas.

No existe un sistema "mejor" para todas las situaciones y todas las personas.

¿Cuáles son los costos asociados con cada sistema?

Por lo general, el costo de proporcionar CART es mayor que C-Print® y TypeWell. Las razones de las diferencias en el costo incluyen el costo del software y hardware asociados con cada sistema, y la duración de la capacitación necesaria para aprender cada sistema.

Mientras que un proveedor de CART generalmente obtiene un título de asociado o licenciatura y requiere equipo y software que pueden costar hasta $10,000, también suelen tener una tasa de pago alta. (Esta tarifa está influenciada por las tarifas del reportero judicial.) Los proveedores de CART tienen más probabilidades de poseer certificaciones en tiempo real a través de NCRA.

La capacitación para C-Print® y TypeWell puede completarse en tan solo dos meses y el software y equipo especializados generalmente cuestan menos de $1,500, pero normalmente ganan mucho menos por hora. Un proveedor de CART generalmente obtiene un título de asociado o de licenciatura y el costo de su equipo y software oscila entre $2,000 y más de $10,000.

¿Pueden las transcripciones de voz a texto reemplazar a los tomadores de notas?

No. El propósito de la subtitulación en tiempo real es proporcionar acceso a la comunicación en tiempo real. Cada sistema genera una transcripción electrónica, y las instituciones pueden optar por proporcionar a los estudiantes una copia de esa transcripción, pero no está destinado a reemplazar a un tomador de notas. La subtitulación en tiempo real puede no captar toda la información visual presentada durante la clase, como el contenido de PowerPoint o la pizarra. Las notas incluyen esta información, así como un esquema con los puntos principales de la conferencia.

Servicios remotos de reconocimiento de voz a texto

Con servicios remotos de reconocimiento de voz, al escritor (a veces referido como subtitulador, captionista o transcriptor) se le proporciona acceso al contenido de audio a través de una línea telefónica o software de videoconferencia. El proveedor de servicios y la persona sorda utilizan un software para conectar sus computadoras en línea de modo que lo que se escribe se vea en ambas pantallas. Muchos sistemas permiten que la persona sorda utilice cualquier dispositivo que pueda conectarse a internet, incluyendo una computadora portátil, una tableta o un teléfono inteligente.

¿Cuándo son apropiados los servicios remotos de reconocimiento de voz?

En general, los servicios remotos de reconocimiento de voz a texto se pueden utilizar en cualquier situación.Sin embargo, algunos entornos y situaciones pueden presentar más desafíos que otros. Ten en cuenta lo siguiente:

  • No todas las configuraciones tienen acceso confiable a la tecnología y conexiones a internet necesarias.
  • Los entornos altamente interactivos pueden presentar un desafío para el proveedor de servicios, quien no puede discernir conversaciones superpuestas, escuchar claramente a un hablante situado más lejos del micrófono o ver quién está hablando (lo que hace más difícil identificar al hablante).
  • Los entornos altamente visuales pueden presentar dificultades para acceder al contenido visual (como gráficos, fotos y ecuaciones) que ayudan al proveedor del servicio de reconocimiento de voz remoto a transmitir el mensaje general. Aunque no es ideal, una solución a esto es conectarse mediante una plataforma de videoconferencia para proporcionar información visual al proveedor del servicio.
¿ Qué equipo y conexiones son necesarios para usar servicios de reconocimiento de voz remotos?
  • Conexión a internet rápida y confiable: Se requiere una conexión a internet de alta velocidad para transmitir información de audio y visual entre los usuarios. Las conexiones por cable ofrecen mayor fiabilidad que las conexiones inalámbricas.
  • Micrófono de alta calidad para capturar la salida auditiva: Las funciones de cancelación de eco y ruido en micrófonos de alta calidad pueden mejorar la calidad del audio para un proveedor remoto. Considere el tipo (omnidireccional o unidireccional) y la ubicación (rango auditivo) del micrófono para el acceso y la calidad de sonido más efectivos.
  • Software de conferencias de audio o video para transmitir audio (como Zoom): El audio puede transmitirse mediante una línea telefónica o un micrófono utilizando software de videoconferencia conectado a internet. La información visual puede ser transmitida a través de una cámara web.
  • Navegador de Internet o software cliente/lector de voz a texto: CART, C-Print® y TypeWell son todos capaces de ser visualizados en un navegador de internet. C-Print® y TypeWell tienen su propio software propietario.
Consideraciones especiales para servicios remotos de reconocimiento de voz

Para una experiencia exitosa al usar servicios de reconocimiento de voz remotos, establezca pautas para las siguientes preguntas antes de implementar el servicio:

  • ¿Quién es responsable de montar el equipo, establecer las conexiones y desmontar el equipo?
  • ¿Cuál es el plan de respaldo para el acceso en caso de que falle la tecnología?
  • ¿Quién es responsable de informar al proveedor remoto y al consumidor sobre una ausencia o llegada tardía?
  • ¿cuánto tiempo esperarán el proveedor y el consumidor remotos si uno llega tarde a iniciar sesión?
  • ¿Quién es la persona de contacto en caso de que el consumidor necesite asistencia?

Configurar una nueva tecnología lleva tiempo; realiza una prueba con el estudiante antes de usar el servicio para asegurarte de que funciona.

¿Necesitas ayuda?

Complete este formulario para recibir ayuda del equipo de NDC. ¿No puedes ver el formulario abajo? Haz clic aquí para contactar al equipo de NDC.

Centro Nacional de Sordos