Compensación Por El Signo Del Zodiaco
Sustiabilidad C Celebridades

Encuentre La Compatibilidad Por Signo Del Zodiaco

Las mejores herramientas de transcripción automática para periodistas

Tecnología Y Herramientas

Siri acaba de cumplir seis años. Alexa acaba de cumplir tres años. Si podemos preguntar a nuestros teléfonos por el clima en Albuquerque y obligar a un cilindro de plástico en nuestras salas de estar a leer el Washington Post en voz alta, ¿por qué seguimos transcribiendo entrevistas a mano?

Bueno, resulta que realmente no tenemos que hacerlo. Las herramientas de transcripción automática han estado en el mercado por un tiempo y finalmente se están volviendo buenas. Ahora solo lleva unos minutos y unos pocos dólares cargar audio o video en un sitio y recibir una transcripción bastante completa.

Pero, como todas las herramientas, algunas son mejores que otras. Probamos (o intentamos probar, más sobre eso más adelante) ocho de las herramientas de transcripción más populares dirigidas a periodistas, incluyendo Dictado del Dragón , Escriba feliz , oTranscribir , Recordly , Rvdo , Sonix , trinte y YouTube. Ejecutamos cada herramienta a través de una variedad de escenarios del mundo real, experimentando cómo le fue a cada uno frente al uso típico de un periodista.

Aunque ninguna de las herramientas era perfecta, una superó a las demás como la mejor de la categoría.

Nuestra elección
Una combinación de precisión, funciones y facilidad de uso hacen de Trint la mejor opción para la transcripción automática para periodistas. Aunque no fue la herramienta más precisa, con más funciones ni la más barata que probamos, sus herramientas de edición de transcripciones y su capacidad para adaptarse un poco más fácilmente al flujo de trabajo de un periodista lo ayudan a superar a sus competidores. Siga leyendo para ver por qué.

El experimento
Como verá, las tasas de precisión de estas herramientas son bajas. Eso es porque hicimos todo lo posible para confundirlos.

Primero, para reflejar una amplia gama de personas, voces y acentos, grabamos nuestro audio de muestra con cuatro participantes. Ellos incluyeron:

  • Alexios Manzarlis , profesor de Poynter y director de la Red Internacional de Verificación de Hechos, quien es oriundo de Roma y se describió a sí mismo como alguien que cecea y “algunas palabras graciosas que mezclan acentos británicos, italianos y estadounidenses extraños”.
  • Dulce Ramos , gerente de programa de la Red Internacional de Verificación de Datos, quien llegó a Poynter desde la Ciudad de México en septiembre
  • Kristen Hare , una reportera de Poynter, que piensa que suena 'ligeramente como una chica del valle' cuando se escucha a sí misma en las grabaciones.
  • Yo, y aunque Kristen dijo que tengo un 'acento de búfalo', creo que mi inclinación a balbucear, hablar demasiado rápido y saltear partes de las palabras probablemente resulte más difícil para las transcripciones (Grabarte a ti mismo antes de que te transcriban claramente conduce a un poco de auto-autoestima). reflexión.)

Kristen se unió a nosotros a través de Google Hangouts/YouTube Live ( divulgación: una subvención de Google News Lab financia parcialmente mi puesto ), contra lo cual advierten abiertamente la mayoría de las herramientas de transcripción automática. El audio de un teléfono o chat de video parece ser universalmente difícil de manejar para ellos.

Para torturar aún más a los algoritmos, también leímos pasajes a un ritmo mucho más rápido de lo que solemos hablar, Dulce y Alexios hablaban una variedad de idiomas extranjeros (italiano, español, francés y griego), pronunciamos tantos nombres propios como fuera posible (Apalachicola , Michael Oreskes y varias islas griegas, por nombrar algunas), se volvió creativo con Urban Dictionary (un maleta de Paul Manafort y una palabra grosera que describe el estado de su situación legal) y conversaban con cierta frecuencia.

Grabamos nuestra prueba de 14 minutos en el estudio de seminarios web de Poynter y nos interrumpió el sonido de al menos un avión ruidoso sobre nuestras cabezas (hay un aeropuerto a unas cuadras de distancia), un vehículo de emergencia y el clamor del teléfono de Kristen.

Grabamos el audio de tres formas:

  • Con un Zoom H4nPro micrófono de mano, colocado entre nosotros
  • Con mi iPhone 6S Plus, usando la aplicación Recordly para grabar, colocado al lado del Zoom
  • Con un YouTube Live privado, así nos acompañó Kristen

Luego subimos el audio a cada herramienta y mantuvimos un registro de cuánto tiempo tardó cada uno en transcribirse. Normalizamos las transcripciones resultantes usando Microsoft Word, eliminando las marcas de tiempo y asegurándonos de que los nombres de los oradores fueran congruentes. Como control, transcribí el audio yo mismo (usando oTranscribe) y luego lo escuché varias veces para verificar la precisión total. También probamos Rev, un servicio pago que usa transcriptores humanos en lugar de algoritmos, para ver cómo se acumulaba.

Probamos una variedad de herramientas de comparación de documentos para ver cuál funcionaba mejor, y nos decidimos por copyscape como la opción más acertada. Comparamos las transcripciones generadas por las herramientas y los servicios con el 100 % correcto que creé con oTranscribe.

Algunas notas adicionales:

  • El audio del Zoom demostró ser de la mejor calidad, por lo que lo usamos para la mayoría de nuestras pruebas. La aplicación Recordly no parece aceptar audio grabado de otras fuentes, por lo que es una excepción a este proceso. Tampoco subimos el audio de Zoom a YouTube, sino que confiamos en el audio de la grabación de YouTube Live. La comparación de manzanas y naranjas hace que este experimento sea menos científico pero más acorde con la forma en que los periodistas usarían estas herramientas en el mundo real.
  • Aunque es una herramienta popular, no pudimos probar Dragon Dictation, ya que no funciona en iOS 11. Actualizaremos esta revisión cuando su desarrollador solucione este problema.
  • No nos pusimos en contacto con ninguna de estas empresas antes de realizar la prueba, por lo que no hubo un tratamiento especial ni manipulación interna de las transcripciones. Trint, Sonix y Recordly ofrecen minutos gratuitos limitados para nuevos usuarios, así que los aprovechamos para el experimento. Usamos la tarjeta de crédito de un colega que no es reportero para Happy Scribe y no mencionamos a Poynter ya que mantuve correspondencia con sus fundadores en el pasado. Y pagamos el precio completo por la transcripción humana de Rev. El servicio de subtítulos de YouTube y oTranscribe siempre son gratuitos.
  • Hay muchas, muchas más herramientas de transcripción automática que no incluimos en esta revisión. Intentamos centrarnos en los que nos han preguntado los periodistas. Si cree que nos saltamos uno injustamente, infórmenos y actualizaremos la revisión.

Calidad de la transcripción (Ganador: Happy Scribe)

Diagrama de precisión

Parece que las personas preocupadas por el levantamiento de la inteligencia artificial tienen al menos algunos años más para prepararse, ya que el único servicio de transcripción humana que probamos superó a las transcripciones automáticas por un amplio margen.

Rev obtuvo una calificación de precisión del 82 por ciento, y el traductor humano en su mayoría no pudo captar idiomas extranjeros (que, para ser justos, es un servicio separado), algunos nombres propios, algunas diafonías, algunas palabras de jerga y fragmentos de murmullos. Aunque las otras herramientas también pasaron por alto estas cosas, los transcriptores humanos en Rev al menos notaron cosas como '[inaudible]' y '[diafonía]' y '[idioma extranjero]', que fueron marcadores de posición útiles para correcciones posteriores.

Incluso con los bits que faltan, la transcripción de Rev es totalmente legible y coherente. Si no estuvo presente en la conversación inicial, podría obtener el quid de lo que estábamos hablando con solo leerlo.

La siguiente transcripción más precisa fue YouTube. El sitio de alojamiento de videos creó automáticamente subtítulos para nuestro video en vivo de YouTube que tenían una precisión del 72 por ciento. Pero incluso con solo una caída del 10 por ciento en la calidad general, la transcripción es significativamente menos legible que la de Rev porque YouTube no proporciona puntuación ni segmentación de los oradores. Los subtítulos existen como un bloque masivo de texto. Sin emparejarlo con el audio, sería casi imposible que alguien que no fuera parte de la conversación entendiera nuestra conversación.

Hay otras desventajas en las ofertas de YouTube, pero hablaremos de ellas cuando lleguemos a las funciones.

Happy Scribe demostró ser la herramienta de transcripción no humana dedicada más precisa, con un 62 por ciento de precisión en nuestro experimento. La herramienta advierte en su página de carga que 'evite el ruido de fondo fuerte', 'evite los acentos fuertes', 'evite las entrevistas telefónicas y por Skype' y 'mantenga el micrófono cerca del orador', todo lo cual ignoramos obedientemente.

La transcripción es casi precisa en los lugares en los que estaba hablando, especialmente cuando no había ninguna diafonía y no estaba usando nombres propios, pero me costó bastante transcribir a Dulce, Kristen y Alexios. Rompió a diferentes oradores en nuevos párrafos en algunos lugares, pero falló en otros. La transcripción general varía entre totalmente coherente en algunos lugares y extrañamente incoherente en otros, como cuando transcribió a Alexios diciendo 'déjame abrir Urban Dictionary y podemos revisar algunos de esos' como 'Quiero decir, incluso en el diccionario urbano las chicas son cercanas'. .”

Trint ofreció resultados similares, con un 61 por ciento de precisión. Se equivocó en muchos de los mismos lugares, buscando a tientas los acentos, el audio de YouTube y las secciones con diafonía o hablar en voz baja. Sin embargo, no se transcribió mal exactamente de la misma manera que Happy Scribe. La oración de Urban Dictionary de arriba apareció como 'Quiero decir que incluso en el diccionario urbano podemos revisar eso'.

En general, la transcripción de Trint es un poco más fácil de leer que la de Happy Scribe porque hace un mejor trabajo al diferenciar a los oradores y dividirlos en nuevos párrafos. No es perfecto, pero agrega mucha claridad cuando funciona.

Sonix demostró ser el siguiente más preciso con un 50 por ciento. Sonix funcionó un poco mejor que Happy Scribe y Trint cuando un solo orador hablaba en voz alta. Pero cualquier cantidad de diafonía, ruido de fondo o incluso risas, todas las cosas que probablemente aparecerán en cualquier uso real de la herramienta, parecían confundirlo más que los demás. Capturó la oración del Urban Dictionary como 'abrir en el diccionario urbano y podemos revisar algunos de esos'.

Al igual que las otras herramientas, Sonix trató de dividir a los oradores en diferentes párrafos, pero parecía ser un poco peor.

Recordly fue la menos precisa de las herramientas de transcripción automática, con un 48 por ciento de precisión. Capturó la oración del Urban Dictionary como “déjame abrir ese diccionario urbano y podemos. Revise algunos”, lo cual no está mal, pero ese fragmento de texto no es representativo del resto de la transcripción. Al igual que YouTube, la transcripción de Recordly es un bloque gigante de texto. A diferencia de YouTube, agrega puntuación, aunque con menos frecuencia y menor precisión que las otras herramientas.

La transcripción de Recordly es la menos útil fuera de contexto.

En general, la mejor transcripción provino de mi propia mano con oTranscribe. Rev resultó la mejor transcripción que no tuve que transcribir yo mismo. Pero esta es una revisión de las herramientas de transcripción automática, y en esa categoría, Happy Scribe apenas superó a Trint para llegar a la cima.

Características (Ganador: Sonix)
Algunas cosas parecen ser estándares de la industria de herramientas de transcripción automática. La capacidad de reproducir audio subido es obvia. Todas las herramientas permiten a los usuarios exportar transcripciones en varios formatos.

Las herramientas basadas en navegador (lo que significa que todas excepto Recordly) también ofrecen una suite común. Todos permiten a los usuarios hacer clic en varios puntos del texto y pasar directamente a esa parte de la grabación. Todos tienen opciones para reproducir audio a una velocidad más lenta (con teclas de método abreviado o modificando la configuración), editar transcripciones manualmente, cargar videos además de audio y almacenar transcripciones para su uso posterior.

Trint va un paso más allá y presenta una forma de onda visualizada del audio en la parte inferior de la transcripción que los usuarios pueden omitir a voluntad. También tiene herramientas integradas para buscar y reemplazar, resaltar o tachar texto. Los usuarios pueden agregar una lista de oradores a la herramienta y adjuntar su nombre a cada párrafo. También tiene una característica útil para enviar por correo electrónico una transcripción con un solo clic.

Sonix presenta todas estas herramientas (excepto la forma de onda interactiva) y algunas más. Los más útiles son los 'colores de confianza', que asignan diferentes colores a las palabras en las que Sonix tiene menos confianza; un evaluador de calidad de audio, que le indica la confianza que tiene Sonix en su transcripción; e identificación automática de locutores, una función beta que intenta identificar a varios hablantes y asignarles identificaciones.

En nuestra prueba, Sonix solo identificó dos altavoces diferentes, por lo que esta herramienta necesita algo de trabajo, pero sigue siendo tremendamente útil.

Recordly, la única aplicación (solo iOS) del grupo, ofrece la menor cantidad de funciones. Es más o menos una experiencia de grabar y esperar. La transcripción se entrega en un formato similar a la aplicación de notas integrada de Apple, con una funcionalidad de edición limitada. También permite a los usuarios exportar el audio o el texto a otra aplicación.

Aunque las funciones de búsqueda y reemplazo y de forma de onda de Trint son útiles para corregir transcripciones, las funciones de Sonix agregan transparencia vital al proceso de transcripción. Y aunque la versión beta de identificación del hablante no es del todo confiable, es una herramienta ambiciosa que solo debería mejorar a partir de aquí.

Momento (Ganador: Happy Scribe, trinte y Recordly)

diagrama de tiempo

Aquí es donde brilla la transcripción automática. Todas las herramientas proporcionaron una transcripción en menos minutos que la duración del archivo de audio que enviamos. La diferencia entre Happy Scribe (cinco minutos), Trint (seis minutos) y Recordly (seis minutos) fue insignificante, pero Sonix tardó un poco más (11 minutos). (Actualización: un representante de Sonix se acercó para decir que su velocidad está en línea con las otras herramientas cuando la función de identificación del altavoz está desactivada). En un entorno del mundo real, esta podría ser una diferencia crucial, especialmente con transcripciones más largas.

YouTube es un poco un misterio aquí. Para esta transcripción, los subtítulos automáticos tardaron solo unos minutos en aparecer. En experiencias anteriores, hemos descubierto que el tiempo que tardan en aparecer puede variar bastante. Dado que YouTube no está realmente destinado a usarse de esta manera, no estamos seguros de cuánto tiempo suele tardar.

Los transcriptores humanos de Rev tardaron alrededor de cuatro horas y 15 minutos en terminar su transcripción. Me tomó aproximadamente la mitad de eso hacerlo yo mismo con oTranscribe, pero no sin varios descansos, Spotify Enfoque profundo lista de reproducción y dos galones de café.

Precios (Ganador: Recordly)

diagrama de costos

No hay nada mejor que lo gratis (YouTube, oTranscribe), pero cuando se trata de las herramientas de transcripción automática dedicadas, el costo varía ampliamente. Para determinar el mejor precio, debe considerar la frecuencia con la que utilizará la herramienta.

Sonix es el más caro, con un plan básico que comienza en $15 por mes más $8 por cada hora de audio transcrito. Pero la herramienta ofrece un gran descuento del 33 por ciento por pagar anualmente en lugar de mensualmente.

Trint también ofrece planes desde $ 15 por hora para transcripciones de pago por carga, o $ 40 por mes para hasta tres horas de audio transcrito. Las transcripciones adicionales cuestan poco más de $ 13 por hora.

Happy Scribe cuesta 10 centavos por minuto de audio subido. Para tipos menos inclinados a las matemáticas, eso es $ 6 por hora.

A solo $ 2 por hora, con la primera hora gratis, Recordly es, con mucho, la opción de transcripción automática más barata.

Como era de esperar, los transcriptores humanos en Rev cuestan más que las otras herramientas. La transcripción de nuestro clip de 13 minutos costó $14 y pagamos $3,50 más por las marcas de tiempo. Aún así, el bajo costo relativo de las horas de trabajo involucradas nos hace preguntarnos dónde están los transcriptores de Rev en el mundo y qué tan bien están siendo compensados.

Facilidad de uso (Ganador: Trinte)
Ninguna de estas herramientas es difícil de usar. Subes un archivo a cada uno (o grabas audio con él, en el caso de Recordly) y, tiempo después, te envía un enlace a una transcripción editable.

Trint da un gran paso más allá de la carga de archivos y acepta audio o video de una variedad de fuentes, incluidos Dropbox, Google Drive y FTP, e incluso permite a los usuarios simplemente ingresar un enlace. Esto es único entre las herramientas que probamos. Trint también hace algunas preguntas útiles sobre el ruido de fondo, la diafonía y más antes de que comience la carga. No arreglará una grabación, pero es un guiño de UX útil que enseña a los usuarios cómo grabar más audio transcribible en el futuro.

Happy Scribe, Rev, Sonix y Trint envían correos electrónicos cuando la transcripción está lista, por lo que no hay necesidad de sentarse y mirar la pantalla.

La línea de fondo
No es la opción de transcripción general más barata ni la más precisa disponible, pero Trint se impuso como la mejor herramienta completa de las que probamos.

La empresa, que tiene poco más de un año y ha recibido financiación de la Fundación Knight (descargo de responsabilidad: Poynter también recibe financiación de Knight) y la iniciativa de noticias digitales de Google, ofrece la mejor combinación general de funcionalidad, precisión y facilidad de uso.

Solo la función de subtítulos automáticos de YouTube, que obtuvo una tasa de precisión del 72 por ciento, obtuvo resultados significativamente mejores que Trint en la transcripción guiada por algoritmos. Pero YouTube no está diseñado para el tipo de transcripción que los periodistas necesitan en el día a día y no ofrece ningún tipo de funcionalidad de edición.

Aunque a la joven empresa emergente Happy Scribe le fue un poco mejor en nuestras pruebas de precisión con una tasa del 62 por ciento, y tiene un precio de aproximadamente un tercio del precio de Trint, carece de muchas de las características adicionales que hacen que Trint sea útil. La capacidad de cargar desde muchas fuentes, buscar y reemplazar texto y la identificación del hablante son herramientas de flujo de trabajo pequeñas pero importantes. Si solo está buscando una transcripción rápida y sucia, Happy Scribe puede ser el camino a seguir.

Y aunque es cierto que su 61 por ciento está lejos de ser perfecto, nuestras pruebas fueron un poco más difíciles que la mayoría de los usos del mundo real.

También probamos Rev, un servicio de traducción humana, y oTranscribe, que ofrece herramientas útiles para que los periodistas transcriban audio por su cuenta. A $ 1 por minuto de audio transcrito, descubrimos que Rev es demasiado costoso para que el periodista promedio lo use regularmente. Y aunque oTranscribe fue útil, no soluciona el tedio y el tiempo de transcribir.

Con los usos típicos en mente, Trint es la mejor herramienta de transcripción automática para periodistas.

Corrección: Anteriormente informamos que Sonix no oferta encontrar y reemplazar la herramienta, pero en realidad lo hace. Pedimos disculpas por perderlo.

Obtenga más información sobre las herramientas de periodismo con Try This! — Herramientas para el Periodismo. ¡Prueba esto! es alimentado por Laboratorio de noticias de Google . También cuenta con el apoyo de la Instituto de Prensa Estadounidense y el Fundación John S. y James L. Knight