La API de Transcripción de Voz es una tecnología sofisticada que convierte el lenguaje hablado en texto escrito con alta precisión. Usando redes neuronales y grandes conjuntos de datos, puede interpretar y transcribir una amplia variedad de idiomas, acentos y dialectos.
Diseñada para ser escalable, esta API maneja eficientemente todo, desde comandos de voz cortos hasta extensos pasajes hablados. Su versatilidad apoya tanto las necesidades individuales como las aplicaciones a gran escala, lo que la hace ideal para una variedad de casos de uso.
En esencia, la API de Transcripción de Voz representa un avance significativo en el procesamiento del lenguaje natural y el reconocimiento de voz. Su tecnología de vanguardia y diseño centrado en el usuario la convierten en una poderosa herramienta de voz a texto, ofreciendo una precisión, adaptabilidad y aplicabilidad sobresalientes tanto para la comunicación cotidiana como para necesidades especializadas de la industria.
La API recibe un archivo de audio y devuelve un texto.
Asistentes de Voz: Mejorar la funcionalidad de asistentes virtuales como Siri, Alexa y Google Assistant al permitirles entender y procesar comandos y consultas de usuarios en lenguaje natural.
Servicios de Transcripción: Convertir automáticamente audio de reuniones, entrevistas y conferencias en texto para fines de documentación y archivo.
Atención al Cliente: Mejorar el soporte al cliente al transcribir interacciones de voz entre clientes y agentes de servicio, permitiendo un mejor análisis y seguimiento.
Analítica del Habla: Analizar interacciones habladas para obtener información sobre el sentimiento del cliente, patrones de comportamiento y niveles de compromiso en centros de llamadas o durante campañas de marketing.
Aprendizaje de Idiomas: Apoyar a los estudiantes de idiomas transcribiendo sesiones prácticas habladas y proporcionando retroalimentación sobre pronunciación y fluidez.
Creación de Contenido: Ayudar a creadores de contenido y periodistas transcribiendo entrevistas, pódcast o discursos, que luego pueden ser utilizados para artículos, blogs u otro contenido escrito.
Además del número de llamadas a la API, no hay ninguna otra limitación.
Para usar este punto final, debes especificar un archivo mp3 para recibir el texto de audio.
Obtener texto - Características del Endpoint
| Objeto | Descripción |
|---|---|
Cuerpo de la Solicitud |
[Requerido] Archivo Binario |
{
"text": "Have a great day!"
}
curl --location 'https://zylalabs.com/api/4916/voice+transcribe+api/6188/get+text' \
--header 'Content-Type: multipart/form-data' \
--form 'image=@"FILE_PATH"'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
Para usar esta API, los usuarios deben especificar un archivo de audio.
La API de Transcripción de Voz convierte el lenguaje hablado en texto escrito utilizando algoritmos avanzados, lo que permite una transcripción precisa y una comprensión de las entradas de audio.
Zyla proporciona una amplia gama de métodos de integración para casi todos los lenguajes de programación. Puedes utilizar estos códigos para integrarlos en tu proyecto según lo necesites.
Hay diferentes planes que se adaptan a todos, incluido un plan gratuito para una pequeña cantidad de solicitudes por día, pero su tarifa está limitada para prevenir el abuso del servicio.
Recibe el texto de un archivo de audio en formato JSON.
La API de transcripción de voz devuelve el texto transcrito del archivo de audio proporcionado en formato JSON. La salida principal es un único par clave-valor donde la clave es "text" y el valor es el contenido transcrito.
Los datos de respuesta contienen una clave llamada "text", que contiene el texto transcrito de la entrada de audio. Este campo proporciona la transcripción completa del contenido hablado.
Los datos de respuesta están estructurados en formato JSON, con un par clave-valor simple. Por ejemplo, una respuesta típica se ve así: `{"text": "¡Que tengas un gran día!"}` que indica claramente la salida transcrita.
El parámetro principal para la API de Transcripción de Voz es el archivo de audio, que debe estar en formato mp3. Los usuarios deben asegurarse de que el archivo de audio esté correctamente codificado para una transcripción precisa.
Los usuarios pueden personalizar sus solicitudes proporcionando diferentes archivos de audio para la transcripción. Sin embargo, la API actualmente no admite parámetros adicionales para la selección de idioma o el estilo de transcripción.
Los casos de uso típicos incluyen la transcripción de reuniones, entrevistas y conferencias, la mejora de asistentes de voz y el apoyo al aprendizaje de idiomas al proporcionar retroalimentación escrita sobre la práctica oral.
La precisión de los datos se mantiene a través de algoritmos avanzados y redes neuronales que han sido entrenadas en conjuntos de datos diversos, lo que permite que la API maneje eficazmente varios idiomas, acentos y dialectos.
Si la API devuelve resultados parciales o vacíos, los usuarios deben verificar la calidad y claridad del audio. Asegurarse de que el habla sea clara y de que haya un mínimo de ruido de fondo puede mejorar la precisión de la transcripción.
Nivel de Servicio:
100%
Tiempo de Respuesta:
64ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.148ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
646ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
4.790ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
13.953ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.987ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
6.411ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
674ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.276ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
5.185ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.274ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.984ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.812ms
Nivel de Servicio:
99%
Tiempo de Respuesta:
591ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.468ms