La API de Transcripción de Voz es una solución avanzada y confiable para convertir palabras habladas en texto estructurado. Aprovechando el reconocimiento de voz de última generación y la inteligencia artificial, proporciona transcripciones precisas adaptadas a una amplia gama de industrias y aplicaciones. Ya sea procesando discurso en tiempo real o audio grabado, esta API garantiza una conversión de texto precisa y eficiente con mínimas equivocaciones.
Una de sus características más destacadas es el soporte multilingüe, que permite a los usuarios transcribir audio en varios idiomas con notable precisión. Esto la convierte en una herramienta esencial para quienes necesitan transcripciones de alta calidad en diferentes contextos lingüísticos.
Para usar este punto final, debes indicar la URL de un audio en el parámetro.
Transcripción - Características del Endpoint
| Objeto | Descripción |
|---|---|
url |
[Requerido] Indicates a URL |
{"success":true,"audio_file":"https://s31.aconvert.com/convert/p3r68-cdx67/s49sb-3bftf.mp3","output":{"text":"Ciao a tutti, come state?","result":{"text":"Ciao a tutti, come state?","word_count":5,"vtt":"WEBVTT\n\n00.000 --> 01.860\nCiao a tutti, come state?","words":[{"word":"Ciao","start":0,"end":0.23999999463558197},{"word":"a","start":0.23999999463558197,"end":0.4000000059604645},{"word":"tutti,","start":0.4000000059604645,"end":1.0800000429153442},{"word":"come","start":1.0800000429153442,"end":1.2799999713897705},{"word":"state?","start":1.2799999713897705,"end":1.8600000143051147}]}}}
curl --location --request GET 'https://zylalabs.com/api/6376/voice+transcription+api/9143/transcription?url=https://imgv3.fotor.com/images/blog-richtext-image/make-a-watermark-for-a-landscape-image.jpg' --header 'Authorization: Bearer YOUR_API_KEY'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
La API de Análisis de Discurso devuelve texto transcrito a partir de la entrada de audio. La salida incluye el discurso reconocido en formato de texto, que puede ser utilizado para diversas aplicaciones como subtítulos, documentación o análisis.
Los campos clave en los datos de respuesta generalmente incluyen "transcripción" para el texto convertido, "idioma" que indica el idioma detectado y "confianza" que refleja la precisión de la transcripción.
El parámetro principal para el endpoint POST Obtener Texto es el "audio_url", que especifica la URL del archivo de audio que se va a transcribir. Los parámetros adicionales pueden incluir "language" para especificar el idioma deseado para la transcripción.
Los datos de respuesta están organizados en un formato JSON, que contiene pares de clave-valor. La estructura principal incluye campos para la transcripción, el idioma y el puntaje de confianza, lo que permite una fácil análisis e integración en aplicaciones.
Los casos de uso típicos incluyen la generación de subtítulos para videos, la creación de transcripciones para reuniones o entrevistas, la mejora de la accesibilidad para usuarios con discapacidades auditivas y el análisis de contenido hablado para obtener información en diversas industrias.
La precisión de los datos se mantiene a través de algoritmos avanzados de reconocimiento de voz y entrenamiento continuo en conjuntos de datos diversos. La API también emplea controles de calidad para minimizar los errores y mejorar la fiabilidad de la transcripción.
Los usuarios pueden personalizar sus solicitudes especificando el parámetro "idioma" para dirigirse a idiomas específicos para la transcripción. Esto permite obtener resultados personalizados basados en el contexto lingüístico del contenido de audio.
Los patrones de datos estándar incluyen oraciones coherentes con la puntuación y capitalización adecuadas. Los usuarios pueden esperar variaciones en la precisión en función de la calidad del audio, los acentos de los hablantes y los niveles de ruido de fondo.
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.148ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
646ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
13.953ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
84ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
4.790ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
14ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
363ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
21ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
124ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
224ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.151ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
7ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
993ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
282ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.398ms