超越标准合成。我们的高清(HD)生成级别提供自然呼吸、停顿和情感表达的声音。
上下文感知交付:引擎分析文本以理解是否应该低声细语、喊出警告或以权威态度传达新闻。
自然语调:能够插入现实人类元素,如“嗯”、“呃”和呼吸,使对话代理听起来真诚自发。
情感智能:基于剧本的情感动态调整情感权重(喜悦、悲伤、紧迫感)。
停止依赖僵化的代码标签。使用自然语言提示控制声音。
提示到语音:只需告诉API:“像疲惫的故事书旁白一样朗读”或“像体育评论员一样快速兴奋地说”。
细粒度节奏:将演讲的节奏精确到毫秒。伸展停顿以达到戏剧效果,或加速特定短语以模仿快速的闲聊。
通过一次API调用生成复杂的音频场景。
无缝轮流交谈:模拟播客、采访或客服角色扮演,其中多个不同的声音互动。
统一上下文:系统保持不同说话者之间对话的语调和流畅性,确保没有突兀的过渡。
我们的基础设施为全球部署而设计,确保您的应用程序可以用客户的语言与其沟通——字面意思。
| 特性 | 规格 |
|---|---|
| 声音组合 | 访问380+种不同的声音角色,涵盖所有级别。 |
| 语言覆盖 | 对80+种语言及其变体(地区)提供原生支持。 |
| 区域口音 | 深度支持区域细微差别(例如,5种以上的英语、3种以上的西班牙语和法语变体)。 |
| 录音级别 | 由专业配音演员录制的专业声音,适用于长篇内容(有声书/新闻),以消除听众疲劳。 |
为追求可靠性和灵活性的开发人员而构建。
超低延迟:“闪电”模型架构在<300毫秒内提供音频,使AI代理能够进行实时可中断的语音对话。
高保真音频:
录音室质量:最高支持48 kHz采样率。
压缩输出:(MP3)供后期制作使用。
输入灵活性:接受纯文本和自然语言提示。
双向流:播放即时开始,而句子的其余部分仍在生成中。
互动AI代理:提供同情心和人性化的客户支持机器人,而不是机械化的声音。
内容制作:自动化有声书旁白、播客创建和视频配音,成本仅为录音室的几分之一。
教育科技与电子学习:生成动态的语言学习课程,具备80多种语言的完美母语发音。
游戏与虚拟现实:创建动态的NPC(非玩家角色),能够即时生成独特对话而无需预先录制的台词。
{
"data": [
{
"gender": "FEMALE",
"language_code": "en-US",
"language_name": "English (US)",
"type": "Premium",
"voice_id": "en-US-News-L"
}
],
"message": "success",
"success": true
}
curl --location --request GET 'https://zylalabs.com/api/11558/ultra+text-to-speech+api/21834/list+of+voices' --header 'Authorization: Bearer YOUR_API_KEY'
创建文本转语音 - 端点功能
| 对象 | 描述 |
|---|---|
请求体 |
[必需] Json |
{"data":"https://s3.us-east-1.amazonaws.com/invideo-uploads-us-east-1/speechen-US-News-L17664032245720.mp3","message":"success","success":true}
curl --location --request POST 'https://zylalabs.com/api/11558/ultra+text-to-speech+api/21835/create+text-to-speech' --header 'Authorization: Bearer YOUR_API_KEY'
--data-raw '{
"gender": "FEMALE",
"language_code": "en-US",
"language_name": "English (US)",
"voice_id": "en-US-News-L",
"text": "Stand by... we have a major development coming into the newsroom right now. After weeks of uncertainty—and hours of intense speculation—the decision has finally been made. The result? It is absolutely not what anyone expected! Sources on the ground are describing the atmosphere as tense... yet strangely hopeful. We are working to confirm the details at this very moment, so please... do not go anywhere."
}'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。
获取语音列表的端点返回可用的语音角色列表,包括性别、语言代码和语音类型等属性 创建文本转语音的POST端点返回生成的音频文件的URL链接和成功消息
获取语音列表的关键字段包括“性别”“语言代码”“语言名称”“类型”和“语音 ID” 创建文本转语音的关键字段是“数据”(音频 URL)“消息”和“成功”
POST 创建文本转语音接口接受参数,如需转换的文本和可选的自然语言提示以进行声音调节。用户可以通过这些提示自定义传递风格和节奏
获取语音列表的响应数据以JSON格式组织,其中在“data”键下有一个语音对象数组 POST创建文本到语音的响应包含一个具有“data”“message”和“success”键的单个对象
典型的用例包括为互动 AI 代理生成动态音频 自动化有声书叙述 创建引人入胜的教育内容以及通过真实的 NPC 对话增强游戏体验
数据准确性通过专业配音演员录音和先进的人工智能算法相结合来保持,从而确保高质量的语音合成 持续的更新和用户反馈也有助于提高语音表现
用户可以利用POST创建文本到语音响应中返回的音频URL来播放或存储生成的音频。GET声音列表中的声音属性可以帮助用户选择最适合其应用程序的声音
用户可以期待结构化的JSON响应,其中包含明确的成功指示。对于获取声音列表,数据通常会包含多个声音选项,而POST创建文本到语音将在成功处理后返回一个音频文件链接
用户可以通过利用GET语音列表中返回的属性来定制他们的语音选择。他们可以根据性别、语言和类型过滤语音,以找到最适合其应用的语音角色
该API支持生成的文本到语音音频的MP3格式音频输出。该格式适合后期制作并易于集成到各种应用程序中
API的情感智能功能根据输入文本的情感动态调整演讲的情感权重,使得演讲更加引人入胜和符合上下文的交付
POST创建文本转语音响应中的“数据”字段包含生成的音频文件的URL链接 用户可以使用该链接播放或下载音频以供其应用程序使用
多语者“对话”引擎允许API模拟具有不同声音的对话,保持统一的上下文和语调,这对于在播客或客户服务场景中创建真实的互动至关重要
自然语言提示使用户能够直观地控制语音传递风格,从而实现像“兴奋地说”或“慢慢地读”等创造性表达。这种灵活性增强了音频的情感影响力和互动性
该API提供对地区口音的深入支持,为英语、西班牙语和法语等语言提供多种变体。这确保生成的语音与当地观众产生共鸣并增强相关性
如果用户收到空响应,他们应该检查输入参数的准确性和完整性 确保文本和提示有效可以帮助避免空结果并提高成功生成音频的可能性
服务级别:
100%
响应时间:
731ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
4,790ms
服务级别:
100%
响应时间:
1,594ms
服务级别:
100%
响应时间:
646ms
服务级别:
100%
响应时间:
65ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
123ms
服务级别:
100%
响应时间:
97ms
服务级别:
100%
响应时间:
452ms
服务级别:
100%
响应时间:
105ms
服务级别:
100%
响应时间:
670ms
服务级别:
100%
响应时间:
133ms
服务级别:
100%
响应时间:
663ms
服务级别:
83%
响应时间:
564ms
服务级别:
100%
响应时间:
97ms
服务级别:
100%
响应时间:
10,090ms