PresentID 说话人验证 API 检查两个声音是否属于同一个人。这项功能在呼叫中心中潜在非常有用。
我们提出了一种基于深度学习的说话人验证方法。我们的团队在这个项目上工作了超过一年,其准确性超过了例如牛津大学 Andrew Zisserman 团队的论文中的基准。在与其他依赖文本的方法相比,我们的模型是文本和语言无关的。另一方面,我们模型的处理速度小于 1 秒,并且模型仅通过两个长度为 4 秒的声音来验证一个人。我们在包含英语、法语、西班牙语、德语、波斯语和阿拉伯语的音轨上训练了该模型。我们的模型对环境和虚拟噪声具有鲁棒性。
**输入:**
- 声音文件
- 声音 URL 链接
- Base64 声音
**输出:**
- 结果索引
- 结果消息
**特点:**
- 准确度超过 90%。
- 处理时间少于 1 秒。
- 不需要 GPU。
- 语言和文本独立。
- 与您的应用轻松集成。
- 支持 IOS、Android、Windows 和 Mac 设备。
- 与您的应用轻松集成。
**用例:**
- 呼叫中心
**规则和限制:**
- 通过 Base64 或声音 URL 或声音文件发送数据。
- 声音必须在三秒到一分钟之间。
- 声音文件不得超过 5 MB。
- 支持的文件类型:WAV、MP3、M4A、FLAC、AAC、OGG。
扬声器验证API检查两个声音是否属于同一个人
声音必须在三秒到一分钟之间
声音文件不得超过5 MB
支持的文件类型:wav,mp3,m4a,FLAC,aac,ogg
发送语音和语音文件 - 端点功能
| 对象 | 描述 |
|---|
{
"data": {
"resultIndex": 0,
"resultMessage": "The two voices don't belong to the same person."
},
"hasError": false,
"statusCode": 200,
"statusMessage": "Login Successfull"
}
curl --location --request POST 'https://zylalabs.com/api/4004/speaker+verification/4784/send+voice+with+voice+file' --header 'Authorization: Bearer YOUR_API_KEY'
语音验证API检查两个声音是否属于同一个人
声音时长必须在三秒到一分钟之间
声音文件不得超过5 MB
支持的文件类型:wav,mp3,m4a,FLAC,aac,ogg
发送带有Base64的语音 - 端点功能
| 对象 | 描述 |
|---|
{"statusCode":400,"statusMessage":"You must upload a sound file.","hasError":true,"features":null}
curl --location --request POST 'https://zylalabs.com/api/4004/speaker+verification/4785/send+voice+with+base64' --header 'Authorization: Bearer YOUR_API_KEY'
说话者验证API检查两个声音是否属于同一个人
声音必须在三秒到一分钟之间
声音文件不得超过5 MB
支持的文件类型:wav mp3 m4a FLAC aac ogg
通过语音网址发送语音 - 端点功能
| 对象 | 描述 |
|---|
{"statusCode":400,"statusMessage":"You must upload a sound file.","hasError":true,"features":null}
curl --location --request POST 'https://zylalabs.com/api/4004/speaker+verification/4786/send+voice+with+voice+url' --header 'Authorization: Bearer YOUR_API_KEY'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。
PresentID 语音验证 API 旨在确认两个语音样本是否来自同一个人 该功能对于需要通过声音进行安全身份验证的应用程序至关重要,如银行业务、访问控制和远程身份验证场景
要使用API,您需要通过POST请求提交两个单独的音频剪辑。API分析两个样本的声音特征,比较音调、语气和调制等特征,以确定它们是否匹配。然后,它返回一个置信度分数或一个二进制结果,指示这些声音是否来自同一个人
API支持常见的音频文件格式,包括WAV MP3和AAC 为获得最佳效果 确保录音清晰 背景噪音最小 且两个样本中的口语内容相似
是的,API存在限制,这些限制根据您选择的订阅计划而异。这些限制可能涉及您可以上传的音频文件的大小以及您每天或每月可以发出的验证请求数量。有关具体细节,请参阅定价页面或您的用户仪表板
您可能会遇到几种常见错误: 400 错误请求:如果音频文件过大、损坏或格式不正确,则通常会出现此错误。确保您的文件在所需的大小限制内且格式正确。 401 未授权:如果您的 API 密钥丢失、不正确或已过期,就会发生这种情况。确保您的 API 密钥有效并正确包含在请求头中。 429 请求过多:这表示您已超过订阅计划设置的 API 使用限制。考虑升级您的计划或更有效地管理请求速率。
每个端点返回一个JSON响应,其中包含一个`data`对象,包含`resultIndex`和`resultMessage`。`resultIndex`指示声音是否匹配(0表示不匹配,1表示匹配),而`resultMessage`提供验证过程的描述结果
响应数据中的关键字段包括 `resultIndex`,表示匹配状态,`resultMessage`,描述结果,`hasError`,指示是否发生错误,以及 `statusCode` 和 `statusMessage`,表示整体请求状态
端点接受参数,例如音频文件(语音文件、Base64或语音网址)音频必须在3秒到1分钟之间,不超过5MB,并且必须是支持的格式,如WAV MP3或AAC
响应数据以JSON格式组织 包含一个`data`对象其中有验证结果和用于错误处理和状态的附加字段 这种结构使得解析和集成到应用程序中变得简单
典型的用例包括呼叫中心的身份验证 银行的欺诈预防 和安全访问控制系统 该API可以通过确认用户的声音样本来提高安全性
用户可以通过检查 `resultIndex` 来确定语音是否匹配并使用 `resultMessage` 获取详细反馈,以利用返回的数据。这些信息可以指导后续行动,例如允许访问或标记潜在的欺诈行为
该API采用深度学习模型,训练了来自多种语言的多样声音样本,确保高精度和对环境噪声的强抗干扰能力。持续对标测试有助于保持数据质量
如果API返回错误或空结果,请检查音频文件的格式、大小和长度。确保输入符合指定要求。在您的应用程序中实现错误处理,以优雅地管理这些情况
服务级别:
100%
响应时间:
1,148ms
服务级别:
100%
响应时间:
3,275ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
844ms
服务级别:
100%
响应时间:
0ms
服务级别:
91%
响应时间:
3,184ms
服务级别:
100%
响应时间:
731ms
服务级别:
100%
响应时间:
1,277ms
服务级别:
100%
响应时间:
568ms
服务级别:
100%
响应时间:
5,047ms
服务级别:
100%
响应时间:
494ms
服务级别:
100%
响应时间:
573ms
服务级别:
100%
响应时间:
432ms
服务级别:
100%
响应时间:
798ms
服务级别:
100%
响应时间:
360ms
服务级别:
100%
响应时间:
1,008ms
服务级别:
100%
响应时间:
597ms
服务级别:
100%
响应时间:
5,969ms