提升您的数据处理能力,使用Extracta.ai的文档数据提取API。我们前沿的解决方案使您的系统能够自动从多种文档中提取结构化数据 - 无论是扫描图像、PDF、电子邮件、发票、合同,还是您能想到的任何数字文件格式。我们的API量身定制,以满足各行业的需求,促进工作流程的无缝自动化,显著减少手动操作并提高整体效率 功能:
使用必需的参数结构化请求:'name','language','fields' 和 'file'。每个字段都需要一个 'key','description' 和 'example' 为可选。文档必须以 'base64String' 或 'fileUrl' 的形式提供。
## API 文档
本节提供了为 Extracta.ai 结构化文档解析 API 请求的指南。请确保遵循以下格式以成功提取数据:
## 请求格式
```
{
"extractionDetails": {
"name": "提取名称", // 必需 - 为您的提取过程命名
"language": "支持的语言", // 必需 - 从支持的语言中选择
"fields": [
{
"key": "字段键", // 必需 - 定义数据提取的键
"description": "字段描述", // 可选 - 描述字段
"example": "字段示例" // 可选 - 提供示例值
},
...
]
},
"file": "base64String 或文件 URL" // 必需 - 以 base64String 格式或作为 URL 提供文档
}
```
## 高级格式
除了前面部分中概述的基本格式外,Extracta.ai 还支持更复杂的数据结构以满足专业的提取需求。这种高级格式允许定义 **嵌套对象和数组**,适应更广泛的数据表示。
### 类型 `object`
**object** 类型表示具有多个 **属性** 的结构化对象。每个属性在数组中定义为一个对象,并可以包含自己的 **key**、**description**、**type** 和 **example**。
```
{
"key": "personal_info",
"description": "个人信息", // 可选
"type": "object",
"properties": [
{
"key": "name",
"description": "姓名", // 可选
"example": "亚历克斯·史密斯", // 可选
"type": "string" // 可选
},
{
"key": "email",
"description": "电子邮件",
"example": "[email protected]",
"type": "string"
},
.....
]
}
```
### 类型 `array`
**array** 类型用于 **项目** 的列表,例如工作经验的集合。items 键包含一个对象,定义数组中每个项目的结构。
```
{
"key": "work_experience",
"description": "工作经验", // 可选
"type": "array",
"items": {
"type": "object",
"properties": [
{
"key": "title",
"description": "职位名称", // 可选
"example": "软件工程师", // 可选
"type": "string" // 可选
},
{
"key": "start_date",
"description": "工作开始日期",
"example": "2022",
"type": "string"
},
...
]
}
}
```
### 使用注意事项 | 文档解析 API
- 对于 `object` 和 `array` 类型,`example` 参数仅适用于其内部属性/项目。
- 在定义字段时,如果未指定 `type`,则默认为 `string`。
- 对于 `object` 和 `array` 类型,内部字段只能是 `string` 类型。这意味着对象中的每个属性或数组中的每个项目都应为字符串类型,以确保数据表示的一致性和简单性。
- 这些高级字段类型使更详细和结构化的数据表示成为可能,增强了 Extracta.ai 的数据提取过程的能力。
## 支持的文件类型
Extracta.ai 能够处理 **图像(JPG、PNG)、PDF 和 DOCX 格式** 的文档。这一增强使得更多类型的文档可以提交进行提取。
## 支持的语言
Extracta.ai 目前支持以下语言的文档提取:**罗马尼亚语、英语、法语、西班牙语、阿拉伯语、葡萄牙语、德语、意大利语**。还计划支持另外 20 种语言。
**注意**:如果指定了不支持的语言,API 将返回错误消息,指示语言选择无效。请通过我们的 API 文档了解新的语言添加情况。
流程文件 - 端点功能
| 对象 | 描述 |
|---|---|
请求体 |
[必需] Json |
{
"name": "Darren Charles",
"email": "[email protected]",
"phone": "+1-709-680-9033",
"address": "9 Corpus Christi, Texas",
"soft_skills": "highly motivated, ability to translate business strategies, learn new things",
"hard_skills": "Matlab, MeVisLab, Keras, CUDA, Git, DataStage, MQTT",
"last_job": "Trainee With English Communications",
"years_of_experience": "Ongoing"
}
curl --location --request POST 'https://zylalabs.com/api/3606/document+data+extraction+api/4000/process+document' --header 'Authorization: Bearer YOUR_API_KEY'
--data-raw '{
"extractionDetails": {
"name": "CV - Extraction",
"language": "English",
"fields": [
{
"key": "name",
"description": "the name of the person in the CV",
"example": "Johan Smith"
},
{
"key": "email",
"description": "the email of the person in the CV",
"example": "[email protected]"
},
{
"key": "phone",
"description": "the phone number of the person",
"example": "123 333 4445"
},
{
"key": "address",
"description": "the compelte address of the person",
"example": "1234 Main St, New York, NY 10001"
},
{
"key": "soft_skills",
"description": "the soft skills of the person",
"example": ""
},
{
"key": "hard_skills",
"description": "the hard skills of the person",
"example": ""
},
{
"key": "last_job",
"description": "the last job of the person",
"example": "Software Engineer"
},
{
"key": "years_of_experience",
"description": "the years of experience of last job",
"example": "5"
}
]
},
"file": "https://deveatery.com/extracta/cv.png"
}'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。
我们能够处理各种类型的文件,包括结构化和非结构化格式,例如PDF Word文档 文本文件和扫描图像(PNG JPG格式),根据需要使用OCR技术
API返回从文档中提取的结构化数据,包括姓名、电子邮件、电话、地址和技能等关键字段。这些数据以JSON格式组织,便于集成到应用程序中
用户可以通过在'fields'参数中定义特定的提取标准来自定义请求。每个字段可以包含'key'、'description'和'example',允许根据独特的业务需求量身定制数据提取
响应数据通常包括“姓名”“电子邮件”“电话”“地址”“软技能”“硬技能”“最后一份工作”和“工作经验年限”等字段 这些字段提供了对提取文档内容的全面洞察
响应数据采用JSON格式结构,其中每个键对应提取的信息的特定部分。这种组织方式便于解析和整合到各种应用程序中
API可以从各种文档类型中提取广泛的信息,包括个人详细信息、联系信息、技能、工作经验和教育背景,如简历和发票
数据准确性通过先进的提取算法得以保持,这些算法利用最先进的技术 API无需预训练,确保从多种文档格式中快速而准确地提取
该端点接受参数,如'name'(提取名称)、'language'(支持的语言)和'fields'(特定数据键)用户必须提供有效的文档,格式可以是'base64String'或'fileUrl'
典型的用例包括自动化从简历、发票、合同和其他文件中提取数据、优化人力资源、财务和法律行业的工作流程,并提高各行业的数据处理效率
服务级别:
100%
响应时间:
1,586ms
服务级别:
100%
响应时间:
1,344ms
服务级别:
100%
响应时间:
1,945ms
服务级别:
100%
响应时间:
1,429ms
服务级别:
100%
响应时间:
1,812ms
服务级别:
100%
响应时间:
1,296ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
737ms
服务级别:
100%
响应时间:
3,382ms
服务级别:
100%
响应时间:
10,154ms
服务级别:
100%
响应时间:
609ms
服务级别:
100%
响应时间:
1,738ms
服务级别:
100%
响应时间:
292ms
服务级别:
100%
响应时间:
887ms
服务级别:
100%
响应时间:
642ms
服务级别:
100%
响应时间:
2,410ms
服务级别:
100%
响应时间:
2,084ms
服务级别:
100%
响应时间:
291ms
服务级别:
100%
响应时间:
1,202ms
服务级别:
100%
响应时间:
1,786ms