该API使用可用于字符串相似性比较的算法,如Levenshtein、Jaro-Winkler和Dice。这些算法比较两个字符串中的字符或词,并根据相似性分配分数。例如,Levenshtein距离算法计算将一个字符串转换为另一个字符串所需的最小插入、删除或替换次数。Jaro-Winkler距离算法根据匹配字符的数量和将一个字符串转换为另一个字符串所需的交换次数计算相似性分数。
文本相似性API可用于多种目的,如数据去重、记录链接和模糊匹配。例如,在数据去重中,API可以用来比较数据库中的两个记录,以确定它们是否代表相同的实体,如客户或产品。在记录链接中,API可以用来链接来自不同数据源的记录,这些记录代表相同的实体。在模糊匹配中,API可用于匹配可能包含拼写错误、打字错误或格式变化的文本字符串。
使用文本相似性API的主要优点之一是它在字符串匹配方面提供了高准确性。此外,API可以快速高效地比较单词,使实时处理数据或数据流更加容易。该API提供强大的功能和精准度。这使得用户更容易找到精确的测量值,并发现字符串中找到的相似文本的百分比。这使您能够根据特定需求定制搜索结果,使该API成为您应用程序或与字符串相关的服务的灵活多功能工具。
总之,文本相似性API是比较文本字符串和确定其相似性的有用工具。通过使用API,开发人员可以创建依赖于字符串相似性比较的应用程序,如数据去重、记录日志等。
它将接收参数并为您提供JSON。
数据去重:可用于识别数据库中的重复记录,例如重复的客户条目或重复的产品列表。
模糊匹配:可用于匹配相似的文本字符串,例如姓名或地址,即使它们包含拼写错误或变体。
记录链接:该API可用于区分来自不同数据源的记录,这些记录代表类似实体,例如客户或患者。
搜索引擎优化:可用于识别网站上的重复内容,这可能会对搜索引擎排名产生负面影响。
欺诈检测:可用于识别欺诈活动,例如检测相似的用户帐户或交易模式。
免费计划每秒1个请求。
获取文本比较 - 端点功能
| 对象 | 描述 |
|---|---|
string1 |
[必需] |
string2 |
[必需] |
{"string1":"Arun","string2":"Kumar","results":{"jaro-wrinkler":0.48333333333333334,"levenshtein-inverse":0.2,"dice":0}}
curl --location --request GET 'https://zylalabs.com/api/1961/text+similarity+api/1711/get+text+comparison?string1=twitter&string2=twitte' --header 'Authorization: Bearer YOUR_API_KEY'
要使用此端点,您只需在参数中插入两个字符串。
获取比较 - 端点功能
| 对象 | 描述 |
|---|---|
请求体 |
[必需] Json |
{"string1":"Arun","string2":"Kumar","results":{"jaro-wrinkler":0.48333333333333334,"levenshtein-inverse":0.2,"dice":0}}
curl --location --request POST 'https://zylalabs.com/api/1961/text+similarity+api/1712/get+comparison' --header 'Authorization: Bearer YOUR_API_KEY'
--data-raw '{
"string1": "twitter",
"string2": "twitte"
}'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。
每个端点返回一个包含输入字符串的JSON对象和一个使用各种算法计算相似度得分的结果对象,例如Jaro-Winkler Levenshtein和Dice
响应数据中的关键字段包括“string1”、“string2”以及一个“results”对象,该对象包含每种使用的算法的相似度分数,例如“jaro-winkler”、“levenshtein-inverse”和“dice”
端点需要两个参数:“string1”和“string2”,它们是要比较的文本字符串。用户可以通过提供不同的文本输入来自定义他们的请求进行比较
响应数据以JSON格式组织,输入字符串位于顶层,并且有一个嵌套的“results”对象,包含每个算法的相似度分数,便于访问和解释
典型用例包括数据去重以识别重复记录 模糊匹配以纠正拼写错误 跨数据源的记录链接 以及通过分析相似交易模式进行欺诈检测
数据准确性通过使用如Levenshtein和Jaro-Winkler等已建立的算法得以保持,这些算法旨在根据字符和单词比较提供可靠的相似性评分
用户可以期待每个算法的相似性分数范围从0(无相似性)到1(完全相同的字符串) 分数可能根据输入字符串的性质而有所不同,如长度和字符差异
用户可以通过分析相似性评分来利用返回的数据,以确定输入字符串之间的关系有多紧密,从而实现去重、记录链接和增强搜索功能等应用
服务级别:
100%
响应时间:
542ms
服务级别:
100%
响应时间:
250ms
服务级别:
100%
响应时间:
162ms
服务级别:
100%
响应时间:
393ms
服务级别:
100%
响应时间:
308ms
服务级别:
100%
响应时间:
393ms
服务级别:
100%
响应时间:
381ms
服务级别:
100%
响应时间:
820ms
服务级别:
100%
响应时间:
326ms
服务级别:
100%
响应时间:
388ms
服务级别:
100%
响应时间:
56ms
服务级别:
100%
响应时间:
7,909ms
服务级别:
100%
响应时间:
55ms
服务级别:
100%
响应时间:
5,620ms
服务级别:
100%
响应时间:
229ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
291ms
服务级别:
100%
响应时间:
0ms
服务级别:
100%
响应时间:
55ms
服务级别:
100%
响应时间:
291ms