एपीआई के बारे में:
हिंदी टेक्स्ट-टू-स्पीच एपीआई एक तकनीक है जो लिखित हिंदी टेक्स्ट को वास्तविक समय में प्राकृतिक भाषण में परिवर्तित कर देती है। यह तकनीक उन्नत एल्गोरिदम और न्यूरल नेटवर्क पर आधारित है, जो टेक्स्ट डेटा का विश्लेषण और व्याख्या करने में सक्षम हैं, ताकि अत्यधिक सटीक, स्वाभाविक रूप से उच्चारित भाषण उत्पन्न किया जा सके।
हिंदी की ध्वन्यात्मक और स्वरात्मक संरचना समृद्ध है, जो इसे उच्च गुणवत्ता वाले भाषण उत्पन्न करने में सक्षम टेक्स्ट-टू-स्पीच सिस्टम विकसित करने में कठिन बनाती है। हालांकि, मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस में हाल की प्रगति के कारण, अब एक मजबूत और विश्वसनीय हिंदी टेक्स्ट-टू-स्पीच एपीआई बनाना संभव हो गया है जो ऐसे भाषण का उत्पादन कर सकता है जो लगभग प्राकृतिक भाषण से अप्रभेद्य हो।
हिंदी टेक्स्ट-टू-स्पीच एपीआई टेक्स्ट डेटा का विश्लेषण करता है और इसे छोटे यूनिट्स में विभाजित करता है, जैसे शब्द, वाक्यांश और वाक्य। फिर सिस्टम प्राकृतिक भाषा प्रक्रमण तकनीकों को लागू करता है ताकि टेक्स्ट की सिंटैक्टिक और सिमेंटिक संरचना का विश्लेषण किया जा सके और टेक्स्ट की ध्वन्यात्मक ट्रांसक्रिप्शन उत्पन्न की जा सके। यह ध्वन्यात्मक ट्रांसक्रिप्शन फिर एक स्पीच सिंथेसिस इंजन में डाला जाता है जो भाषण आउटपुट उत्पन्न करता है।
हिंदी टेक्स्ट-टू-स्पीच एपीआई के मुख्य लाभों में से एक यह है कि इसे एक विस्तृत श्रृंखला के अनुप्रयोगों और सेवाओं में आसानी से एकीकृत किया जा सकता है। उदाहरण के लिए, इसका उपयोग मोबाइल अनुप्रयोगों या वेबसाइटों के लिए आवाज-आधारित उपयोगकर्ता इंटरफेस बनाने के लिए किया जा सकता है, जिससे उपयोगकर्ता डिजिटल सामग्री के साथ आवाज कमांड का उपयोग करके इंटरैक्ट कर सकते हैं। इसका उपयोग लिखित सामग्री के ऑडियो संस्करण प्रदान करने के लिए भी किया जा सकता है, जैसे समाचार लेख, ई-बुक्स या शैक्षणिक सामग्री।
इसके अतिरिक्त, हिंदी टेक्स्ट-टू-स्पीच एपीआई को विशिष्ट उपयोग मामलों और अनुप्रयोगों के अनुसार अनुकूलित किया जा सकता है। उदाहरण के लिए, भाषण उत्पादन के लिए गति को कॉन्फ़िगर किया जा सकता है।
निष्कर्ष के रूप में, हिंदी टेक्स्ट-टू-स्पीच एपीआई एक शक्तिशाली और बहुपरकारी तकनीक है जो अनुप्रयोगों और सेवाओं की विस्तृत श्रृंखला को कई लाभ प्रदान कर सकती है। स्वाभाविक और अभिव्यक्तिपूर्ण भाषण आउटपुट प्रदान करके, यह लोगों के लिए उपयोगकर्ता अनुभव और सुलभता में सुधार कर सकती है, विशेषकर दृष्टि बाधित या पढ़ने में कठिनाई वाले लोगों के लिए। मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस में निरंतर प्रगति के साथ, हिंदी टेक्स्ट-टू-स्पीच एपीआई की क्षमताएँ और अनुप्रयोग आने वाले वर्षों में और भी विस्तारित और विकसित होने की संभावना है।
इस एपीआई को क्या प्राप्त होता है और आपकी एपीआई क्या प्रदान करती है (इनपुट/आउटपुट)?
आप जिस टेक्स्ट को परिवर्तित करना चाहते हैं उसे पास करें और आपको उपयोग करने के लिए तैयार ऑडियो प्राप्त होगा।
इस एपीआई के सबसे सामान्य उपयोग मामलों में क्या हैं?
सुलभता: टेक्स्ट-टू-स्पीच का उपयोग दृश्य बाधित व्यक्तियों के लिए सामग्री को सुलभ बनाने के लिए किया जा सकता है, जिससे वे ऑडियो प्रारूप का उपयोग करके टेक्स्ट-आधारित सामग्री का उपभोग कर सकें।
वॉयस असिस्टेंट: उपयोगकर्ताओं के साथ भाषण के माध्यम से इंटरैक्ट करने के लिए एपीआई का उपयोग करके वॉयस असिस्टेंट और चैटबॉट बनाएं।
स्पीच सिंथेसिस: टेलीफोनी सिस्टम, नेविगेशन डिवाइस और अन्य अनुप्रयोगों के लिए लिखित टेक्स्ट से बोली गई आउटपुट उत्पन्न करने के लिए एपीआई का उपयोग करें।
ग्राहक सेवा: टेक्स्ट-टू-स्पीच का उपयोग ग्राहक सेवा अनुप्रयोगों में किया जा सकता है ताकि उन उपयोगकर्ताओं के लिए इंटरएक्टिव अनुभव प्रदान किया जा सके जो टेक्स्ट की बजाय आवाज़ के माध्यम से संचार करना पसंद करते हैं।
ई-लर्निंग: टेक्स्ट-टू-स्पीच का उपयोग लिखित शिक्षण सामग्री, जैसे पाठ्यपुस्तकें या अध्ययन गाइड, को एक ऑडियो प्रारूप में परिवर्तित करने के लिए किया जा सकता है जिसे अन्य गतिविधियों, जैसे व्यायाम या ड्राइविंग के दौरान उपभोग किया जा सके।
क्या आपकी योजनाओं में कोई सीमाएँ हैं?
हर महीने एपीआई कॉल की सीमाओं के अलावा, अन्य कोई सीमाएँ नहीं हैं।
इस त्वरित टेक्स्ट-टू-स्पीच (TTS) का उपयोग करके अपनी टेक्स्ट को ऑडियो में परिवर्तित करें, जिसमें वास्तविक आवाजें हैं
आपको आपके MP3 फ़ाइल के स्थान का URL प्राप्त होगा। बाद में, यदि आवश्यक हो, तो आप इसे डाउनलोड कर सकते हैं
लिंग आवाज विकल्प: पुरुष, महिला या तटस्थ
कृपया प्रीमियम आवाज़ का उपयोग करने के लिए भाषा कोड से पहले "text_premium_" (यदि टेक्स्ट सामग्री है) या "ssml_premium_" (यदि SSML कोड है) जोड़ें (उदाहरण के लिए hi_IN के लिए text_premium_hi_IN होगा)
रूपांतरित करें - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
text |
[आवश्यक] Your text content. 10000 characters limit for any plan. |
gender_voice |
[आवश्यक] Gender voice. Options: male, female or neutral. |
language |
[आवश्यक] Please add "text_premium_" (if text content) or "ssml_premium_" (if SSML code) before the language code if you want to use the premium voice (for e.g. for hi_IN will be text_premium_hi_IN) |
speakingRate |
वैकल्पिक Declare the speed of the voice. The ranges are between 0.25 (slow) and 1 (normal). |
{"message":"Your audio has been created!","audio_src":"https:\/\/getwoordfiles.s3.amazonaws.com\/3531123241733183322674e475abd8971.69864511.mp3","error":false,"total_chars":292,"remaining_chars":999708}
curl --location --request POST 'https://zylalabs.com/api/1797/hindi+text+to+speech+api/1449/convert?text=sabhee ko namaskaar&gender_voice=female&language=hi_IN' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
कन्वर्ट एंडपॉइंट एक JSON उत्तर लौटाता है जिसमें एक संदेश होता है जो ऑडियो निर्माण की स्थिति को इंगित करता है जेनरेट किए गए MP3 फ़ाइल का URL और मेटाडेटा जैसे कुल संसाधित किए गए अक्षर और रूपांतरण के लिए उपलब्ध शेष अक्षर शामिल होते हैं
संदेश (ऑडियो निर्माण की स्थिति) ऑडियो_src (उत्पन्न ऑडियो फ़ाइल का URL) त्रुटि (सफलता या विफलता को दिखाते हुए) कुल_किरदार (प्रसंस्कृत किरदारों की संख्या) और शेष_किरदार (परिवर्तन के लिए बचे किरदार)
परिवर्तन अंत बिंदु "पाठ" (परिवर्तित करने के लिए पाठ) "स्वर" (लिंग निर्दिष्ट करने के लिए: पुरुष महिला या तटस्थ) और "भाषा" (जैसे "hi_IN" हिंदी के लिए) जैसे पैरामीटर स्वीकार करता है उपयोगकर्ता प्रीमियम आवाज़ों के लिए "text_premium_" या "ssml_premium_" उपसर्ग का भी उपयोग कर सकते हैं
Responses का डेटा JSON प्रारूप में व्यवस्थित है इसमें संदेश ऑडियो स्रोत URL त्रुटि स्थिति और चरित्र गिनती के लिए फ़ील्ड्स के साथ एक शीर्ष-स्तरीय ऑब्जेक्ट शामिल है जिससे इसे एप्लिकेशनों में पढ़ना और उपयोग करना आसान हो जाता है
हिंदी टेक्स्ट-टू-स्पीच एपीआई के सामान्य उपयोग के मामलों में वॉयस असिस्टेंट बनाना दृष्टिहीन उपयोगकर्ताओं के लिए पहुंच बढ़ाना ई-लर्निंग के लिए ऑडियो सामग्री उत्पन्न करना और वॉयस के माध्यम से इंटरैक्टिव ग्राहक सेवा अनुभव प्रदान करना शामिल हैं
उपयोगकर्ता अपनी अनुरोधों को इच्छित आवाज के लिंग (पुरुष, महिला, तटस्थ) का चयन करके और भाषा कोड निर्दिष्ट करके कस्टमाइज़ कर सकते हैं इसके अलावा वे भाषा कोड में उपयुक्त उपसर्ग का उपयोग करके मानक और प्रीमियम आवाज विकल्पों के बीच चुन सकते हैं
एपीआई मुख्य रूप से MP3 प्रारूप में ऑडियो आउटपुट का समर्थन करता है इनपुट टेक्स्ट सामान्य टेक्स्ट या एसएसएमएल (स्पीच सिंथेसिस मार्कअप लैंग्वेज) हो सकता है जो अधिक उन्नत भाषण सुविधाओं के लिए है जिससे उच्चारण और स्वर में अधिक नियंत्रण मिलता है
डेटा सटीकता उन्नत एल्गोरिदम और न्यूरल नेटवर्क के माध्यम से बनाए रखी जाती है जो पाठ डेटा का विश्लेषण और व्याख्या करते हैं मशीन लर्निंग और एआई में निरंतर सुधार भाषण संश्लेषण की गुणवत्ता को बढ़ाते हैं सुनिश्चित करते हैं कि आउटपुट प्राकृतिक भाषण के करीब होता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,659ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,076ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,050ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,434ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
131ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,076ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
464ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,138ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
592ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
16ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
916ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,612ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,408ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
684ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
69ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,501ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,691ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
234ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
122ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,645ms