Skip to content

تبدیل صدا به متن

ماژول اصلیتعریف ماژولتوضیحات
Speech to Text (STT)تبدیل صدا به متنتبدیل گفتار به متن دقیق و سریع

فیچرلیست:

ردیفدسته بندیویژگی (Feature)پارامترهای کلیدی / گزینه‌هاداستان کاربر (User Story)
1قابلیت‌های اصلی رونویسیرونویسی با دقت بالاmodel ('telephony', 'media'), languageبه عنوان یک روزنامه‌نگار، می‌خواهم مصاحبه‌های ضبط شده خود را با کمترین خطای ممکن به متن تبدیل کنم تا در زمان پیاده‌سازی صرفه‌جویی کنم.
2قالب‌بندی خودکار و علائم نگارشیenable_automatic_punctuation (true/false)به عنوان یک کاربر، می‌خواهم متن خروجی دارای نقطه، ویرگول و حروف بزرگ باشد تا خوانا بوده و نیاز به ویرایش نداشته باشد.
3نشانه‌گذاری زمانی کلمات (Word Timestamps)enable_word_timestamps (true/false)به عنوان یک تولیدکننده ویدیو، می‌خواهم برای ویدیوهایم زیرنویس دقیقی بسازم که کاملاً با زمان صحبت گوینده هماهنگ باشد.
4پردازش پیشرفته صوتشناسایی گوینده (Speaker Diarization)enable_diarization (true/false), num_speakersبه عنوان یک منشی جلسه، می‌خواهم متن پیاده‌شده جلسه مشخص کند که هر جمله توسط کدام یک از شرکت‌کنندگان بیان شده است.
5شناسایی خودکار زبان (Language ID)auto_detect_language (true/false)به عنوان مدیر یک مرکز تماس بین‌المللی، می‌خواهم سیستم به صورت خودکار زبان مکالمات ورودی را تشخیص داده و رونویسی کند.
6پشتیبانی از مدل‌های تخصصی صوتaudio_profile ('meeting', 'phone_call', 'podcast')به عنوان یک شرکت، می‌خواهم برای تحلیل مکالمات تلفنی که کیفیت صدای پایینی دارند، از یک مدل بهینه‌سازی شده برای همان کار استفاده کنم.
7پردازش فایل‌های صوتی چند کانالهchannel_count, channel_mappingبه عنوان یک تهیه‌کننده پادکست که صدای هر مهمان را در یک کانال صوتی جداگانه ضبط می‌کند، می‌خواهم با آپلود یک فایل چند کاناله، رونویسی کاملاً تفکیک‌شده هر گوینده را دریافت کنم.
8هوشمندی و تحلیل مکالمهخلاصه‌سازی خودکار مکالمهenable_summarization (true/false)به عنوان یک مدیر فروش، می‌خواهم پس از هر جلسه فروش، خلاصه‌ای از نکات کلیدی و تصمیمات گرفته شده را به صورت خودکار دریافت کنم.
9تحلیل احساسات (Sentiment Analysis)enable_sentiment_analysis (true/false)به عنوان مدیر مرکز تماس، می‌خواهم مکالماتی که در آن‌ها مشتری عصبانی یا ناراضی است را شناسایی کنم تا آن‌ها را برای بررسی بیشتر بازبینی کنم.
10تشخیص موضوع و استخراج کلمات کلیدیenable_topic_detection (true/false)به عنوان یک تحلیل‌گر محصول، می‌خواهم با تحلیل هزاران مکالمه پشتیبانی، بفهمم که مشتریان بیشتر در مورد کدام ویژگی‌های محصول ما صحبت می‌کنند.
11استخراج وظایف و موارد قابل پیگیریenable_action_item_detection (true/false)به عنوان یک عضو تیم، می‌خواهم پس از جلسه، لیستی از تمام وظایفی که به من محول شده است را به صورت خودکار از متن گفتگو استخراج کنم.
12تحلیل پیشرفته تعاملات (Interaction Analytics)enable_interaction_analytics (true/false)به عنوان یک مربی فروش، می‌خواهم گزارشی از معیارهایی مانند «نسبت صحبت به گوش دادن» فروشندگانم را مشاهده کنم تا به آن‌ها در بهبود عملکردشان کمک کنم.
13پایش انطباق با اسکریپت و قوانین (Compliance Monitoring)script_adherence_rules, compliance_checklistبه عنوان مدیر انطباق در یک شرکت مالی، نیاز دارم سیستم به صورت خودکار بررسی کند که آیا کارشناسان ما در تمام تماس‌ها، بیانیه قانونی لازم را قرائت کرده‌اند.
14سفارشی‌سازی و ارتقاء دقتواژگان سفارشی (Custom Vocabulary)custom_vocabulary_id, boost_levelبه عنوان یک شرکت پزشکی، می‌خواهم نام‌های تخصصی داروها و تجهیزات ما که در مکالمات استفاده می‌شود، به درستی توسط سیستم تشخیص داده شود.
15فاین‌تیونینگ مدل بر روی داده‌های صوتی مشتریtraining_audio_dataset, base_modelبه عنوان یک شرکت فعال در حوزه پزشکی، می‌خواهم با آموزش مدل بر روی مکالمات پزشکی، دقت تشخیص اصطلاحات تخصصی و لهجه پزشکان را به بالاترین سطح ممکن برسانم.
16فیلتر کردن کلمات نامناسب (Profanity Filtering)enable_profanity_filter (true/false)به عنوان یک پلتفرم محتوا، می‌خواهم در متن رونویسی شده ویدیوهای عمومی، کلمات نامناسب به صورت خودکار با ستاره جایگزین شوند.
17پنهان‌سازی اطلاعات حساس (PII Redaction)pii_redaction_policyبه عنوان مدیر امنیت یک بانک، می‌خواهم شماره کارت‌های اعتباری که در مکالمات تلفنی توسط مشتریان گفته می‌شود، به صورت خودکار از متن حذف شود.
18کاربردهای بی‌درنگ و توانمندسازیAPI بی‌درنگ (Streaming API) با نتایج موقتWebSocket/gRPC endpointsبه عنوان توسعه‌دهنده یک اپلیکیشن دستیار صوتی، می‌خواهم همزمان با صحبت کردن کاربر، متن رونویسی شده را به صورت زنده روی صفحه نمایش دهم.
19دستیار بی‌درنگ کارشناس (Real-time Agent Assist)knowledge_base_id, real_time_triggersبه عنوان یک کارشناس پشتیبانی در حین یک تماس زنده، می‌خواهم وقتی مشتری در مورد «سیاست بازگشت کالا» سوال می‌کند، سیستم به صورت خودکار مقاله مربوط به آن را روی صفحه من باز کند.
20پلتفرم، API و عملیاتAPI پردازش دسته‌ای (Batch API)batch_file_url, webhook_urlبه عنوان یک محقق، می‌خواهم آرشیو صوتی مصاحبه‌های یک سال گذشته خود را به صورت یکجا برای رونویسی ارسال کنم و پس از اتمام کار، مطلع شوم.
21کتابخانه‌های توسعه نرم‌افزار (SDKs)pip install stt-sdk, npm install stt-sdkبه عنوان یک توسعه‌دهنده، می‌خواهم با استفاده از یک کتابخانه آماده، به راحتی قابلیت تبدیل صدا به متن را به اپلیکیشن خود اضافه کنم.
22داشبورد تحلیل و مصرف(Admin Dashboard UI)به عنوان مدیر محصول، می‌خواهم گزارش دقیقی از میزان دقایق پردازش شده، زبان‌های پراستفاده و هزینه‌های ماهانه سرویس داشته باشم.