Appearance
تبدیل صدا به متن
| ماژول اصلی | تعریف ماژول | توضیحات |
|---|---|---|
| Speech to Text (STT) | تبدیل صدا به متن | تبدیل گفتار به متن دقیق و سریع |
فیچرلیست:
| ردیف | دسته بندی | ویژگی (Feature) | پارامترهای کلیدی / گزینهها | داستان کاربر (User Story) |
|---|---|---|---|---|
| 1 | قابلیتهای اصلی رونویسی | رونویسی با دقت بالا | model ('telephony', 'media'), language | به عنوان یک روزنامهنگار، میخواهم مصاحبههای ضبط شده خود را با کمترین خطای ممکن به متن تبدیل کنم تا در زمان پیادهسازی صرفهجویی کنم. |
| 2 | قالببندی خودکار و علائم نگارشی | enable_automatic_punctuation (true/false) | به عنوان یک کاربر، میخواهم متن خروجی دارای نقطه، ویرگول و حروف بزرگ باشد تا خوانا بوده و نیاز به ویرایش نداشته باشد. | |
| 3 | نشانهگذاری زمانی کلمات (Word Timestamps) | enable_word_timestamps (true/false) | به عنوان یک تولیدکننده ویدیو، میخواهم برای ویدیوهایم زیرنویس دقیقی بسازم که کاملاً با زمان صحبت گوینده هماهنگ باشد. | |
| 4 | پردازش پیشرفته صوت | شناسایی گوینده (Speaker Diarization) | enable_diarization (true/false), num_speakers | به عنوان یک منشی جلسه، میخواهم متن پیادهشده جلسه مشخص کند که هر جمله توسط کدام یک از شرکتکنندگان بیان شده است. |
| 5 | شناسایی خودکار زبان (Language ID) | auto_detect_language (true/false) | به عنوان مدیر یک مرکز تماس بینالمللی، میخواهم سیستم به صورت خودکار زبان مکالمات ورودی را تشخیص داده و رونویسی کند. | |
| 6 | پشتیبانی از مدلهای تخصصی صوت | audio_profile ('meeting', 'phone_call', 'podcast') | به عنوان یک شرکت، میخواهم برای تحلیل مکالمات تلفنی که کیفیت صدای پایینی دارند، از یک مدل بهینهسازی شده برای همان کار استفاده کنم. | |
| 7 | پردازش فایلهای صوتی چند کاناله | channel_count, channel_mapping | به عنوان یک تهیهکننده پادکست که صدای هر مهمان را در یک کانال صوتی جداگانه ضبط میکند، میخواهم با آپلود یک فایل چند کاناله، رونویسی کاملاً تفکیکشده هر گوینده را دریافت کنم. | |
| 8 | هوشمندی و تحلیل مکالمه | خلاصهسازی خودکار مکالمه | enable_summarization (true/false) | به عنوان یک مدیر فروش، میخواهم پس از هر جلسه فروش، خلاصهای از نکات کلیدی و تصمیمات گرفته شده را به صورت خودکار دریافت کنم. |
| 9 | تحلیل احساسات (Sentiment Analysis) | enable_sentiment_analysis (true/false) | به عنوان مدیر مرکز تماس، میخواهم مکالماتی که در آنها مشتری عصبانی یا ناراضی است را شناسایی کنم تا آنها را برای بررسی بیشتر بازبینی کنم. | |
| 10 | تشخیص موضوع و استخراج کلمات کلیدی | enable_topic_detection (true/false) | به عنوان یک تحلیلگر محصول، میخواهم با تحلیل هزاران مکالمه پشتیبانی، بفهمم که مشتریان بیشتر در مورد کدام ویژگیهای محصول ما صحبت میکنند. | |
| 11 | استخراج وظایف و موارد قابل پیگیری | enable_action_item_detection (true/false) | به عنوان یک عضو تیم، میخواهم پس از جلسه، لیستی از تمام وظایفی که به من محول شده است را به صورت خودکار از متن گفتگو استخراج کنم. | |
| 12 | تحلیل پیشرفته تعاملات (Interaction Analytics) | enable_interaction_analytics (true/false) | به عنوان یک مربی فروش، میخواهم گزارشی از معیارهایی مانند «نسبت صحبت به گوش دادن» فروشندگانم را مشاهده کنم تا به آنها در بهبود عملکردشان کمک کنم. | |
| 13 | پایش انطباق با اسکریپت و قوانین (Compliance Monitoring) | script_adherence_rules, compliance_checklist | به عنوان مدیر انطباق در یک شرکت مالی، نیاز دارم سیستم به صورت خودکار بررسی کند که آیا کارشناسان ما در تمام تماسها، بیانیه قانونی لازم را قرائت کردهاند. | |
| 14 | سفارشیسازی و ارتقاء دقت | واژگان سفارشی (Custom Vocabulary) | custom_vocabulary_id, boost_level | به عنوان یک شرکت پزشکی، میخواهم نامهای تخصصی داروها و تجهیزات ما که در مکالمات استفاده میشود، به درستی توسط سیستم تشخیص داده شود. |
| 15 | فاینتیونینگ مدل بر روی دادههای صوتی مشتری | training_audio_dataset, base_model | به عنوان یک شرکت فعال در حوزه پزشکی، میخواهم با آموزش مدل بر روی مکالمات پزشکی، دقت تشخیص اصطلاحات تخصصی و لهجه پزشکان را به بالاترین سطح ممکن برسانم. | |
| 16 | فیلتر کردن کلمات نامناسب (Profanity Filtering) | enable_profanity_filter (true/false) | به عنوان یک پلتفرم محتوا، میخواهم در متن رونویسی شده ویدیوهای عمومی، کلمات نامناسب به صورت خودکار با ستاره جایگزین شوند. | |
| 17 | پنهانسازی اطلاعات حساس (PII Redaction) | pii_redaction_policy | به عنوان مدیر امنیت یک بانک، میخواهم شماره کارتهای اعتباری که در مکالمات تلفنی توسط مشتریان گفته میشود، به صورت خودکار از متن حذف شود. | |
| 18 | کاربردهای بیدرنگ و توانمندسازی | API بیدرنگ (Streaming API) با نتایج موقت | WebSocket/gRPC endpoints | به عنوان توسعهدهنده یک اپلیکیشن دستیار صوتی، میخواهم همزمان با صحبت کردن کاربر، متن رونویسی شده را به صورت زنده روی صفحه نمایش دهم. |
| 19 | دستیار بیدرنگ کارشناس (Real-time Agent Assist) | knowledge_base_id, real_time_triggers | به عنوان یک کارشناس پشتیبانی در حین یک تماس زنده، میخواهم وقتی مشتری در مورد «سیاست بازگشت کالا» سوال میکند، سیستم به صورت خودکار مقاله مربوط به آن را روی صفحه من باز کند. | |
| 20 | پلتفرم، API و عملیات | API پردازش دستهای (Batch API) | batch_file_url, webhook_url | به عنوان یک محقق، میخواهم آرشیو صوتی مصاحبههای یک سال گذشته خود را به صورت یکجا برای رونویسی ارسال کنم و پس از اتمام کار، مطلع شوم. |
| 21 | کتابخانههای توسعه نرمافزار (SDKs) | pip install stt-sdk, npm install stt-sdk | به عنوان یک توسعهدهنده، میخواهم با استفاده از یک کتابخانه آماده، به راحتی قابلیت تبدیل صدا به متن را به اپلیکیشن خود اضافه کنم. | |
| 22 | داشبورد تحلیل و مصرف | (Admin Dashboard UI) | به عنوان مدیر محصول، میخواهم گزارش دقیقی از میزان دقایق پردازش شده، زبانهای پراستفاده و هزینههای ماهانه سرویس داشته باشم. |