Appearance
مدل بینایی بزرگ
| ماژول اصلی | تعریف ماژول | توضیحات |
|---|---|---|
| VLM | مدل بینایی بزرگ | درک هوشمند تصویر |
فیچرلیست:
| ردیف | دسته بندی | ویژگی (Feature) | پارامترهای کلیدی / گزینهها | داستان کاربر (User Story) |
|---|---|---|---|---|
| 1 | قابلیتهای بنیادین درک تصویر | پاسخگویی به سوالات بصری (VQA) | image, question | به عنوان یک کاربر با آسیب بینایی، میخواهم از یک لباس عکس بگیرم و بپرسم "رنگ این پیراهن چیست؟" تا بتوانم آن را ست کنم. |
| 2 | تولید کپشن تصویر (Image Captioning) | image, caption_length ('short', 'detailed') | به عنوان یک مدیر شبکه اجتماعی، میخواهم برای تصاویر محصولاتم به صورت خودکار یک کپشن جذاب و توصیفی تولید کنم. | |
| 3 | تشخیص و استخراج متن (OCR) | image, language | به عنوان یک شرکت بیمه، میخواهم اطلاعات را از روی تصاویر فرمهای کاغذی مشتریان به صورت خودکار استخراج کنم. | |
| 4 | مکانیابی شیء با متن (Object Grounding) | image, text_description | به عنوان یک پلتفرم فروشگاهی، میخواهم وقتی کاربر عبارت "کفش ورزشی قرمز" را جستجو میکند، دقیقاً آن محصول در تصویر هایلایت شود. | |
| 5 | کاربردهای پیشرفته و استدلالی | استدلال چندوجهی (Multimodal Reasoning) | image, complex_question | به عنوان یک تحلیلگر مالی، میخواهم نمودار سهام یک شرکت را آپلود کرده و بپرسم "بر اساس این نمودار، بزرگترین افت قیمت در کدام بازه زمانی رخ داده است؟". |
| 6 | گفتگوی بصری (Visual Dialogue) | image, session_id, conversation_history | به عنوان یک دانشآموز، میخواهم تصویری از یک سلول را نشان دهم و چندین سوال پشت سر هم در مورد اجزای مختلف آن بپرسم. | |
| 7 | مقایسه بصری (Visual Comparison) | image_1, image_2 | به عنوان یک بازرس کنترل کیفیت، میخواهم تصویر یک محصول سالم را با محصول تولید شده مقایسه کنم تا سیستم تفاوتها و نواقص احتمالی را گزارش دهد. | |
| 8 | استخراج اطلاعات ساختاریافته | image, schema (e.g., invoice schema) | به عنوان یک حسابدار، میخواهم با عکس گرفتن از یک فاکتور، مقادیری مانند "شماره فاکتور"، "تاریخ" و "مبلغ کل" به صورت خودکار در نرمافزار حسابداری وارد شود. | |
| 9 | قابلیتهای تولیدی و خلاقانه | تولید تصویر از متن (Text-to-Image) | prompt, negative_prompt, style, aspect_ratio | به عنوان یک مدیر بازاریابی، میخواهم برای کمپین تبلیغاتی خود، یک تصویر خلاقانه از «یک فضانورد در حال قهوه خوردن در یک کافه در مریخ» تولید کنم. |
| 10 | ویرایش تصویر با دستورات متنی (Inpainting/Outpainting) | image, mask, prompt | به عنوان یک طراح محصول، میخواهم یک عکس از محصولم را آپلود کرده و از سیستم بخواهم آن را در فضاهای مختلف (مثلاً روی یک میز چوبی) قرار دهد. | |
| 11 | پردازش ویدیو | تحلیل و خلاصهسازی ویدیو | video_file, question/task | به عنوان یک سردبیر، میخواهم یک ویدیوی سخنرانی یک ساعته را آپلود کرده و خلاصهای از نکات کلیدی آن را در چند پاراگراف دریافت کنم. |
| 12 | تشخیص رویداد در ویدیو (Event Detection) | video_file, event_description | به عنوان یک مربی ورزشی، میخواهم در ویدیوی یک مسابقه فوتبال، تمام لحظاتی که "گل" به ثمر رسیده است را به سرعت پیدا کنم. | |
| 13 | سفارشیسازی و آموزش | فاینتیونینگ برای شناسایی اشیاء خاص | training_dataset (images + labels) | به عنوان یک فروشگاه زنجیرهای، میخواهم مدل را طوری آموزش دهم که بتواند محصولات برند ما را در قفسههای فروشگاه به دقت شناسایی و شمارش کند. |
| 14 | کنترل پیشرفته و اعتمادسازی | کنترل فرمت خروجی (JSON Mode) | response_format ('json', 'text') | به عنوان یک توسعهدهنده، میخواهم اطلاعات استخراج شده از یک کارت ویزیت را مستقیماً در فرمت JSON دریافت کنم تا به راحتی در پایگاه داده ذخیره نمایم. |
| 15 | ارائه امتیاز اطمینان و قابلیت توضیح (XAI) | include_confidence, enable_xai | به عنوان یک پزشک، میخواهم وقتی AI یک ناهنجاری در تصویر پزشکی تشخیص میدهد، امتیاز اطمینان آن را ببینم تا بتوانم به نتیجه اعتماد کنم. | |
| 16 | پلتفرم، API و عملیات | تعدیل محتوای بصری (Visual Content Moderation) | image/video, moderation_categories | به عنوان مدیر یک شبکه اجتماعی، میخواهم تمام تصاویر آپلود شده توسط کاربران به صورت خودکار برای محتوای نامناسب بررسی شوند. |
| 17 | API جامع و کتابخانههای توسعه (SDKs) | API_keys, SDKs (Python, JS) | به عنوان یک توسعهدهنده اپلیکیشن، میخواهم با استفاده از SDK پایتون، به راحتی قابلیت تحلیل تصویر را به محصول خود اضافه کنم. | |
| 18 | کاتالوگ مدلها (Model Garden) | model_id ('fast', 'pro', 'ultra') | به عنوان یک توسعهدهنده، میخواهم برای کارهای ساده و پرتکرار از یک مدل کمهزینه استفاده کنم، اما برای تحلیلهای پیچیده به مدل قویتر دسترسی داشته باشم. | |
| 19 | API پردازش دستهای و غیرهمزمان | input_source_url, output_destination_url, webhook_url | به عنوان مدیر یک پلتفرم e-commerce، میخواهم برای تمام ۱ میلیون تصویر محصول در سایت، به صورت یکجا و در پسزمینه، کپشنهای جدید برای بهبود SEO تولید کنم. | |
| 20 | داشبورد تحلیل و مصرف | (Admin Dashboard UI) | به عنوان مدیر محصول، میخواهم بدانم کدام ویژگی VLM (مثلاً VQA یا OCR) بیشترین استفاده را در میان مشتریان ما دارد. | |
| 21 | زمین بازی تعاملی (Interactive Playground) | (Web UI) | به عنوان یک مشتری بالقوه، میخواهم قبل از خرید API، بتوانم چند نمونه از تصاویر خودم را تست کنم و کیفیت و سرعت پاسخدهی مدل را بسنجم. |