Skip to content

مدل بینایی بزرگ

ماژول اصلیتعریف ماژولتوضیحات
VLMمدل بینایی بزرگدرک هوشمند تصویر

فیچرلیست:

ردیفدسته بندیویژگی (Feature)پارامترهای کلیدی / گزینه‌هاداستان کاربر (User Story)
1قابلیت‌های بنیادین درک تصویرپاسخگویی به سوالات بصری (VQA)image, questionبه عنوان یک کاربر با آسیب بینایی، می‌خواهم از یک لباس عکس بگیرم و بپرسم "رنگ این پیراهن چیست؟" تا بتوانم آن را ست کنم.
2تولید کپشن تصویر (Image Captioning)image, caption_length ('short', 'detailed')به عنوان یک مدیر شبکه اجتماعی، می‌خواهم برای تصاویر محصولاتم به صورت خودکار یک کپشن جذاب و توصیفی تولید کنم.
3تشخیص و استخراج متن (OCR)image, languageبه عنوان یک شرکت بیمه، می‌خواهم اطلاعات را از روی تصاویر فرم‌های کاغذی مشتریان به صورت خودکار استخراج کنم.
4مکان‌یابی شیء با متن (Object Grounding)image, text_descriptionبه عنوان یک پلتفرم فروشگاهی، می‌خواهم وقتی کاربر عبارت "کفش ورزشی قرمز" را جستجو می‌کند، دقیقاً آن محصول در تصویر هایلایت شود.
5کاربردهای پیشرفته و استدلالیاستدلال چندوجهی (Multimodal Reasoning)image, complex_questionبه عنوان یک تحلیل‌گر مالی، می‌خواهم نمودار سهام یک شرکت را آپلود کرده و بپرسم "بر اساس این نمودار، بزرگترین افت قیمت در کدام بازه زمانی رخ داده است؟".
6گفتگوی بصری (Visual Dialogue)image, session_id, conversation_historyبه عنوان یک دانش‌آموز، می‌خواهم تصویری از یک سلول را نشان دهم و چندین سوال پشت سر هم در مورد اجزای مختلف آن بپرسم.
7مقایسه بصری (Visual Comparison)image_1, image_2به عنوان یک بازرس کنترل کیفیت، می‌خواهم تصویر یک محصول سالم را با محصول تولید شده مقایسه کنم تا سیستم تفاوت‌ها و نواقص احتمالی را گزارش دهد.
8استخراج اطلاعات ساختاریافتهimage, schema (e.g., invoice schema)به عنوان یک حسابدار، می‌خواهم با عکس گرفتن از یک فاکتور، مقادیری مانند "شماره فاکتور"، "تاریخ" و "مبلغ کل" به صورت خودکار در نرم‌افزار حسابداری وارد شود.
9قابلیت‌های تولیدی و خلاقانهتولید تصویر از متن (Text-to-Image)prompt, negative_prompt, style, aspect_ratioبه عنوان یک مدیر بازاریابی، می‌خواهم برای کمپین تبلیغاتی خود، یک تصویر خلاقانه از «یک فضانورد در حال قهوه خوردن در یک کافه در مریخ» تولید کنم.
10ویرایش تصویر با دستورات متنی (Inpainting/Outpainting)image, mask, promptبه عنوان یک طراح محصول، می‌خواهم یک عکس از محصولم را آپلود کرده و از سیستم بخواهم آن را در فضاهای مختلف (مثلاً روی یک میز چوبی) قرار دهد.
11پردازش ویدیوتحلیل و خلاصه‌سازی ویدیوvideo_file, question/taskبه عنوان یک سردبیر، می‌خواهم یک ویدیوی سخنرانی یک ساعته را آپلود کرده و خلاصه‌ای از نکات کلیدی آن را در چند پاراگراف دریافت کنم.
12تشخیص رویداد در ویدیو (Event Detection)video_file, event_descriptionبه عنوان یک مربی ورزشی، می‌خواهم در ویدیوی یک مسابقه فوتبال، تمام لحظاتی که "گل" به ثمر رسیده است را به سرعت پیدا کنم.
13سفارشی‌سازی و آموزشفاین‌تیونینگ برای شناسایی اشیاء خاصtraining_dataset (images + labels)به عنوان یک فروشگاه زنجیره‌ای، می‌خواهم مدل را طوری آموزش دهم که بتواند محصولات برند ما را در قفسه‌های فروشگاه به دقت شناسایی و شمارش کند.
14کنترل پیشرفته و اعتمادسازیکنترل فرمت خروجی (JSON Mode)response_format ('json', 'text')به عنوان یک توسعه‌دهنده، می‌خواهم اطلاعات استخراج شده از یک کارت ویزیت را مستقیماً در فرمت JSON دریافت کنم تا به راحتی در پایگاه داده ذخیره نمایم.
15ارائه امتیاز اطمینان و قابلیت توضیح (XAI)include_confidence, enable_xaiبه عنوان یک پزشک، می‌خواهم وقتی AI یک ناهنجاری در تصویر پزشکی تشخیص می‌دهد، امتیاز اطمینان آن را ببینم تا بتوانم به نتیجه اعتماد کنم.
16پلتفرم، API و عملیاتتعدیل محتوای بصری (Visual Content Moderation)image/video, moderation_categoriesبه عنوان مدیر یک شبکه اجتماعی، می‌خواهم تمام تصاویر آپلود شده توسط کاربران به صورت خودکار برای محتوای نامناسب بررسی شوند.
17API جامع و کتابخانه‌های توسعه (SDKs)API_keys, SDKs (Python, JS)به عنوان یک توسعه‌دهنده اپلیکیشن، می‌خواهم با استفاده از SDK پایتون، به راحتی قابلیت تحلیل تصویر را به محصول خود اضافه کنم.
18کاتالوگ مدل‌ها (Model Garden)model_id ('fast', 'pro', 'ultra')به عنوان یک توسعه‌دهنده، می‌خواهم برای کارهای ساده و پرتکرار از یک مدل کم‌هزینه استفاده کنم، اما برای تحلیل‌های پیچیده به مدل قوی‌تر دسترسی داشته باشم.
19API پردازش دسته‌ای و غیرهمزمانinput_source_url, output_destination_url, webhook_urlبه عنوان مدیر یک پلتفرم e-commerce، می‌خواهم برای تمام ۱ میلیون تصویر محصول در سایت، به صورت یکجا و در پس‌زمینه، کپشن‌های جدید برای بهبود SEO تولید کنم.
20داشبورد تحلیل و مصرف(Admin Dashboard UI)به عنوان مدیر محصول، می‌خواهم بدانم کدام ویژگی VLM (مثلاً VQA یا OCR) بیشترین استفاده را در میان مشتریان ما دارد.
21زمین بازی تعاملی (Interactive Playground)(Web UI)به عنوان یک مشتری بالقوه، می‌خواهم قبل از خرید API، بتوانم چند نمونه از تصاویر خودم را تست کنم و کیفیت و سرعت پاسخ‌دهی مدل را بسنجم.