Skip to content

تبدیل تصویر به متن

ماژول اصلیتعریف ماژولتوضیحات
OCR (Image to Text)تبدیل تصویر به متناستخراج متن از تصاویر با دقت بالا

فیچرلیست:

ردیفدسته بندیویژگی (Feature)پارامترهای کلیدی / گزینه‌هاداستان کاربر (User Story)
1پیش‌پردازش و بهبود تصویرتصحیح خودکار زاویه و چرخشauto_rotate: true, deskew: trueبه عنوان یک کاربر، می‌خواهم بتوانم از یک سند کج عکس بگیرم و سیستم به صورت خودکار آن را صاف کند تا دقت تشخیص متن افزایش یابد.
2حذف نویز و بهبود کیفیت تصویرenhancement_level: 'high'به عنوان یک اپراتور آرشیو، می‌خواهم حتی اگر کیفیت اسکن اسناد قدیمی پایین بود، سیستم بتواند کیفیت تصویر را بهبود داده و متن را استخراج کند.
3قابلیت‌های اصلی استخراجتشخیص متن چاپی (Printed Text)language, output_format (text, json)به عنوان یک کتابخانه، می‌خواهم صفحات کتاب‌ها را اسکن کرده و متن کامل آن‌ها را برای ایجاد آرشیو دیجیتال و قابل جستجو استخراج کنم.
4تشخیص دست‌نویس (Handwriting)handwriting_model: trueبه عنوان یک شرکت بیمه، می‌خواهم اطلاعات نوشته شده توسط مشتریان در فرم‌های کاغذی را به صورت خودکار به داده دیجیتال تبدیل کنم.
5استخراج جداول (Table Extraction)output_format (csv, excel, json)به عنوان یک حسابدار، می‌خواهم اقلام یک فاکتور را که در قالب جدول است، به صورت خودکار استخراج و به یک فایل اکسل منتقل کنم.
6استخراج فرم‌ها (Key-Value Pairs)schema_definition (اختیاری)به عنوان مسئول منابع انسانی، می‌خواهم اطلاعاتی مانند «نام» و «کد ملی» را از فرم‌های استخدامی به صورت خودکار استخراج کنم.
7تحلیل چیدمان (Layout Analysis)output_format ('hocr', json-structured)به عنوان یک ناشر دیجیتال، می‌خواهم ساختار یک مقاله (عناوین و پاراگراف‌ها) را برای بازنشر در وب‌سایت، به صورت ساختاریافته دریافت کنم.
8درک اسناد تخصصیطبقه‌بندی خودکار اسنادdocument_type_modelبه عنوان یک شرکت بزرگ، می‌خواهم سیستمی داشته باشم که ایمیل‌های ورودی را بررسی کرده و به صورت خودکار فاکتورها را از نامه‌ها جدا کند.
9مدل‌های از پیش‌آموزش‌دیده برای اسناد رایجpre_trained_model ('invoice', 'receipt', 'id_card')به عنوان توسعه‌دهنده یک اپلیکیشن مدیریت مالی، می‌خواهم به کاربرانم اجازه دهم تا با عکس گرفتن از رسید خریدهایشان، اطلاعات آن را خودکار ثبت کنند.
10پردازش اسناد پیچیدهتقسیم خودکار اسناد چندگانه (Document Splitting)enable_splitting (true/false)به عنوان مسئول تشکیل پرونده، می‌خواهم پکیج استخدامی ۵۰ صفحه‌ای یک کارمند را به سیستم بدهم تا به اسناد مجزا (قرارداد، فرم مالیاتی) تفکیک شود.
11مدل تخصصی برای پردازش چکpre_trained_model: 'check'به عنوان مسئول امور مالی، می‌خواهم با اسکن دسته‌ای چک‌ها، تمام اطلاعات آن‌ها را به صورت خودکار برای ثبت در سیستم حسابداری استخراج کنم.
12امنیت و اعتبارسنجی اسنادتشخیص تقلب و دستکاری در اسنادfraud_detection_level ('standard', 'deep')به عنوان کارشناس صدور وام، می‌خواهم سیستم به صورت خودکار اسنادی را که نشانه‌های دستکاری دیجیتال دارند، به من هشدار دهد.
13تشخیص و استخراج امضا و مهرdetect_signatures (true/false)به عنوان یک کارشناس حقوقی، می‌خواهم سیستم به صورت خودکار تایید کند که یک قرارداد توسط طرفین امضا و مهر شده است.
14پس‌پردازش و اعتبارسنجیارائه امتیاز اطمینان (Confidence Scoring)include_confidence: trueبه عنوان یک اپراتور ورود داده، می‌خواهم فیلدهایی که AI در مورد صحت آن‌ها اطمینان پایینی دارد را به سرعت شناسایی و به صورت دستی بازبینی کنم.
15رابط کاربری برای اعتبارسنجی انسانی(Web UI)به عنوان مدیر یک مرکز پردازش اسناد، می‌خواهم فرآیندی داشته باشم که تمام داده‌های استخراج شده قبل از ورود به سیستم نهایی، توسط یک انسان تایید شوند.
16نرمال‌سازی داده‌ها (Data Normalization)normalization_rulesبه عنوان یک تحلیل‌گر داده، می‌خواهم تمام تاریخ‌های استخراج شده از فاکتورها، صرف نظر از فرمت نوشتاری آن‌ها، به صورت یکسان در پایگاه داده ذخیره شوند.
17حریم خصوصی و انطباقحذف و پوشاندن خودکار اطلاعات حساس (PII Redaction)redaction_policyبه عنوان یک شرکت حقوقی، قبل از اشتراک‌گذاری یک سند، می‌خواهم تمام اطلاعات شخصی موجود در آن به صورت خودکار پوشانده شود تا قوانین حریم خصوصی را رعایت کنم.
18خروجی و یکپارچه‌سازیایجاد PDF قابل جستجوoutput_format: 'searchable_pdf'به عنوان مدیر یک آرشیو دیجیتال، می‌خواهم تمام اسناد اسکن شده را به PDFهای قابل جستجو تبدیل کنم تا کاربران بتوانند محتوای آن‌ها را پیدا کنند.
19سفارشی‌سازی پیشرفتهابزار بصری آموزش مدل سفارشی(Web UI for Annotation & Training)به عنوان یک تحلیل‌گر کسب‌وکار، می‌خواهم با دادن ۱۰ نمونه از فرم‌های سفارش شرکت، به هوش مصنوعی یاد بدهم که اطلاعات آن‌ها را استخراج کند.
20پلتفرم، API و عملیاتAPI جامع و کتابخانه‌های توسعه (SDKs)API_keys, SDKsبه عنوان یک توسعه‌دهنده، می‌خواهم با استفاده از SDK پایتون، قابلیت پردازش فاکتور را به نرم‌افزار حسابداری خود اضافه کنم.
21پردازش دسته‌ای و غیرهمزمان (Batch & Async)batch_id, webhook_urlبه عنوان یک بانک، می‌خواهم آرشیو هزاران فرم درخواست وام را به صورت یکجا و در ساعات غیر اوج کاری پردازش کنم.
22گزینه‌های استقرار (Cloud, On-Premise, Mobile/Edge)deployment_optionبه عنوان توسعه‌دهنده یک اپلیکیشن موبایل، می‌خواهم OCR بر روی خود گوشی کاربر و به صورت آفلاین اجرا شود تا اطلاعات کارت اعتباری او به سرور ارسال نشود.