خدمة تطوير أنظمة وصف الصور (Image Captioning) باستخدام تقنيات التعلم العميق الحديثة، حيث يتم تحويل محتوى الصورة إلى نصوص وصفية دقيقة تشبه الوصف البشري.
تعتمد الخدمة على دمج عدة نماذج متقدمة، منها:
- استخدام شبكات CNN مثل ResNet أو VGG لاستخراج الخصائص البصرية من الصور.
- استخدام نموذج LSTM لتوليد النصوص بشكل تسلسلي.
- تطبيق آلية الانتباه (Attention Mechanism) لتمكين النموذج من التركيز على الأجزاء المهمة من الصورة أثناء توليد كل كلمة.
يقوم النموذج بكتابة جمل وصفية دقيقة تعبّر عن محتوى الصورة بأسلوب قريب من الوصف البشري
تساعد في تحسين جودة النتائج من خلال التركيز على مناطق محددة من الصورة أثناء التوليد
دمج فعال بين استخراج الخصائص وفهم التسلسل اللغوي للحصول على أفضل أداء
إمكانية تدريب النموذج على أي لغة بشرط توفر بيانات مناسبة (حالياً يتم العمل على الإنجليزية مع إمكانية التوسعة للعربية)
يمكن استخدام النموذج على صور الطبيعة، المنتجات، الطب، السيارات، وغيرها
باستخدام مقاييس عالمية مثل:
BLEU Score
METEOR
CIDEr
تشمل:
- تنظيف البيانات
- Tokenization
- Padding
- بناء قاموس الكلمات تلقائياً
يشمل نموذج مدرب + كود + أمثلة تطبيقية
عدد الصور: من 8000 إلى 10000 صورة على الأقل
صيغة الصور: JPG أو PNG
ملف captions بصيغة CSV أو JSON
لكل صورة: من 3 إلى 5 جمل وصفية
يفضّل أن تكون الصور بحجم 224×224 أو 256×256
ستحصل على:
تدريب نموذج باستخدام:
من 1000 إلى 3000 صورة كحد أقصى (ضمن الباقة الأساسية)
استخدام:
- CNN لاستخراج خصائص الصور
- LSTM لتوليد النصوص
عدد Epochs للتدريب: من 10 إلى 20 Epoch
زمن تدريب تقريبي: من 1 إلى 3 ساعات حسب الجهاز
توليد وصف (Captions) لعدد: 3 إلى 10 صور جديدة كاختبار عملي
كود منظم يحتوي على:
- تحميل البيانات
- معالجة الصور والنصوص
- بناء النموذج
- التدريب والتقييم
قابل للتشغيل مباشرة والتعديل
يشمل شرحًا واضحًا لـ:
- تجهيز الصور
- Tokeniztion و Padding
- بناء النموذج
- التدريب
- اختبار النموذج