الهدف الأساسي - كان الهدف من المشروع تطوير تطبيق ويب يُعرف بـ SpamSentry، وهو نظام تصنيف يعتمد على الذكاء الاصطناعي لتحديد ما إذا كانت رسالة البريد الإلكتروني "سبام" أو "غير سبام" بناءً على محتواها النصي.
1. إعداد البيانات (Data Preparation) - تم استخدام مجموعة بيانات تحتوي على رسائل بريد إلكتروني مصنفة كـ"سبام" أو "غير سبام". - خطوات معالجة البيانات: أ. إسقاط الأعمدة غير المهمة مثل "Email No" ب. فصل البيانات إلى ميزات (Features) وأهداف (Target). ج. استخدام StandardScaler لتوحيد مقياس الميزات، مما يضمن تحسين أداء النماذج.
2. هندسة النموذج (Model Engineering): - تصميم نموذج التصنيف باستخدام شبكة عصبية تلافيفية (Convolution Neural Network 1D) - الهيكلية (Network Topology): أ. طبقة تلافيفية (Conv1D) مع 32 مرشحًا لتحليل الميزات الزمنية. ب. طبقة تطبيع (BatchNormalization) لتحسين استقرار التدريب. ج. طبقات كثيفة (Dense) مع Dropout لتجنب Overfitting. د. طبقة إخراج مع دالة Sigmoid لتصنيف الرسائل كـ "سبام" أو "غير سبام" - الإعدادات: أ. Binary Crossentropy. ب. Adam Optimizer مع معدل تعلم منخفض لتحسين الدقة. - التدريب: أ. تقسيم البيانات إلى مجموعة تدريب (70%) ومجموعة اختبار (30%). ب. استخدام EarlyStopping لتجنب الإفراط في التدريب. ج. تحقيق دقة اختبار تتجاوز 90%.
3. تطوير واجهة المستخدم (Frontend Development) باستخدام Streamlit: - صفحة رئيسية تحتوي على مربع نص لإدخال محتوى البريد الإلكتروني. - صفحة نتائج تعرض تصنيف البريد الإلكتروني مع نسبة الثقة. - معالجة النصوص: أ. تنظيف النصوص من الرموز غير الحروفية. ب. إنشاء متجه تكراري للكلمات باستخدام word frequencies. ج. توحيد النصوص باستخدام المُقياس المحفوظ من مرحلة التدريب.
4. إنشاء نظام التنبؤ (Prediction System) - تحميل النموذج المدرب باستخدام TensorFlow. - دمج النصوص المرسلة من المستخدم مع النموذج للتنبؤ. - عرض التصنيف: "سبام"، "غير سبام"، أو "غير مؤكد".
5. التحديات التعامل مع النصوص غير المتوقعة: تحسين معالجة النصوص لتجنب الأخطاء. أداء النموذج: ضمان عمل النظام بشكل فعال مع رسائل البريد الجديدة وغير المألوفة.
النتائج والتوصيات - SpamSentry نجح في تقديم واجهة سهلة الاستخدام مع أداء دقيق في تصنيف الرسائل.
توصيات للتحسين المستقبلي: - دعم اللغات المتعددة لتوسيع نطاق الاستخدام. - استخدام تقنيات معالجة نصوص أكثر تعقيدًا مثل Transformers لتحسين دقة التنبؤ. - تحسين تجربة المستخدم من خلال تخصيص النتائج.
للإطلاع على المشروع: https://mostaql.com/portfolio/2591893-spamsentry-spam-email-classifier-using-conv1d