قمت بتطوير مشروع متكامل لاستخراج وتحليل بيانات الأفلام من موقع FilmAffinity باستخدام Python، حيث اعتمدت على Selenium لتنفيذ عملية Web Scraping وجمع بيانات مثل عنوان الفيلم، سنة الإنتاج، التقييم، المخرج، والدولة من عدة صفحات. بعد ذلك قمت بمعالجة البيانات باستخدام Pandas من خلال تنظيفها، إزالة القيم غير الضرورية، وتوحيد التنسيقات لضمان جودتها. ثم أجريت تحليلًا استكشافيًا (EDA) باستخدام Matplotlib وSeaborn لفهم توزيع التقييمات، تحليل عدد الأفلام عبر السنوات، وتحديد أعلى الأفلام تقييمًا، بالإضافة إلى اكتشاف القيم الشاذة باستخدام IQR. وفي النهاية، قمت بتخزين البيانات في MongoDB باستخدام PyMongo، وبناء واجهة تفاعلية بسيطة باستخدام Streamlit لعرض النتائج بشكل منظم وسهل الاستخدام.
جمع البيانات من موقع FilmAffinity باستخدام Web Scraping عبر Selenium
استخراج بيانات (العنوان، السنة، التقييم، المخرج، الدولة)
تحويل البيانات إلى DataFrame باستخدام Pandas
تنظيف البيانات (إزالة الرموز – توحيد التنسيق – تصحيح القيم)
إجراء تحليل استكشافي (EDA)
إنشاء Visualizations باستخدام Matplotlib و Seaborn
اكتشاف القيم الشاذة باستخدام IQR
تخزين البيانات في MongoDB باستخدام PyMongo
بناء Dashboard تفاعلي باستخدام Streamlit
توزيع تقييمات الأفلام
تحليل عدد الأفلام حسب السنوات
تحديد أعلى الأفلام تقييمًا
تحليل الدول الأكثر إنتاجًا
اكتشاف القيم الشاذة (Outliers)
عرض تفاعلي للبيانات لتسهيل اتخاذ القرار
Dataset نظيف وجاهز للاستخدام
تحليل واضح وقابل للفهم
Visualizations احترافية
Dashboard تفاعلي لعرض البيانات
مشروع كامل يمكن استخدامه أو تطويره بسهولة
ملف البيانات (CSV أو Excel)
كود Python كامل ومنظم
الرسوم البيانية (Images أو داخل Notebook)
Dashboard تفاعلي (Streamlit)
تقرير مختصر يوضح النتائج
Web Scraping كامل
تنظيف وتجهيز البيانات
تحليل البيانات (EDA)
إنشاء الرسوم البيانية
تخزين البيانات (اختياري)
Dashboard بسيط (Streamlit)
استخراج بيانات من موقع واحد
استخراج حتى 500 عنصر (مثال: فيلم / منتج / سجل)
من حتى 5 صفحات داخل الموقع
تسليم البيانات في ملف CSV أو Excel
تنظيف البيانات (إزالة التكرار والقيم الفارغة)
استخراج حتى 2000 عنصر من حتى 15 صفحة
5.00
|
|
تسليم البيانات مع تنظيم عالي الدقة (عناوين واضحة + excel مرتب)
5.00
|
استخراج حتى 2000 عنصر من حتى 15 صفحة
5.00
|
|
تسليم البيانات مع تنظيم عالي الدقة (عناوين واضحة + excel مرتب)
5.00
|