تحليل الاستكشافي للبيانات وتنظيفها
هل لديك مجموعة بيانات تحتاج إلى تنظيف ومعالجة قبل البدء في التحليل الإحصائي أو بناء نماذج التعلم الآلي؟
أقدم خدمة متكاملة للتحليل الاستكشافي للبيانات (EDA) وتنظيفها باستخدام بايثون (Python) و مكتبة Pandas، لضمان أن بياناتك جاهزة تمامًا وموثوقة للاستخدام في النمذجة واتخاذ القرارات.
ماذا ستحصل مقابل 5$ (الخدمة الأساسية)؟
مقابل سعر الخدمة الأساسي، سأقوم بالتالي على مجموعة بيانات صغيرة/متوسطة (تصل إلى 5,000 سجل):
فحص هيكلي شامل: تحديد أبعاد البيانات (عدد الصفوف والأعمدة) وأنواع البيانات لكل عمود.
تنظيف التكرارات (Duplicates): تحديد وحساب وإزالة جميع السجلات المكررة تمامًا من مجموعة البيانات.
تحديد أماكن ونسبة القيم المفقودة (NaN) واقتراح أفضل طريقة لمعالجتها (بالحذف أو التعبئة).
(مهم لمشروعك) تطبيق توحيد التسمية (مثل تحويل المسافات إلى _)، وتوحيد تنسيق البيانات النصية/التاريخية.
معالجة وتنظيف مجموعات بيانات تتجاوز 10,000 سجل.
ملف البيانات الأصلي (بصيغة CSV أو Excel حسب اختيارك) ولكن بعد إزالة جميع السجلات المكررة تمامًا، وتوحيد أسماء الأعمدة. هذا هو الملف الذي ستستخدمه في تحليلاتك المستقبلية.
ملف ipynb يحتوي على جميع الأكواد البرمجية (Python/Pandas) التي تم استخدامها في العمل، مع شروحات ونتائج واضحة لـ:
أبعاد البيانات الأصلية والنهائية.
عدد التكرارات التي تم اكتشافها وإزالتها.
ملخص الإحصائيات الوصفية للبيانات.
(الخبرة في العمليات المتقدمة مثل Boolean Masking و .duplicated())