كانت إحدى تجاربي في بعض الشركات الناشئة في مجال ESG (التي تحولت مؤخرًا إلى صناعة GRC) هي تحويل عوامل غازات الاحتباس الحراري من جمع بيانات DEFRA (وزارة البيئة والأغذية والشؤون الريفية) على موقع gov\.uk إلى تنسيق آخر يمكن استخدامه في بعض الحسابات المطلوبة لبعض خدمات التنبؤ التي تقدمها هذه الشركة.
مع محلل البيانات في ذلك الوقت، كان علينا اختيار السنوات المناسبة للعمل عليها، حيث كان لدينا بعض مجموعات البيانات التاريخية من عام 2015. ولكن كانت لدينا أيضًا مشكلة أخرى، وهي أنه ليست كل مجموعات البيانات السنوية تحتوي على نفس مخطط البيانات المقدمة، حتى أنها تم توفيرها في جداول Excel، وهذا يقودنا إلى الجزء الأكبر. . .
لقد كانت مثل ملف `.docx`، يمكنك التحقق من هذا: https://suar.me/Qp9BO
لذا كان عليّ القيام ببعض التنسيقات حول كيفية استخراج البيانات، حيث يكون الاستخراج بشكل حدسي هو الخطوة الأولى في أي تحويل للبيانات. ثم بعد إنشاء ملف JSON، الذي يعطي إحداثيات كل جدول وموقعه في ملف WORKBOOK، بدأت في توجيه كل جدول في مجرى محدد نحو وجهة... البرنامج النصي SQL المعد للمرحلة النهائية: التحميل إلى قاعدة بيانات الشركة.
وكيف يتم كل هذا؟ بالاستفادة من ObjectOrientedProgramming في بايثون. وهنا ستجد هذا العمل : https://mostaql.com/u/omarnegm3/portfolio
______________________________________________ أخيرًا، أود أن أسلط الضوء على شيء كان يشكل عقبة كبيرة في التعامل معه أثناء تحويل البيانات، حتى باستخدام أطر عمل قوية مثل Pandas، ولكن للأسف لم يتمكن من التعامل مع مشكلة: ، رمز الفاصلة هذا، موجود في بعض القيم، عادةً في شكل آلاف الفواصل (مثل 1000 == 1000)، والتي بدورها أصبح الجانب الأيمن من القيمة في سمة أخرى عن طريق الخطأ. ومن هنا بدأت أفكر في نوع آخر من الملفات التي يمكن من خلالها حفظ هذه الملفات... على سبيل المثال، ملف مفصول بفاصلة منقوطة ؛ . > في رأيك، لماذا لا يكون TSV مناسبًا دائمًا؟ في انتظار تعليقك :)