تأثير تقنيات المعالجة المسبقة المتقدمة على نماذج التعلم الآلي للتنبؤ بالدخل
DOI:
https://doi.org/10.59994/ajbtme.2026.3.39الكلمات المفتاحية:
معالجة البيانات المسبقة، نماذج التعلم الآلي، مجموعة بيانات دخل البالغين، هندسة الميزات، تعزيز التدرج القائم على المدرج التكراري، التصنيف الثنائيالملخص
هدفت هذه الدراسة إلى التعرف على أثر تقنيات المعالجة المسبقة المتقدمة للبيانات في تحسين أداء نماذج التعلم الآلي المستخدمة في التنبؤ بالدخل بالاعتماد على مجموعة بيانات الدخل. ولتحقيق ذلك، تم تطوير إطار متكامل للمعالجة المسبقة يعالج أبرز مشكلات البيانات الواقعية، مثل القيم المفقودة، والقيم المتطرفة، والخصائص غير المؤثرة، والتوزيعات غير المتوازنة، واختلاف أنواع البيانات. وشملت عملية المعالجة تعويض القيم المفقودة، واختيار الخصائص، ومعالجة القيم المتطرفة باستخدام المدى الربيعي، وتحويل البيانات لتقليل الانحراف، وتوحيد المقاييس، وترميز المتغيرات الفئوية، وتخفيض الأبعاد، مع دمج جميع الخطوات ضمن إطار موحد يضمن منع تسرب البيانات أثناء التدريب. كما جرى تقييم أربعة نماذج للتعلم الآلي باستخدام أسلوب التحقق المتقاطع وتقسيم البيانات إلى مجموعة للتدريب وأخرى للاختبار. واعتمد التقييم على عدد من مؤشرات الأداء، شملت الدقة، والاسترجاع، والدقة الإيجابية، والمتوسط التوافقي بين الدقة والاسترجاع، ومنحنى التمييز بين الفئات، وخسارة التنبؤ. وأظهرت النتائج تفوق نموذج التعزيز التدريجي المعتمد على المدرجات التكرارية، إذ حقق أعلى دقة بلغت 86.8%، وأفضل قدرة على التمييز بين الفئات، مما يعكس كفاءة عالية في التنبؤ وقدرة جيدة على التعميم مع انخفاض احتمالية فرط التخصيص. وتتمثل الأصالة العلمية لهذه الدراسة في تطوير إطار متكامل وقابل لإعادة التطبيق يجمع بين مجموعة من تقنيات المعالجة المسبقة المتقدمة وتطبيقها بصورة موحدة على جميع النماذج، بما يضمن عدالة المقارنة بينها، ويؤكد أن تحسين جودة البيانات قبل بناء النموذج يسهم بصورة جوهرية في رفع كفاءة التنبؤ وتحسين الأداء دون الحاجة إلى نماذج معقدة أو عمليات ضبط موسعة للمعلمات.
المراجع
Becker, B. & Kohavi, R. (1996). Adult [Dataset]. UCI Machine Learning Repository.
Chakrabarty, N., & Biswas, S. (2018, October). A statistical approach to adult census income level prediction. In 2018 International Conference on Advances in Computing, Communication Control and Networking (ICACCCN) (pp. 207-212). IEEE.
Islam, M. A., Nag, A., Roy, N., Dey, A. R., Fahim, S. F. A., & Ghosh, A. (2023, November). An investigation into the prediction of annual income levels through the utilization of demographic features employing the modified UCI adult dataset. In 2023 International Conference on Computing, Communication, and Intelligent Systems (ICCCIS) (pp. 1080-1086). IEEE.
Jo, K. (2024). Income prediction using machine learning techniques [Master’s thesis, University of California, Los Angeles]. eScholarship. https://escholarship.org/uc/item/6d01c9v7
Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... & Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. the Journal of machine Learning research, 12, 2825-2830.
Thapa, S. (2023). Adult income prediction using various ML algorithms. Available at SSRN 4325813.
Yeo, I. K., & Johnson, R. A. (2000). A new family of power transformations to improve normality or symmetry. Biometrika, 87(4), 954-959.