California Housing Price Prediction Using Machine Learning: A Comparative Study Using Feature Engineering and Ensemble Methods

محمد  سواد; معتز رسمي  أبو سارة; أحلام عواد; محمد كليب

doi:10.59994/ajbtme.2026.3.29

المؤلفون

محمد سواد جامعة فلسطين الأهلية (فلسطين)
معتز رسمي أبو سارة كلية الهندسة وتكنولوجيا المعلومات، جامعة أهلية فلسطين (فلسطين)
أحلام عواد كلية الهندسة وتكنولوجيا المعلومات، جامعة أهلية فلسطين (فلسطين)
محمد كليب هندسة النظم الذكية، جامعة الشرق الأوسط (الأردن)

DOI:

https://doi.org/10.59994/ajbtme.2026.3.29

الكلمات المفتاحية:

مجموعة بيانات الإسكان في كاليفورنيا، التعلم الجماعي، هندسة الميزات، التنبؤ بأسعار المنازل، تحسين المعلمات الفائقة، التعلم الآلي

الملخص

هدفت هذه الدراسة إلى تطوير نموذج دقيق للتنبؤ بأسعار المساكن في ولاية كاليفورنيا من خلال مقارنة مجموعة من خوارزميات التعلم الآلي وتقييم أثر هندسة الخصائص وتقنيات التجميع على أداء النماذج التنبؤية. اعتمدت الدراسة على بيانات (California Housing Dataset) التي تضم 20,433 سجلاً بعد معالجة البيانات وتنظيفها. وتم تطبيق منهجية مكونة من خمس مراحل شملت: تقييم سبعة نماذج انحدار أساسية، وإنشاء خصائص جديدة مشتقة، واختيار الخصائص الأكثر تأثيراً باستخدام اختبار (F-statistic)، وضبط المعلمات الفائقة لأفضل النماذج باستخدام (GridSearchCV)، ثم بناء نماذج تجميعية من نوع (Voting) و(Stacking). أظهرت النتائج أن النماذج الخطية حققت أداءً محدوداً بسبب الطبيعة غير الخطية للعلاقات بين المتغيرات، في حين تفوقت نماذج الأشجار والتجميع. وحقق نموذج (Stacking Ensemble) أفضل أداء بقيمة معامل تحديد بلغت (R²=0.8431)، وخطأ جذر متوسط التربيع (RMSE=46,317 دولاراً)، ومتوسط الخطأ المطلق (MAE=30,150 دولاراً). كما أثبتت النتائج أن الخصائص المشتقة، وخاصة عدد الغرف لكل أسرة، أسهمت بصورة جوهرية في تحسين دقة التنبؤ. تتمثل الأصالة العلمية لهذه الدراسة في تقديم إطار متكامل يجمع بين هندسة الخصائص واختيارها وضبط المعلمات الفائقة وتقنيات التجميع المتقدمة ضمن بيئة موحدة للمقارنة، مما أسهم في تحسين الأداء التنبؤي وتجاوز المعيار المرجعي الشائع للدراسة بنسبة 3.21% في قيمة معامل التحديد، إضافة إلى إبراز أهمية تطبيع البيانات على مستوى الأسر في تحسين نماذج التنبؤ العقاري.

المراجع

Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.

Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 1189-1232.

Géron, A. (2022). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. " O'Reilly Media, Inc.".

Pace, R. K., & Barry, R. (1997). Sparse spatial autoregressions. Statistics & Probability Letters, 33(3), 291-297.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... & Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. the Journal of machine Learning research, 12, 2825-2830.

Polanitzer, R. (2022, March 12). Machine learning for California housing. Medium. https://medium.com/

Sharma, H., Harsora, H., & Ogunleye, B. (2024). An optimal house price prediction algorithm: XGBoost. Analytics, 3(1), 30-45.

Wu, J., Chen, X. Y., Zhang, H., Xiong, L. D., Lei, H., & Deng, S. H. (2019). Hyperparameter optimization for machine learning models based on Bayesian optimization. Journal of Electronic Science and Technology, 17(1), 26-40.

التنبؤ بأسعار المساكن في كاليفورنيا باستخدام التعلم الآلي: دراسة مقارنة باستخدام هندسة الخصائص وأساليب التجميع

المؤلفون

DOI:

الكلمات المفتاحية:

الملخص

المراجع

التنزيلات

منشور

كيفية الاقتباس

إصدار

القسم

العدد الحالي

دعوة لتقديم الأوراق البحثية

إنشاء طلب نشر