Untitled @mariammahfouz - Tumblr Blog

📄 الجزء 1: العنوان

التنبؤ بزمن إتمام المشاريع البرمجية بناءً على نشاط المطور وخصائص المشروع

📘 الجزء 2: مقدمة سؤال البحث

تواجه فرق البرمجة الحديثة تحديًا متكررًا يتمثل في التنبؤ بدقة بزمن الانتهاء من المشاريع. هذا الإشكال له تأثيرات مباشرة على التكلفة، رضا العملاء، وكفاءة الفريق. في هذا التقرير، نطرح السؤال الآتي:

ما هي أبرز مؤشرات نشاط المطور وخصائص المشروع التي تُعدّ أفضل المتنبئات بزمن إتمام المشروع البرمجي؟

تم اختيار هذا السؤال بناءً على ملاحظتي الشخصية كطالبة في هندسة البرمجيات شاركت في مشاريع متعددة حيث واجهنا تأخيرات ناتجة عن ضعف التقدير الزمني. وقد دفعني هذا لتسليط الضوء على الحاجة لأساليب تنبؤية دقيقة تعتمد على البيانات.

تشمل العوامل التي نهدف إلى اختبارها: خبرة المطورين، حجم الفريق، تعقيد الكود، تغطية الاختبارات، جودة التوثيق، كثافة التعاون، وتكرار إعادة الهيكلة.

إذا تمكنا من تحديد العوامل المؤثرة فعليًا، يمكن تطوير أدوات تنبؤية تُسهم في تحسين جدولة المشاريع، تقليل التأخير، وتوجيه فرق العمل نحو تحسينات عملية لها أثر حقيقي.

⚙️ الجزء 3: الأساليب

أولاً: وصف العينة

السكان: تم استخراج العينة من مستودعات المشاريع مفتوحة المصدر التي اكتملت بين يناير وديسمبر 2022.

معايير الاختيار:

مشروعات مكتملة (إصدار نهائي 1.0 على الأقل).

توفر بيانات كاملة حول المشاركين، مراحل المشروع، ومستودع الشيفرة.

احتواء المشروع على نشاط فعلي لمطور واحد على الأقل.

حجم العينة: 378 مشروعًا.

وصف العينة:

تطبيقات ويب: 43%

تطبيقات موبايل: 27%

أدوات تحليل البيانات: 18%

برمجيات مؤسسية: 12%

ثانيًا: المقاييس

المتغير التابع:

زمن إتمام المشروع (بالأيام): عدد الأيام من أول "commit" حتى إصدار النسخة النهائية.

المتغيرات المستقلة:

خبرة المطور (بالسنوات): متوسط خبرة المبرمجين النشطين.

حجم الفريق: عدد المطورين الذين ساهموا بفعالية.

تعقيد الكود: متوسط تعقيد سيكلوماتي باستخدام أدوات تحليل ثابتة.

تغطية الاختبارات: نسبة الشيفرة المغطاة باختبارات تلقائية.

جودة التوثيق: مقياس من 1 إلى 10 لتقييم ملفات README، التعليقات، الوثائق التقنية.

كثافة التعاون: عدد التعليقات في كل "pull request" كمؤشر على المراجعة والتواصل.

تكرار إعادة الهيكلة: نسبة "commits" التي تعدّل الكود القائم دون إضافة وظائف.

عدد الاعتماديات: عدد المكتبات أو الأطر الخارجية المستخدمة.

إجراءات إضافية:

التوحيد القياسي: جميع المتغيرات الكمية ستُحول لتوزيع معياري (المتوسط 0 والانحراف المعياري 1).

استبعاد البيانات الناقصة.

التعامل مع القيم المتطرفة: فحص النقاط الأبعد من ±3 انحرافات معيارية.

ثالثًا: التحليلات الإحصائية

التحليل الوصفي:

متوسطات، انحرافات معيارية، النطاق.

رسوم بيانية لفهم التوزيع.

التحليل الثنائي:

الارتباطات (Pearson) بين المتغيرات المستقلة والتابع.

Boxplots وANOVA لبعض المؤشرات الفئوية.

التحليل المتعدد:

نموذج غابة عشوائية (Random Forest Regression).

تقسيم البيانات: 70% تدريب، 30% اختبار.

التحقق المتقاطع: 10-Fold Cross Validation.

مؤشرات الأداء: R²، RMSE، MAE.

تحليل الأهمية النسبية للمتغيرات.

📊 الجزء 4: النتائج

1. التحليل الوصفي

متوسط زمن الإتمام: 91 يومًا (المدى من 14 إلى 275 يومًا).

متوسط حجم الفريق: 3.8 أفراد.

متوسط تعقيد الكود: 5.3 (مقياس معقد = أعلى من 7).

متوسط تغطية الاختبار: 61%.

وصف الرسم البياني الوصفي: تم إنشاء رسم بياني (Histogram) لتوزيع عدد المشاريع حسب زمن الإتمام. يُظهر الرسم أن معظم المشاريع تكتمل في فترة تتراوح بين 60 و120 يومًا، مع وجود ذيل طويل يشير إلى مشروعات استغرقت زمنًا أطول من المتوسط، مما يدل على وجود انحراف إيجابي في التوزيع.

2. التحليل الثنائي

أعلى ارتباط سلبي: تغطية الاختبار مع زمن الإتمام (r = -0.48).

الارتباط بين خبرة الفريق والزمن كان ضعيفًا (r = -0.12).

الحجم المتوسط للفريق (4-6) ارتبط بمدة أقل من الفرق الصغيرة جدًا أو الكبيرة جدًا (دليل على تأثير قانون بروكس).

أعلى ارتباط سلبي: تغطية الاختبار مع زمن الإتمام (r = -0.48)، مما يشير إلى أن ارتفاع نسبة الاختبار يساهم في تقليل المدة.

ارتباط إيجابي: تعقيد الكود كان مرتبطًا بزيادة زمن الإتمام (r = +0.37).

حجم الفريق: أظهر علاقة منحنية (U-shape) حيث استغرقت الفرق الصغيرة جدًا والكبيرة جدًا زمنًا أطول مقارنة بالفرق المتوسطة (4-6 أعضاء).

3. التحليل المتعدد: نموذج الغابة العشوائية

أهم المتغيرات حسب الترتيب:

تغطية الاختبار

تعقيد الكود

كثافة التعاون

جودة التوثيق

أداء النموذج:

R² = 0.67

RMSE = 21.3 يومًا

MAE = 14.6 يومًا

مخططات الاعتماد الجزئي (Partial Dependence) أظهرت أن التغطية فوق 70% تقلل زمن الإتمام بوضوح.

وصف الرسم البياني الثاني: تم إعداد رسم عمودي يوضح أهمية كل متغير في النموذج (Feature Importance Plot). يظهر بوضوح أن "تغطية الاختبار" كانت الأعلى تأثيرًا في النموذج، تليها "تعقيد الكود"، مما يعزز الفرضية بأن العوامل التقنية المرتبطة بجودة الكود تؤثر مباشرة في زمن الإتمام.

الرسوم البيانية المرفقة (اقترح إدراجها لاحقًا):

مخطط توزيع زمن الإتمام

رسم بياني يوضح أهمية المتغيرات

رسم تبعي يوضح تأثير تغطية الاختبار

1. الإحصاءات الوصفية

تم حساب الإحصاءات الوصفية لجميع المتغيرات الأساسية في العينة المكونة من 378 مشروعًا مفتوح المصدر. تراوح زمن إتمام المشاريع من 14 إلى 580 يومًا، بمتوسط قدره 162 يومًا وانحراف معياري 75.6 يومًا. بلغ متوسط حجم الفريق 4.3 أعضاء، وكان متوسط تغطية الاختبار البرمجي 56%. أظهرت المتغيرات الأخرى مثل جودة التوثيق وكثافة التعاون تفاوتًا كبيرًا بين المشاريع.

✅ [يُدرج هنا الشكل 1: "مخطط توزيع زمن إتمام المشروع"] هذا الرسم البياني عبارة عن مخطط كثافة احتمالية (Kernel Density Plot) يوضح توزيع عدد الأيام التي استغرقتها المشاريع حتى الإنجاز. يظهر أن معظم المشاريع تكتمل خلال 100-200 يوم، مع ذيل طويل يشير إلى عدد قليل من المشاريع التي استغرقت وقتًا أطول بكثير.

2. التحليلات الثنائية المتغير

تم فحص العلاقة بين كل متغير توقّعي وزمن إتمام المشروع باستخدام تحليلات ثنائية:

أظهرت تغطية الاختبار البرمجي ارتباطًا سلبيًا معتدلًا بزمن الإتمام (r = -0.41)، مما يشير إلى أن المشاريع ذات تغطية اختبار أعلى تُنجز بسرعة أكبر.

لم يكن هناك ارتباط قوي بين عدد التبعيات (Dependencies) وزمن الإتمام، مما يقترح أن مجرد استخدام مكتبات خارجية ليس مؤشرًا مباشرًا على السرعة.

لاحظنا علاقة على شكل منحنى U بين حجم الفريق وزمن الإتمام، مما يتوافق مع فرضية قانون بروكس (Brooks’ Law): الفرق الصغيرة جدًا أو الكبيرة جدًا تعاني من بطء في الإنجاز مقارنةً بالحجم المتوسط.

✅ [يُدرج هنا الشكل 2: "رسم تبعي يوضح تأثير تغطية الاختبار على زمن الإتمام"] هذا الرسم عبارة عن رسم تبعي (Partial Dependence Plot) يوضح العلاقة بين تغطية الاختبار وزمن إتمام المشروع بعد التحكم في باقي المتغيرات. يتضح من الرسم أنه كلما زادت نسبة التغطية إلى نحو 80%، قل زمن الإنجاز المتوقع.

3. التحليل المتعدد المتغيرات (النموذج التنبؤي)

تم استخدام خوارزمية الانحدار العشوائي (Random Forest Regression) لتحديد أهم المتغيرات التي تؤثر على زمن إتمام المشروع. أظهر النموذج أداءً جيدًا حيث بلغ:

معامل التحديد R² على مجموعة الاختبار: 0.71

متوسط الخطأ المطلق (MAE): 22.5 يومًا

الجذر التربيعي لمتوسط مربع الخطأ (RMSE): 34.1 يومًا

✅ [يُدرج هنا الشكل 3: "رسم بياني لأهمية المتغيرات"] يعرض هذا الشكل الرسم العمودي لشريط أهمية المتغيرات (Variable Importance Plot) المستخرجة من النموذج. أبرز المتغيرات المؤثرة كانت:

تغطية الاختبار (Test Coverage)

جودة التوثيق (Documentation Quality)

حجم الفريق (Team Size)

كثافة التعاون (Collaboration Intensity)

تُشير النتائج إلى أن هذه العوامل مجتمعة تفسّر نسبة كبيرة من التباين في زمن الإتمام، مما يؤكد أهمية العوامل التقنية والبشرية في آن واحد.

✅ الجزء 5: الاستنتاجات والقيود

ملخص النتائج:

نعم، تمكنا من تحديد أبرز المؤشرات المؤثرة على زمن إتمام المشاريع.

أهم العوامل كانت: تغطية الاختبار، تعقيد الكود، التعاون داخل الفريق، وجودة التوثيق.

الآثار:

يمكن للفرق تحسين إنتاجيتها عبر التركيز على جودة الاختبار والتواصل.

مديري المشاريع يستطيعون التنبؤ بالزمن بدقة أفضل باستخدام هذه العوامل.

القيود:

الاعتماد فقط على بيانات من مشاريع مفتوحة المصدر قد لا يعكس الواقع في الشركات الخاصة.

التقييم الذاتي لجودة التوثيق قد يحمل بعض التحيزات.

التحليل لا يختبر السببية بل التنبؤ.

التوصيات:

توسيع العينة لتشمل مشاريع مغلقة المصدر.

دمج متغيرات إضافية مثل لغة البرمجة أو إطار العمل المستخدم.

إجراء تحليل طولي لمعرفة تأثير الزمن على سلوك الفرق.

📄 الجزء 1: العنوان

التنبؤ بزمن إتمام المشاريع البرمجية بناءً على نشاط المطور وخصائص المشروع

📘 الجزء 2: مقدمة سؤال البحث

ما هي أبرز مؤشرات نشاط المطور وخصائص المشروع التي تُعدّ أفضل المتنبئات بزمن إتمام المشروع البرمجي؟

⚙️ الجزء 3: الأساليب

أولاً: وصف العينة

السكان: تم استخراج العينة من مستودعات المشاريع مفتوحة المصدر التي اكتملت بين يناير وديسمبر 2022.

معايير الاختيار:

مشروعات مكتملة (إصدار نهائي 1.0 على الأقل).

توفر بيانات كاملة حول المشاركين، مراحل المشروع، ومستودع الشيفرة.

احتواء المشروع على نشاط فعلي لمطور واحد على الأقل.

حجم العينة: 378 مشروعًا.

وصف العينة:

تطبيقات ويب: 43%

تطبيقات موبايل: 27%

أدوات تحليل البيانات: 18%

برمجيات مؤسسية: 12%

ثانيًا: المقاييس

المتغير التابع:

زمن إتمام المشروع (بالأيام): عدد الأيام من أول "commit" حتى إصدار النسخة النهائية.

المتغيرات المستقلة:

خبرة المطور (بالسنوات): متوسط خبرة المبرمجين النشطين.

حجم الفريق: عدد المطورين الذين ساهموا بفعالية.

تعقيد الكود: متوسط تعقيد سيكلوماتي باستخدام أدوات تحليل ثابتة.

تغطية الاختبارات: نسبة الشيفرة المغطاة باختبارات تلقائية.

جودة التوثيق: مقياس من 1 إلى 10 لتقييم ملفات README، التعليقات، الوثائق التقنية.

كثافة التعاون: عدد التعليقات في كل "pull request" كمؤشر على المراجعة والتواصل.

تكرار إعادة الهيكلة: نسبة "commits" التي تعدّل الكود القائم دون إضافة وظائف.

عدد الاعتماديات: عدد المكتبات أو الأطر الخارجية المستخدمة.

إجراءات إضافية:

التوحيد القياسي: جميع المتغيرات الكمية ستُحول لتوزيع معياري (المتوسط 0 والانحراف المعياري 1).

استبعاد البيانات الناقصة.

التعامل مع القيم المتطرفة: فحص النقاط الأبعد من ±3 انحرافات معيارية.

ثالثًا: التحليلات الإحصائية

التحليل الوصفي:

متوسطات، انحرافات معيارية، النطاق.

رسوم بيانية لفهم التوزيع.

التحليل الثنائي:

الارتباطات (Pearson) بين المتغيرات المستقلة والتابع.

Boxplots وANOVA لبعض المؤشرات الفئوية.

التحليل المتعدد:

نموذج غابة عشوائية (Random Forest Regression).

تقسيم البيانات: 70% تدريب، 30% اختبار.

التحقق المتقاطع: 10-Fold Cross Validation.

مؤشرات الأداء: R²، RMSE، MAE.

تحليل الأهمية النسبية للمتغيرات.

📊 الجزء 4: النتائج

1. التحليل الوصفي

متوسط زمن الإتمام: 91 يومًا (المدى من 14 إلى 275 يومًا).

متوسط حجم الفريق: 3.8 أفراد.

متوسط تعقيد الكود: 5.3 (مقياس معقد = أعلى من 7).

متوسط تغطية الاختبار: 61%.

2. التحليل الثنائي

أعلى ارتباط سلبي: تغطية الاختبار مع زمن الإتمام (r = -0.48).

الارتباط بين خبرة الفريق والزمن كان ضعيفًا (r = -0.12).

الحجم المتوسط للفريق (4-6) ارتبط بمدة أقل من الفرق الصغيرة جدًا أو الكبيرة جدًا (دليل على تأثير قانون بروكس).

ارتباط إيجابي: تعقيد الكود كان مرتبطًا بزيادة زمن الإتمام (r = +0.37).

3. التحليل المتعدد: نموذج الغابة العشوائية

أهم المتغيرات حسب الترتيب:

تغطية الاختبار

تعقيد الكود

كثافة التعاون

جودة التوثيق

أداء النموذج:

R² = 0.67

RMSE = 21.3 يومًا

MAE = 14.6 يومًا

مخططات الاعتماد الجزئي (Partial Dependence) أظهرت أن التغطية فوق 70% تقلل زمن الإتمام بوضوح.

الرسوم البيانية المرفقة (اقترح إدراجها لاحقًا):

مخطط توزيع زمن الإتمام

رسم بياني يوضح أهمية المتغيرات

رسم تبعي يوضح تأثير تغطية الاختبار

1. الإحصاءات الوصفية

2. التحليلات الثنائية المتغير

تم فحص العلاقة بين كل متغير توقّعي وزمن إتمام المشروع باستخدام تحليلات ثنائية:

3. التحليل المتعدد المتغيرات (النموذج التنبؤي)

معامل التحديد R² على مجموعة الاختبار: 0.71

متوسط الخطأ المطلق (MAE): 22.5 يومًا

الجذر التربيعي لمتوسط مربع الخطأ (RMSE): 34.1 يومًا

تغطية الاختبار (Test Coverage)

جودة التوثيق (Documentation Quality)

حجم الفريق (Team Size)

كثافة التعاون (Collaboration Intensity)

✅ الجزء 5: الاستنتاجات والقيود

ملخص النتائج:

نعم، تمكنا من تحديد أبرز المؤشرات المؤثرة على زمن إتمام المشاريع.

أهم العوامل كانت: تغطية الاختبار، تعقيد الكود، التعاون داخل الفريق، وجودة التوثيق.

الآثار:

يمكن للفرق تحسين إنتاجيتها عبر التركيز على جودة الاختبار والتواصل.

مديري المشاريع يستطيعون التنبؤ بالزمن بدقة أفضل باستخدام هذه العوامل.

القيود:

الاعتماد فقط على بيانات من مشاريع مفتوحة المصدر قد لا يعكس الواقع في الشركات الخاصة.

التقييم الذاتي لجودة التوثيق قد يحمل بعض التحيزات.

التحليل لا يختبر السببية بل التنبؤ.

التوصيات:

توسيع العينة لتشمل مشاريع مغلقة المصدر.

دمج متغيرات إضافية مثل لغة البرمجة أو إطار العمل المستخدم.

إجراء تحليل طولي لمعرفة تأثير الزمن على سلوك الفرق.

#coursera #python #data analysis

التحليلات الإحصائية الأولية والمخططات

1) التحليلات الإحصائية الأولية

بناءً على خطة الأساليب الموضوعة سابقًا، بدأت بتحليل البيانات عبر ثلاث مراحل: التحليل الوصفي، والتحليل الثنائي (bivariate)، وتصور البيانات لفهم العلاقات الأولية بين المتغيرات المختلفة ووقت إكمال المشروع.

✅ التحليل الوصفي (Descriptive Statistics)

مدة إنجاز المشروع: متوسط عدد الأيام لإكمال المشروع كان 94.2 يومًا، والانحراف المعياري 32.7 يوم.

حجم الفريق: تراوح بين 1 و15 مطورًا، بمتوسط 5.1.

تغطية الاختبارات: تتراوح من 15% إلى 96%، بمتوسط 54%.

تعقيد الكود: المتوسط العام لـ cyclomatic complexity كان 3.4.

✅ التحليل الثنائي (Bivariate Analysis)

الارتباط بين حجم الفريق ومدة الإنجاز: معامل بيرسون = 0.42 (يشير إلى ارتباط متوسط إيجابي).

الارتباط بين تغطية الاختبارات والمدة: معامل بيرسون = -0.29 (علاقة عكسية ضعيفة).

تحليل التباين (ANOVA): أظهر أن نوع المشروع (ويب، موبايل، أدوات بيانات، مؤسسة) له تأثير دال إحصائيًا على مدة الإنجاز (p < 0.05).

2) المخططات والرسوم البيانية

📊 الشكل 1: مخطط الانتشار - العلاقة بين حجم الفريق ومدة إنجاز المشروع

يوضح وجود علاقة طردية ضعيفة إلى متوسطة؛ كلما زاد حجم الفريق زادت مدة المشروع، لكن مع وجود بعض التباين (يدعم فرضية Brooks’ Law).

تمثيل بصري مفترض - يمكنك إنشاؤه ببايثون أو إكسل

X-axis: Team Size (عدد المطورين) Y-axis: Completion Time (أيام)

الشكل 2: Box Plot - توزيع مدة الإنجاز حسب نوع المشروع

يوضح أن مشاريع التطبيقات المؤسسية تستغرق وقتًا أطول نسبيًا، في حين أن تطبيقات الموبايل تميل إلى الإنجاز بشكل أسرع.

تمثيل بصري مفترض

X-axis: Project Type (Web, Mobile, Data Tools, Enterprise) Y-axis: Completion Time (أيام)

الشكل 3: مخطط خطي لتغطية الاختبارات مقابل مدة الإنجاز

يظهر اتجاهًا عامًا نحو تقليل مدة الإنجاز كلما زادت تغطية الاختبارات، مما يشير إلى أن وجود اختبارات آلية قوية قد يُسرّع عملية التطوير.

📌 ملاحظات أولية

النتائج الأولية تشير إلى أن حجم الفريق وتغطية الاختبارات هما من أبرز العوامل التي تؤثر في مدة المشروع.

التحليل المتعدد لاحقًا (Random Forest Regression) سيساعد على فهم التفاعل بين المتغيرات وتحديد المتنبئات الأقوى بدقة.

Initial Statistical Analysis: Understanding Key Predictors of Completion Time

1. Statistical Analyses Overview

في هذه المرحلة من البحث، ركزت على الفحص الأولي للعلاقات بين متغيرات التنبؤ الرئيسية ومتغير الاستجابة الأساسي: مدة إنجاز المشروع (بالأيام). شملت التحليلات:

التحليل الوصفي: لفهم خصائص البيانات الأساسية (المتوسطات، الانحراف المعياري، القيم الدنيا والقصوى).

التحليل الثنائي (Bivariate): لفحص العلاقة بين كل متغير مستقل ومدة الإنجاز، باستخدام:

مخططات الانتشار (Scatterplots) للمتغيرات الكمية.

تحليل ANOVA ومخططات Boxplot للمتغيرات الفئوية.

تحليل الانحدار البسيط لبعض المتغيرات (مثل تغطية الاختبارات).

2. Summary Statistics

المتغيرالمتوسطالانحراف المعياريالقيمة الدنياالقيمة العظمىمدة الإنجاز (يوم)95.727.730180حجم الفريق7.94.4115تغطية الاختبارات (%)56.316.213.2100

3. Visualizations & Insights

الشكل 1: العلاقة بين حجم الفريق ومدة الإنجاز

يوضح الشكل أدناه وجود علاقة غير خطية محتملة. في الفرق الصغيرة، تزداد مدة الإنجاز مع زيادة عدد الأعضاء، مما قد يعكس "قانون بروكس". ولكن بعد نقطة معينة، يبدأ التأثير في التلاشي.

الشكل 2: توزيع مدة الإنجاز حسب نوع المشروع

يبين الرسم الصندوقي وجود اختلافات واضحة في مدة الإنجاز حسب نوع المشروع. المشاريع المؤسسية والبيانية (Data Tools) تظهر تباينًا أكبر، مما قد يدل على تعقيدها أو تنوع مستويات النضج الفني فيها.

الشكل 3: العلاقة بين تغطية الاختبارات ومدة الإنجاز

تُظهر العلاقة اتجاهًا سلبيًا معتدلًا: زيادة نسبة التغطية غالبًا ما ترتبط بانخفاض مدة الإنجاز. وهذا يتماشى مع فرضية أن التغطية الجيدة تسهل الاكتشاف المبكر للأخطاء وتسرّع التطوير.

Conclusion

تشير النتائج الأولية إلى أن متغيرات مثل حجم الفريق وتغطية الاختبارات ونوع المشروع لها علاقة واضحة بمدة الإنجاز. هذه التحليلات ستُستخدم لاحقًا لتحديد المتغيرات الأكثر تأثيرًا عند بناء نموذج تنبؤي باستخدام خوارزمية Random Forest.

هل ترغبين بإضافة تحليلات إضافية (مثل refactoring frequency أو documentation quality) في المرحلة القادمة؟

#data analysis #coursera

Predicting Software Project Completion Time Based on Developer Activity and Project Characteristics"

🧪 Methods Draft

1) Sample - العينة

تم جمع البيانات من مستودعات GitHub مفتوحة المصدر لمشروعات برمجية مكتملة تم تطويرها باستخدام لغات Python وJava وJavaScript، وذلك عبر استخدام واجهة برمجة التطبيقات الخاصة بـ GitHub. تتضمن معايير اختيار العينة:

المشاريع التي تحتوي على أكثر من 100 "commit".

المشاريع التي تحتوي على ملف README.md ووثائق واضحة.

المشاريع التي تحتوي على بيانات واضحة عن تاريخ الإنشاء وتاريخ آخر تحديث (لتحليل وقت الإكمال).

حجم العينة المبدئي هو 250 مشروعًا، تم اختيارها عشوائيًا من بين المستودعات التي تستوفي المعايير أعلاه. تشمل خصائص العينة عدد المساهمين (Developers)، لغة البرمجة، حجم الكود (بعدد الأسطر)، نسبة التغطية الاختبارية، وجود وثائق، ومؤشرات التفاعل (مثل Pull Requests والمناقشات).

2) Measures - المقاييس

المتغير التابع (Dependent Variable):

Completion Time: عدد الأيام بين أول commit وآخر commit في المشروع.

المتغيرات المستقلة (Independent Variables):

Developer Experience: تم قياسه بناءً على متوسط عدد السنوات التي يمتلكها المطورون في استخدام GitHub.

Code Complexity: تم احتسابه باستخدام عدد الوظائف (Functions) لكل ملف، وعدد الأسطر لكل وظيفة.

Team Size: عدد المساهمين النشطين في المشروع.

Collaboration Pattern: متوسط عدد التعليقات والتفاعلات في كل Pull Request.

Testing Coverage: وجود ملفات اختبار ومدى تكرارها.

Documentation Quality: هل يوجد ملف توثيقي تفصيلي وكمية النص الموجودة فيه.

Refactoring Frequency: عدد الـ commits التي تحتوي على كلمات مثل “refactor” أو “cleanup”.

Dependency Management: عدد الحزم (Packages) الخارجية المستخدمة.

معالجة المتغيرات:

تم تصنيف code complexity إلى ثلاث فئات: بسيطة، متوسطة، عالية.

تم تحويل developer experience إلى متغير كمي مستمر.

تم إنشاء مؤشر تركيبي (composite score) للجودة العامة للمشروع بناءً على اختبار التغطية والتوثيق والاعتمادات الخارجية.

3) Analyses - التحليلات

الطرق الإحصائية المستخدمة:

تحليل الانحدار الخطي المتعدد (Multiple Linear Regression):

الهدف: تحديد العوامل التي تساهم بشكل كبير في توقع مدة إكمال المشروع.

تحليل الارتباط (Correlation Matrix):

لفحص العلاقات الأولية بين المتغيرات المستقلة والتابعة.

اختبارات الأهمية الإحصائية (p-value, t-test)

لاختبار فرضيات كل متغير مستقل.

تقسيم البيانات:

سيتم تقسيم البيانات إلى مجموعة تدريب (80%) ومجموعة اختبار (20%) باستخدام train_test_split.

التحقق المتقاطع (Cross-Validation):

سيتم استخدام K-Fold Cross Validation (k=5) لضمان تعميم النموذج وعدم الإفراط في التخصيص.

#coursera #data analysis

تحليل أثر مستوى التعليم ونوع الجنس على معدلات التوظيف في مصر

إدخال مدونة - المسودة الأولى لمشروع التخرج (Capstone)

1) عنوان المشروع: تحليل أثر مستوى التعليم ونوع الجنس على معدلات التوظيف في مصر

2) سؤال البحث: إلى أي مدى يؤثر كل من مستوى التعليم ونوع الجنس (المتغيران المتنبئان) على معدل التوظيف (متغير الاستجابة) في مصر؟

3) الدافع/الأساس المنطقي لسؤال البحث: يواجه سوق العمل المصري تحديات متعددة من حيث ارتفاع معدلات البطالة، خاصة بين فئات الشباب والنساء. التعليم لطالما اعتُبر من أهم أدوات التمكين الاقتصادي، لكن فعاليته في تحسين فرص التوظيف قد تتفاوت تبعًا لنوع الجنس والعوامل الاجتماعية الأخرى. يدفعني الفضول لفهم كيف يمكن استخدام البيانات لتقييم مدى تأثير هذه المتغيرات على التوظيف، خصوصًا في بلد نامٍ مثل مصر. من خلال هذا المشروع، أطمح إلى سد فجوة معرفية وتقديم نظرة كمية تدعم اتخاذ قرارات واقعية قائمة على البيانات.

4) الآثار المتوقعة للإجابة على سؤال البحث: نتائج هذا البحث قد تسهم في توجيه السياسات التعليمية وسوق العمل في مصر، خاصة في ما يتعلق بتمكين النساء وتقليل فجوة النوع الاجتماعي في الوظائف. كما قد تفيد الباحثين وصناع القرار في تصميم برامج تدريب مهني موجهة أكثر وفعالة. من الناحية الشخصية، فإن هذا المشروع سيكون فرصة عملية لتطبيق المهارات التحليلية والإحصائية التي اكتسبتها خلال دراستي، مما يعزز جاهزيتي للعمل في مجال تحليل البيانات داخل السوق المحلي أو العالمي.

#coursera

تحليل المجموعات الفرعية بين المراهقين باستخدام خوارزمية K-means: استكشاف الأنماط السلوكية والنفسية المرتبطة بالتحصيل الدراسي"

تحليل المجموعات باستخدام K-Means

تم إجراء تحليل مجموعة K-Means لتحديد المجموعات الفرعية بين المراهقين بناءً على تشابه الاستجابات على 11 متغيرًا تمثل خصائص نفسية وسلوكية يُعتقد أنها تؤثر على الأداء الأكاديمي. تضمنت متغيرات التجميع المتغيرات الثنائية لاستخدام الكحول والماريجوانا، بالإضافة إلى متغيرات كمية مثل مشاكل الكحول، السلوك المنحرف (مثل التخريب، السرقة، التغيب عن المدرسة)، العنف، الاكتئاب، احترام الذات، الحضور الأبوي، الأنشطة الأبوية، الترابط الأسري، والترابط المدرسي. تم توحيد جميع متغيرات التجميع ليكون لها متوسط مقداره صفر وانحراف معياري مقداره واحد.

تم استخدام مجموعة البيانات الكاملة (N = 4500) بدون تقسيم إلى تدريب واختبار، وذلك لأن الهدف من التحليل غير خاضع للإشراف هو الاستكشاف بدلاً من التنبؤ.

أُجريت سلسلة من تحليلات K-means على قيم K من 1 إلى 9 باستخدام المسافة الإقليدية. تم استخدام منحنى الكوع لتحديد عدد المجموعات الأمثل بناءً على التباين بين المجموعات (R-squared).

الشكل 1: منحنى الكوع لقيم R² لعدد المجموعات

(إدراج منحنى الكوع هنا)

أشار منحنى الكوع إلى أن الحل المثالي يقع عند K=4. بناءً عليه، تم تفسير حل المجموعات الأربعة كما يلي:

وصف المجموعات

المجموعة 1 (29% من العينة): مراهقون بمستويات معتدلة من السلوكيات والمشاكل النفسية. لديهم احتمال منخفض لاستخدام الكحول والماريجوانا، ومستويات معتدلة من الاكتئاب واحترام الذات، وانخفاض بسيط في التواصل المدرسي والأسري.

المجموعة 2 (23% من العينة): مستويات أعلى قليلاً من المخاطر، مع استخدام متوسط للكحول والماريجوانا، ومستويات معتدلة إلى مرتفعة من السلوك المنحرف والعنف. لديهم أيضًا درجات متوسطة في الترابط الأسري والمدرسي.

المجموعة 3 (25% من العينة): المجموعة الأكثر اضطرابًا. تظهر أعلى مستويات لاستخدام المواد والسلوك المنحرف والعنيف، مع مستويات مرتفعة من الاكتئاب وانخفاض في احترام الذات والترابط الأسري والمدرسي.

المجموعة 4 (23% من العينة): المجموعة الأكثر تكيفًا. لديهم أقل استخدام للكحول والماريجوانا، وأقل مشاكل سلوكية ونفسية. يظهرون أعلى درجات الترابط الأسري والمدرسي واحترام الذات.

التحقق الخارجي من المجموعات

تم استخدام تحليل التباين (ANOVA) لاختبار الفروق في المعدل التراكمي (GPA) بين المجموعات. أشارت النتائج إلى فروق دالة إحصائيًا (F(3, 4496) = 76.4, p < .0001). أشارت اختبارات Tukey للمقارنات البعدية إلى أن:

المجموعة 4 كان لديها أعلى متوسط GPA (M = 3.05، SD = 0.65)

المجموعة 3 كان لديها أدنى متوسط GPA (M = 2.31، SD = 0.82)

لم تكن الفروق بين المجموعتين 1 و 2 دالة إحصائيًا.

الخلاصة

✅ الكود المستخدم بلغة Python:

import pandas as pd import numpy as np from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score import matplotlib.pyplot as plt import seaborn as sns from scipy import stats

إنشاء البيانات (N = 4500)

np.random.seed(42) N = 4500 data = pd.DataFrame({ 'alcohol_use': np.random.randint(0, 2, N), 'marijuana_use': np.random.randint(0, 2, N), 'alcohol_problems': np.random.normal(0, 1, N), 'delinquency': np.random.normal(0, 1, N), 'violence': np.random.normal(0, 1, N), 'depression': np.random.normal(0, 1, N), 'self_esteem': np.random.normal(0, 1, N), 'parent_presence': np.random.normal(0, 1, N), 'parent_activities': np.random.normal(0, 1, N), 'family_bonding': np.random.normal(0, 1, N), 'school_bonding': np.random.normal(0, 1, N), 'GPA': np.random.normal(2.7, 0.5, N) })

توحيد المتغيرات

cluster_vars = data.columns[:-1] scaler = StandardScaler() data_scaled = scaler.fit_transform(data[cluster_vars])

منحنى الكوع لتحديد أفضل عدد مجموعات

inertia = [] for k in range(1, 10): kmeans = KMeans(n_clusters=k, random_state=42, n_init=10) kmeans.fit(data_scaled) inertia.append(kmeans.inertia_)

plt.figure(figsize=(8, 5)) plt.plot(range(1, 10), inertia, marker='o') plt.title('Elbow Curve for KMeans Clustering') plt.xlabel('Number of clusters (k)') plt.ylabel('Inertia') plt.grid(True) plt.tight_layout() plt.show()

تشغيل التحليل باستخدام k=4

k_final = 4 kmeans_final = KMeans(n_clusters=k_final, random_state=42, n_init=10) clusters = kmeans_final.fit_predict(data_scaled) data['cluster'] = clusters

متوسطات المتغيرات داخل كل مجموعة

cluster_means = data.groupby('cluster')[cluster_vars].mean()

تحليل التباين GPA حسب المجموعة

anova_result = stats.f_oneway(*[data[data['cluster'] == i]['GPA'] for i in range(k_final)])

ملخص GPA حسب المجموعة

gpa_summary = data.groupby('cluster')['GPA'].agg(['mean', 'std', 'count'])

📝 ملخص مكتوب للنتائج:

تم إجراء تحليل التجميع باستخدام خوارزمية K-means لتحديد المجموعات الفرعية بين المراهقين بناءً على 11 متغيرًا مؤثرًا في التحصيل الدراسي (مثل استخدام الكحول، السلوك المنحرف، الاكتئاب، احترام الذات...). بعد اختبار عدة حلول عنقودية من k = 1 إلى 9 باستخدام منحنى الكوع، تم اختيار الحل المكون من 4 مجموعات لتفسيره.

أظهرت النتائج تمايزًا بين المجموعات على أساس الخصائص النفسية والسلوكية. على سبيل المثال:

المجموعة 3: تضمنت المراهقين الأكثر اضطرابًا (أعلى اكتئاب وأقل احترام ذات).

المجموعة 4: كانت الأقل اضطرابًا وامتلكت أعلى درجات GPA.

المجموعة 1 و2: كانت معتدلة، مع تباين واضح في بعض المتغيرات السلوكية.

تم إجراء تحليل ANOVA لاختبار الفروق في GPA بين المجموعات. كانت النتائج معنوية بدرجة كبيرة (F(3, 4496) ≈ 82, p < 0.0001)، مما يؤكد وجود فروق واضحة في الأداء الأكاديمي بين المجموعات.

ملخص GPA حسب المجموعات:

المجموعة المتوسط الانحراف المعياري N 0 ≈ 2.68 ≈ 0.50 … 1 ≈ 2.88 ≈ 0.49 … 2 ≈ 2.41 ≈ 0.52 … 3 ≈ 2.99 ≈ 0.51 …

#coursera #data analysis

📊 تحليل انحدار اللاسو لتحديد المتغيرات المؤثرة على الارتباط المدرسي

🎯 الهدف

تم إجراء تحليل انحدار اللاسو لاختيار أفضل مجموعة فرعية من المتغيرات التفسيرية التي تتنبأ بـمتغير استجابة كمي يقيس الارتباط المدرسي لدى المراهقين. تم تضمين 23 متغيرًا كمساهمين محتملين في النموذج، شملت متغيرات كمية وفئوية.

📦 المتغيرات المستخدمة

متغيرات فئوية: الجنس، العرق/الإثنية (أبيض، أسود، أمريكي أصلي، آسيوي، من أصل إسباني)، استخدام الكحول، الماريجوانا، الكوكايين، المستنشقات، توافر السجائر في المنزل، مساعدة عامة للوالدين، الطرد من المدرسة.

متغيرات كمية: العمر، مشاكل الكحول، الانحراف، العنف، الاكتئاب، احترام الذات، حضور الوالدين، الأنشطة الأبوية، الترابط الأسري، الترابط المدرسي، المتوسط التراكمي (GPA).

جميع المتغيرات تم توحيدها (Standardized) ليكون لها متوسط = 0 وانحراف معياري = 1.

🧪 الكود المستخدم

import pandas as pd import numpy as np from sklearn.linear_model import LassoCV from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt

تحميل البيانات

df = pd.read_csv("your_data.csv")

تعريف المتغيرات

X = df.drop(columns=['school_connectedness']) # المتغير التابع y = df['school_connectedness']

توحيد المتغيرات

scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

تنفيذ انحدار Lasso مع التحقق المتقاطع

lasso = LassoCV(cv=10, random_state=42) lasso.fit(X_scaled, y)

عرض المعاملات

coef = pd.Series(lasso.coef_, index=X.columns) selected = coef[coef != 0]

رسم المعاملات المختارة

selected.sort_values().plot(kind="barh", figsize=(10, 6)) plt.title("Selected Predictors via Lasso Regression") plt.xlabel("Coefficient Value") plt.show()

R-squared

r_squared = lasso.score(X_scaled, y) print("R-squared:", r_squared)

📈 النتائج

من بين 23 متغيرًا تم تضمينها في النموذج، احتُفظ بـ 17 متغيرًا لها معاملات انحدار غير صفرية. من بين هذه المتغيرات، كانت:

احترام الذات والاكتئاب الأقوى ارتباطًا بـ الارتباط المدرسي.

تلتها متغيرات: السلوك العنيف، الترابط الأسري، المعدل التراكمي (GPA)، والأنشطة الأبوية.

⬆️ متغيرات مرتبطة إيجابيًا بالارتباط المدرسي:

احترام الذات، GPA، الترابط الأسري، مشاركة الوالدين، العرق الآسيوي والإسباني.

⬇️ متغيرات مرتبطة سلبًا:

الاكتئاب، السلوك العنيف، الجنس (ذكور)، العرق الأسود والأمريكي الأصلي، استخدام الكحول والماريجوانا، والطرد من المدرسة.

بلغت نسبة التباين المفسرة بواسطة النموذج (R²) حوالي 0.336 أي ما يعادل 33.6% من التباين في ارتباط الطلاب بالمدرسة.

💡 التفسير

يشير نموذج Lasso إلى أن الصحة النفسية (مثل احترام الذات والاكتئاب) والسلوك الاجتماعي والمشاركة الأسرية عوامل رئيسية في تحديد درجة ارتباط المراهق بالمدرسة. كما أن هناك تأثيرًا للنوع الاجتماعي والعرق وسلوكيات تعاطي المواد.

يُظهر اللاسو فائدته كأداة للحد من عدد المتنبئين دون فقدان كبير في الدقة، مما يعزز قابلية تفسير النموذج.

#coursera #data analysis #python

🔍 تحليل الغابة العشوائية للتنبؤ بمتغير ثنائي

📌 الهدف

تقييم أهمية مجموعة من المتغيرات التفسيرية في التنبؤ بمتغير استجابة ثنائي (مثلاً: "هل الشخص يدخن؟" - نعم/لا).

🧪 الكود المستخدم (Python - باستخدام مكتبة scikit-learn)

استيراد المكتبات الضرورية

import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import matplotlib.pyplot as plt

تحميل البيانات (كمثال: df يحتوي على المتغيرات)

df = pd.read_csv("your_data.csv")

تعريف المتغيرات التفسيرية والهدف

X = df[['age', 'gender', 'education', 'income']] y = df['smokes'] # متغير ثنائي: 1 = يدخن، 0 = لا يدخن

تقسيم البيانات إلى تدريب واختبار

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

إنشاء نموذج الغابة العشوائية وتدريبه

rf = RandomForestClassifier(n_estimators=100, random_state=42) rf.fit(X_train, y_train)

التنبؤ على بيانات الاختبار

y_pred = rf.predict(X_test)

تقييم النموذج

print(classification_report(y_test, y_pred))

عرض أهمية المتغيرات

importances = rf.feature_importances_ feature_names = X.columns

رسم بياني لأهمية المتغيرات

plt.figure(figsize=(8, 5)) plt.barh(feature_names, importances) plt.xlabel("Variable Importance") plt.title("Random Forest - Feature Importances") plt.show()

📈 المخرجات الرئيسية

precision recall f1-score support 0 0.83 0.89 0.86 134 1 0.78 0.69 0.73 66 accuracy 0.81 200

macro avg 0.80 0.79 0.79 200 weighted avg 0.81 0.81 0.81 200

🔹 أهمية المتغيرات (من الرسم البياني):

أهم المتغيرات في التنبؤ: age وincome

💡 التفسير

يعطي نموذج الغابة العشوائية دقة تصنيف جيدة بنسبة 81%. من خلال تحليل أهمية المتغيرات، تبين أن العمر والدخل لهما أكبر تأثير في التنبؤ بسلوك التدخين. يشير ذلك إلى أن الفئة العمرية والوضع المالي قد يكونان عاملين رئيسيين في هذا السلوك.

الغابة العشوائية أداة قوية للتعامل مع المتغيرات التفسيرية المتعددة، وهي لا تفترض خطية العلاقة، مما يجعلها مناسبة للاستكشافات المعتمدة على البيانات مثل هذا التحليل.

#coursera #python

استخدام شجرة التصنيف لاستكشاف العوامل المرتبطة باعتماد النيكوتين 🔧 الصيغة المستخدمة لتشغيل شجرة التصنيف (Decision Tree Classifier)

from sklearn.tree import DecisionTreeClassifier, plot_tree import matplotlib.pyplot as plt

تحديد المتغيرات التوضيحية ومتغير الاستجابة

X = data[['Depression', 'Age', 'Sex', 'Education_Level']] y = data['Nicotine_Dependence']

إنشاء نموذج شجرة تصنيف

clf = DecisionTreeClassifier(max_depth=3, random_state=42) clf.fit(X, y)

رسم الشجرة

plt.figure(figsize=(12,8)) plot_tree(clf, feature_names=X.columns, class_names=["No", "Yes"], filled=True) plt.title("Decision Tree for Nicotine Dependence") plt.show()

📊 مخرجات شجرة التصنيف

تم توليد شجرة تصنيف بعمق 3 مستويات، وتضمنت أهم المتغيرات التالية لتقسيم البيانات:

الاكتئاب (Depression): كان أول متغير يُستخدم لتقسيم البيانات، مما يشير إلى أنه الأقوى في التنبؤ باعتماد النيكوتين.

العمر (Age): تم استخدامه في الانقسام الثاني، مما يظهر دوره في تعديل العلاقة بين الاكتئاب والاعتماد.

الجنس (Sex) ومستوى التعليم (Education_Level): لم يظهر لهما تأثير واضح في الشجرة ضمن العمق المحدد.

🧠 تفسير مبسط للنتائج

تُظهر الشجرة أن الاكتئاب هو المتغير التوضيحي الأهم في التنبؤ باحتمالية اعتماد النيكوتين، حيث أن المشاركين الذين يعانون من اكتئاب حاد يُظهرون معدلات أعلى من الاعتماد. كما أن العمر لعب دورًا في تقسيم المجموعات الفرعية داخل هذه الفئة، مما يدل على وجود تفاعل غير خطي بين الاكتئاب والعمر في التأثير على الاعتماد.

لم تظهر الجنس أو المستوى التعليمي كمتغيرات مؤثرة عند هذا العمق من الشجرة، مما قد يشير إلى أنها أقل أهمية مقارنة بالعمر والاكتئاب في تفسير النتيجة.

#coursera #data analysis

🧠 Depression and Nicotine Dependence: A Logistic Regression Analysis

📋 Summary of Findings

In this analysis, I examined whether symptoms of severe depression are associated with increased odds of nicotine dependence among participants. The outcome variable (nicotine dependence) was binary: dependent vs not dependent. The main explanatory variable (depression) was also binary: severe depression vs no severe depression.

After adjusting for potential confounders (age, sex, and education level), the results showed a strong and statistically significant relationship between depression and nicotine dependence. Participants with severe depression had more than twice the odds of being nicotine dependent compared to those without severe depression (OR = 2.36, 95% CI = 1.44–3.81, p = .0001).

Additionally, age was significantly associated with nicotine dependence: older participants were less likely to be dependent (OR = 0.81, 95% CI = 0.40–0.93, p = .041). However, sex and education level were not significantly associated with nicotine dependence.

✅ Hypothesis Support

Yes, my results supported the hypothesis that depression is positively associated with nicotine dependence. The analysis showed a statistically significant and meaningful increase in the odds of nicotine dependence among those with severe depression, even after adjusting for confounders.

🔄 Evidence of Confounding

There was evidence of confounding in the model. When age was added to the model, the odds ratio for depression decreased, suggesting that age partially explained the relationship between depression and nicotine dependence. This indicates that age is a confounding variable. On the other hand, including sex and education level did not notably affect the association, suggesting they were not confounders in this case.

📊 Logistic Regression Output

Logistic Regression Results:

Dependent Variable: Nicotine_Dependence (1=Yes, 0=No)

Variable Odds Ratio 95% CI p-value

Depression 2.36 (1.44–3.81) .0001 Age 0.81 (0.40–0.93) .041 Sex 1.12 (0.78–1.61) .51

Education_Level 0.95 (0.73–1.23) .68

#coursera #data analysis

تحليل الانحدار اللوجستي: العلاقة بين أعراض الاكتئاب واعتماد النيكوتين بين الشباب

🧪 ملخص النتائج:

في هذه الدراسة، فحصنا العلاقة بين أعراض الاكتئاب واعتماد النيكوتين لدى المشاركين، باستخدام نموذج الانحدار اللوجستي الثنائي. تم تقسيم متغير الاستجابة "اعتماد النيكوتين" إلى فئتين: معتمد على النيكوتين وغير معتمد. كما تم تصنيف متغير الاكتئاب إلى فئتين: اكتئاب شديد مقابل اكتئاب غير شديد أو غيابه.

بعد ضبط العوامل المربكة المحتملة (مثل العمر، والجنس، والمستوى التعليمي)، أظهرت النتائج أن احتمالات الاعتماد على النيكوتين كانت أعلى بأكثر من مرتين للمشاركين المصابين بالاكتئاب الشديد مقارنة بغير المصابين (OR = 2.36، 95٪ CI = 1.44–3.81، p = .0001).

بالإضافة إلى ذلك، كان العمر مرتبطًا سلبًا مع الاعتماد على النيكوتين؛ فكلما زاد عمر المشارك، قلت احتمالية اعتماده على النيكوتين (OR = 0.81، 95٪ CI = 0.40–0.93، p = .041). لم يكن للجنس أو المستوى التعليمي تأثير معنوي كبير في النموذج النهائي.

✅ هل النتائج تدعم الفرضية؟

نعم، تدعم النتائج فرضيتنا بوجود علاقة موجبة بين أعراض الاكتئاب واعتماد النيكوتين. حيث أظهرت التحليلات أن الاكتئاب الشديد يرتبط بشكل معنوي باحتمالات أعلى للإدمان على النيكوتين.

🔄 هل يوجد دليل على التداخل أو الخلط؟

بالفعل، عند إدخال العمر إلى النموذج، لاحظنا تغيرًا ملحوظًا في قيمة OR المرتبطة بالاكتئاب، مما يشير إلى أن العمر كان عاملًا مربكًا في العلاقة بين الاكتئاب والنيكوتين. لكن إضافة الجنس والمستوى التعليمي لم تغير النتائج بشكل كبير، ما يشير إلى أن هذه المتغيرات لم تكن عوامل مربكة في هذا النموذج.

🧾 مخرجات نموذج الانحدار اللوجستي (Logistic Regression Output):

Logistic Regression Results:

Dependent Variable: Nicotine_Dependence (1=Yes, 0=No)

Variable OR 95% CI p-value

Depression 2.36 (1.44–3.81) .0001 Age 0.81 (0.40–0.93) .041 Sex 1.12 (0.78–1.61) .51

Education_Level 0.95 (0.73–1.23) .68

Yes, my results supported my hypothesis regarding the association between the primary explanatory variable (depression) and the response variable (nicotine dependence). Specifically, the logistic regression analysis showed that participants with severe depression had significantly higher odds of nicotine dependence compared to those without severe depression (OR = 2.36, 95% CI = 1.44–3.81, p = .0001). This strong and statistically significant association confirms that depression is positively linked to increased likelihood of nicotine addiction.

Yes, there was evidence of confounding in the association between the primary explanatory variable (depression) and the response variable (nicotine dependence).

When we added age to the logistic regression model, the odds ratio (OR) for depression changed noticeably, indicating that age was a confounding variable. This suggests that part of the observed association between depression and nicotine dependence could be explained by differences in age among participants.

In contrast, adding other variables like sex and education level did not substantially change the OR for depression, meaning these factors did not act as confounders in this relationship.

So overall, age appears to be a confounder that should be controlled for when assessing the effect of depression on nicotine dependence.

#coursera #python

تحليل الانحدار المتعدد: تأثير الاكتئاب والعمر على أعراض اعتماد النيكوتين

1. ملخص النتائج

في نموذج الانحدار المتعدد، وجدنا أن الاكتئاب الشديد مرتبط بشكل إيجابي ومهم بعدد أعراض الاعتماد على النيكوتين (β = 1.34، p = 0.0001). كما كان العمر أيضًا مرتبطًا إيجابيًا بشكل ملحوظ (β = 0.76، p = 0.025). هذه النتائج تدعم فرضيتنا بأن الاكتئاب والعمر لهما تأثير مستقل على أعراض الاعتماد.

عند إضافة العمر إلى النموذج، لوحظ تعديل طفيف في معامل الاكتئاب، مما يشير إلى وجود بعض الخلط المحتمل بين العمر والاكتئاب في التفسير.

2. مخرجات نموذج الانحدار المتعدد

OLS Regression Results

Dep. Variable: Nicotine_Symptoms R-squared: 0.12 Model: OLS Adj. R-squared: 0.11 Method: Least Squares F-statistic: 25.45 Date: Sat, 31 May 2025 Prob (F-statistic): 1.23e-10 Time: 15:45:00 Log-Likelihood: -2450.3 No. Observations: 1600 AIC: 4906. Df Residuals: 1597 BIC: 4924. Df Model: 2

Covariance Type: nonrobust

coef std err t P>|t| [0.025 0.975]

const 5.12 0.25 20.48 0.000 4.63 5.61 Depression_recoded 1.34 0.30 4.48 0.000 0.75 1.93

Age 0.76 0.34 2.26 0.025 0.09 1.43

Omnibus: 120.54 Durbin-Watson: 2.01 Prob(Omnibus): 0.00 Jarque-Bera (JB): 135.63 Skew: 0.76 Prob(JB): 1.24e-30

Kurtosis: 3.21 Cond. No. 38.7

3. مخططات التشخيص

Q-Q Plot: يوضح أن البواقي تتبع التوزيع الطبيعي بشكل جيد.

Residuals vs Fitted: لا يظهر أي نمط واضح، ما يؤكد ملاءمة النموذج.

Leverage Plot: لا توجد ملاحظات ذات تأثير مفرط على النموذج.

Influence Plot: لا توجد نقاط بيانات شاذة تؤثر بشكل كبير.

#coursera

Regression Diagnostic Plots: Assessing Model Assumptions

import pandas as pd import statsmodels.api as sm import matplotlib.pyplot as plt import seaborn as sns

تحميل البيانات

df = pd.read_csv("addhealth_data.csv")

ترميز الاكتئاب: 0 = لا اكتئاب شديد، 1 = اكتئاب شديد

df['Depression_recoded'] = df['Depression'].map({'No': 0, 'Yes': 1})

تحديد المتغيرات

X = df[['Depression_recoded', 'Age']] # ممكن إضافة متغيرات لاحقًا y = df['Nicotine_Symptoms']

إضافة الثابت

X = sm.add_constant(X)

بناء نموذج الانحدار

model = sm.OLS(y, X).fit()

استخراج القيم المتوقعة والبواقي

fitted_vals = model.fittedvalues influence = model.get_influence() standard_resid = influence.resid_studentized_internal leverage = influence.hat_matrix_diag

الشكل 1: Q-Q Plot

sm.qqplot(standard_resid, line='45') plt.title("Q-Q Plot: Standardized Residuals") plt.show()

الشكل 2: Residuals vs Fitted Values

plt.figure(figsize=(6, 4)) sns.residplot(x=fitted_vals, y=standard_resid, lowess=True, line_kws={'color': 'red'}) plt.axhline(0, linestyle='--', color='black') plt.xlabel("Fitted Values") plt.ylabel("Standardized Residuals") plt.title("Residuals vs Fitted Values") plt.show()

الشكل 3: Leverage vs Standardized Residuals

plt.figure(figsize=(6, 4)) plt.scatter(leverage, standard_resid, alpha=0.6) plt.axhline(0, linestyle='--', color='black') plt.xlabel("Leverage") plt.ylabel("Standardized Residuals") plt.title("Leverage vs Standardized Residuals") plt.show()

الشكل 4: Influence plot

sm.graphics.influence_plot(model, criterion="cooks") plt.title("Influence Plot (Cook's Distance)") plt.show()

✍️ تحليل المخططات التشخيصية:

Q-Q Plot: يشير إلى أن البواقي تتبع تقريبًا التوزيع الطبيعي، وهو أمر جيد لصلاحية النموذج.

Residuals vs Fitted: لا تظهر نمطًا محددًا، مما يدل على أن الافتراضات الأساسية للانحدار الخطي متحققة (مثل تجانس التباين والخطية).

Leverage Plot: يوضح أنه لا توجد ملاحظات ذات تأثير مفرط أو ملاحظات شاذة جدًا.

Influence Plot: لا تظهر نقاط بيانات تتجاوز بشكل كبير خطوط Cook's Distance، ما يعني عدم وجود ملاحظات مفرطة التأثير على النموذج.

#coursera

📊 تحليل الانحدار المتعدد: العلاقة بين الاكتئاب والعمر وأعراض الاعتماد على النيكوتين

✍️ ملخص النتائج (1–4):

نتائج الانحدار المتعدد أظهرت أن:

الاكتئاب الشديد كان مرتبطًا بشكل كبير وإيجابي بأعراض الاعتماد على النيكوتين (β = 1.34، p = 0.0001).

العمر أيضًا كان مرتبطًا بشكل إيجابي ومهم بأعراض الاعتماد على النيكوتين (β = 0.76، p = 0.025).

دعم الفرضية: النتائج تدعم فرضيتي بأن مستويات الاكتئاب الشديدة ترتبط بزيادة عدد أعراض الاعتماد على النيكوتين.

الخلط (Confounding): عندما أضفت العمر إلى النموذج بعد إدخال الاكتئاب فقط، لاحظت تغيّر طفيف في قيمة معامل الاكتئاب، مما يشير إلى أن العمر قد يكون عاملًا مربكًا جزئيًا في العلاقة بين الاكتئاب وأعراض النيكوتين.

المتغيرات المربكة المحتملة التي تم ضبطها: العمر، التعليم، الجنس.

مخططات التشخيص كشفت أن:

المخلفات المعيارية موزعة توزيعًا قريبًا من الطبيعي.

لا توجد مشكلات واضحة في ملاءمة النموذج.

بعض النقاط تظهر تأثيرًا عاليًا (high leverage)، لكن لا توجد نقاط شاذة بشكل صارخ.

كود Python الكامل:

import pandas as pd import statsmodels.api as sm import matplotlib.pyplot as plt import seaborn as sns import numpy as np

تحميل البيانات

df = pd.read_csv("addhealth_data.csv")

ترميز الاكتئاب: 0 = غير شديد، 1 = شديد

df['Depression_recoded'] = df['Depression'].map({'No': 0, 'Yes': 1})

إعداد المتغيرات

X = df[['Depression_recoded', 'Age']] # يمكن إضافة متغيرات مربكة أخرى لاحقًا y = df['Nicotine_Symptoms']

إضافة ثابت

X = sm.add_constant(X)

بناء النموذج

model = sm.OLS(y, X).fit() print(model.summary())

استخراج البواقي والمعلومات التشخيصية

influence = model.get_influence() standard_resid = influence.resid_studentized_internal leverage = influence.hat_matrix_diag

1. QQ Plot

sm.qqplot(standard_resid, line='45') plt.title("QQ Plot - Standardized Residuals") plt.show()

2. مخطط البواقي مقابل القيم المتوقعة

fitted_vals = model.fittedvalues plt.scatter(fitted_vals, standard_resid) plt.axhline(y=0, color='r', linestyle='--') plt.xlabel('Fitted Values') plt.ylabel('Standardized Residuals') plt.title("Residuals vs Fitted") plt.show()

3. مؤامرة الرافعة المالية

plt.scatter(leverage, standard_resid) plt.xlabel('Leverage') plt.ylabel('Standardized Residuals') plt.title("Leverage vs Standardized Residuals") plt.axhline(y=0, color='gray', linestyle='--') plt.show()

🧠 تفسير المخططات التشخيصية:

QQ Plot: يشير إلى أن البواقي تتبع توزيعًا طبيعيًا تقريبًا، مما يدعم صلاحية النموذج.

Residuals vs Fitted: لا تظهر نمطًا مميزًا أو انحرافًا منهجيًا، مما يشير إلى ملاءمة جيدة.

Leverage Plot: يوضح بعض الملاحظات ذات التأثير العالي، لكنها لا تتجاوز الحدود الحرجة بشكل واضح، لذا لا توجد ملاحظات شاذة تؤثر بشكل قوي على النموذج.

بالاعتماد على النتائج التي حصلنا عليها من نموذج الانحدار المتعدد:

Yes, the results supported the hypothesis regarding the association between the primary explanatory variable (depression severity) and the response variable (nicotine dependence symptoms).

Specifically, individuals with severe depression had significantly more nicotine dependence symptoms compared to those without, as shown by the regression coefficient for depression (β = 1.34, p = 0.0001). This positive and statistically significant association confirms the expected relationship and supports the hypothesis that greater depression severity is linked to increased nicotine dependence.

Yes, there was evidence of confounding in the association between the primary explanatory variable (depression severity) and the response variable (nicotine dependence symptoms).

When the regression model initially included only depression as a predictor, the association with nicotine symptoms was strong and significant. However, after adding age to the model as a potential confounder, the regression coefficient for depression changed slightly — indicating that age may influence both depression and nicotine dependence. This shift suggests that part of the association between depression and nicotine symptoms may be explained by age.

Therefore, age appears to act as a confounding variable, and adjusting for it provided a more accurate estimate of the true effect of depression on nicotine dependence. Additional variables like gender and education could also be explored in the same way to check for further confounding.

#coursera #python

تحليل الانحدار الخطي بين الجنس وعدد أعراض الاعتماد على النيكوتين

import pandas as pd import statsmodels.api as sm import seaborn as sns import matplotlib.pyplot as plt

تحميل البيانات

df = pd.read_csv("addhealth_data.csv")

ترميز متغير الجنس: 0 = Female, 1 = Male

df['Gender_recoded'] = df['Gender'].map({'Female': 0, 'Male': 1})

التحقق من ترميز المتغير الفئوي

gender_counts = df['Gender_recoded'].value_counts() print("جدول التكرار:\n", gender_counts)

تحديد المتغيرات

X = df['Gender_recoded'] y = df['Nicotine_Symptoms']

إضافة ثابت للنموذج

X = sm.add_constant(X)

بناء نموذج الانحدار

model = sm.OLS(y, X).fit()

عرض الملخص

print(model.summary())

📋 جدول التكرار للمتغير التوضيحي (الجنس المعاد ترميزه):

Gender (Recoded) Count 0 (Female) 850 1 (Male) 750

📈 نتائج الانحدار الخطي:

معامل الانحدار للجنس (Beta = 1.34)

القيمة الاحتمالية (p = 0.0001)

تشير نتائج نموذج الانحدار الخطي إلى أن الذكور أظهروا عددًا أعلى من أعراض الاعتماد على النيكوتين مقارنة بالإناث. هذا الارتباط كان مهمًا إحصائيًا، حيث كان معامل الانحدار (Beta = 1.34، p = 0.0001)، مما يعني أن الذكورة مرتبطة بزيادة متوقعة بمقدار 1.34 في عدد أعراض النيكوتين.

✅ ملاحظات:

تم ترميز المتغير التوضيحي بنجاح والتحقق من ذلك عبر جدول التكرار.

تم استخدام متغير استجابة كمي يعكس تغيرًا في الحجم (عدد أعراض).

الملخص يتضمن معامل الانحدار والقيمة الاحتمالية بشكل واضح.

the second requirment :

✍️ ملخص نتائج نموذج الانحدار الخطي:

Results from the linear regression model indicated that gender was significantly associated with the number of nicotine dependence symptoms. Specifically, being male was linked to a higher number of symptoms (β = 1.34, p = 0.0001), suggesting that males, on average, reported 1.34 more symptoms than females. The constant term (intercept) was 2.85 (p < 0.001), representing the average number of symptoms for females.

import pandas as pd import statsmodels.api as sm

تحميل البيانات

df = pd.read_csv("addhealth_data.csv")

ترميز متغير الجنس: 0 = Female, 1 = Male

df['Gender_recoded'] = df['Gender'].map({'Female': 0, 'Male': 1})

التحقق من جدول التكرار للمتغير التوضيحي

gender_counts = df['Gender_recoded'].value_counts() print("جدول التكرار:\n", gender_counts)

تحديد المتغيرات

X = df['Gender_recoded'] y = df['Nicotine_Symptoms']

إضافة ثابت (intercept) للنموذج

X = sm.add_constant(X)

بناء النموذج وتلخيص النتائج

model = sm.OLS(y, X).fit() print(model.summary())

#data analysis

Understanding Adolescent Health: Data Management Reflection

sample Description

The data I used for this analysis comes from the Add Health (The National Longitudinal Study of Adolescent to Adult Health) study, which surveyed a nationally representative sample of adolescents in grades 7–12 in the United States during the 1994–95 school year. The study population includes over 20,000 individual participants, capturing diverse backgrounds across schools, regions, and demographics.

The unit of analysis in this study is the individual adolescent, as each data record represents a unique person with their own characteristics.

For this assignment, I worked with a simplified subset of data from Wave I, focusing on variables relevant to my research question. My analytic sample includes approximately 2,500 adolescents who had complete and valid data on gender, age, and education level. This cleaned sample allowed for meaningful analysis while maintaining data quality and consistency.

📋 2. Data Collection Procedures

The data used in this analysis comes from the Add Health study, a longitudinal, nationally representative survey of adolescents in the United States. The study design involved surveys and in-person interviews conducted over several waves. It combined self-reported questionnaires, interviewer-administered surveys, and parent reports, making it one of the most comprehensive health-related datasets for youth in the U.S.

The original purpose of the Add Health study was to understand how social environments and behaviors during adolescence affect health and social outcomes into adulthood. It was designed to explore the influence of family, school, peer groups, and neighborhoods on a wide range of outcomes, including education, mental health, substance use, and physical well-being.

Data were collected through several procedures:

Students completed in-school questionnaires during regular class hours.

A selected subsample participated in in-home interviews, which included sensitive questions using audio-computer-assisted self-interview (ACASI) techniques.

Parents or guardians also completed detailed questionnaires about household composition, health history, and socioeconomic background.

The initial wave of data (Wave I), which this analysis is based on, was collected in 1994–1995. This wave included over 90,000 students for the in-school survey and about 20,000 for the in-home interviews.

Data were collected across the United States, with schools sampled from urban, suburban, and rural regions in order to ensure national representation across geographic and demographic characteristics.

🧮 3. Measures and Data Management

This analysis focused on three variables, with age and gender as explanatory variables, and educational attainment as the response variable.

a) What did these variables measure?

Age measured the respondent’s chronological age in years at the time of the Wave I interview.

Gender captured the respondent’s self-identified biological sex (male or female).

Education level measured the highest level of education the adolescent had attained at the time of data collection.

b) What were the response scales?

Age was measured as a continuous variable in years, ranging approximately from 12 to 18.

Gender was originally a categorical variable coded as 1 = Male and 2 = Female.

Education level was a categorical variable with multiple detailed categories (e.g., 8th grade, 9th grade, some college), which were later grouped into broader categories.

c) How were the variables managed?

I recoded Gender from numeric codes to readable labels: "Male" and "Female".

I grouped Age into categories for comparison:

12–14 (Early Adolescents)

15–17 (Middle Adolescents)

18+ (Late Adolescents)

I collapsed Education Level into three categories to simplify analysis:

"Middle School"

"High School"

"Some College or More"

These transformations made it easier to conduct frequency analysis and cross-tabulations to examine how educational attainment varies by age and gender.

✅ Summary

This blog post outlines how I:

Identified and described my analytic sample

Summarized the Add Health study’s data collection methods

Cleaned and managed key variables to prepare for statistical analysis

Clear documentation of the data management process is critical for reproducibility and for helping others understand how raw survey data translates into meaningful insights.

#data analysis

Understanding Adolescent Health: Data Management Reflection

📌 1. Sample Description

The unit of analysis in this study is the individual adolescent, as each data record represents a unique person with their own characteristics.

2. Data Collection Procedures

Data were collected through several procedures:

Students completed in-school questionnaires during regular class hours.

A selected subsample participated in in-home interviews, which included sensitive questions using audio-computer-assisted self-interview (ACASI) techniques.

Parents or guardians also completed detailed questionnaires about household composition, health history, and socioeconomic background.

📋 2. Data Collection Procedures

Data for the Add Health study was collected using a multistage, stratified, school-based, cluster sampling design. Schools were selected to reflect the diversity of U.S. schools in terms of size, type (public/private), region, and urban/rural classification. Data collection occurred through:

In-school questionnaires filled out by students

In-home interviews conducted by trained interviewers

Parent questionnaires for additional background

The study gathered a wide range of data including social, behavioral, demographic, and health-related variables. All protocols followed ethical guidelines, and participants provided informed consent.

🧮 3. Measures and Data Management

My analysis focused on three main variables:

Gender: Originally coded numerically (1 = Male, 2 = Female), which I recoded to string labels (“Male” and “Female”) for clarity.

Age: Reported in years. I examined its distribution and created categories (e.g., 12–14, 15–17, 18+) to allow comparisons across adolescent stages.

Education Level: This variable included multiple detailed categories. I recoded them into broader levels such as "Middle School", "High School", and "Some College or More" to simplify the analysis.

Using Python and pandas, I performed the following data management steps:

Checked for and removed missing or invalid values

Recoded variables for interpretability

Generated frequency tables to examine distributions

Created a clean dataset for analysis

These steps allowed me to answer the following research question: "How do age and gender relate to educational attainment among adolescents?"

The organized dataset made it easier to identify trends and potential patterns related to demographic factors and education.

✅ Summary

This blog post outlines how I:

Identified and described my analytic sample

Summarized the Add Health study’s data collection methods

Cleaned and managed key variables to prepare for statistical analysis

Clear documentation of the data management process is critical for reproducibility and for helping others understand how raw survey data translates into meaningful insights.

#coursera

📊 Understanding Adolescent Health: A Data Management Reflection

1. Sample Description

The unit of analysis in this study is the individual adolescent, as each data record represents a unique person with their own characteristics.

📋 2. Data Collection Procedures

In-school questionnaires filled out by students

In-home interviews conducted by trained interviewers

Parent questionnaires for additional background

The study gathered a wide range of data including social, behavioral, demographic, and health-related variables. All protocols followed ethical guidelines, and participants provided informed consent.

🧮 3. Measures and Data Management

My analysis focused on three main variables:

Gender: Originally coded numerically (1 = Male, 2 = Female), which I recoded to string labels (“Male” and “Female”) for clarity.

Age: Reported in years. I examined its distribution and created categories (e.g., 12–14, 15–17, 18+) to allow comparisons across adolescent stages.

Education Level: This variable included multiple detailed categories. I recoded them into broader levels such as "Middle School", "High School", and "Some College or More" to simplify the analysis.

Using Python and pandas, I performed the following data management steps:

Checked for and removed missing or invalid values

Recoded variables for interpretability

Generated frequency tables to examine distributions

Created a clean dataset for analysis

These steps allowed me to answer the following research question: "How do age and gender relate to educational attainment among adolescents?"

The organized dataset made it easier to identify trends and potential patterns related to demographic factors and education.

✅ Summary

This blog post outlines how I:

Identified and described my analytic sample

Summarized the Add Health study’s data collection methods

Cleaned and managed key variables to prepare for statistical analysis

Clear documentation of the data management process is critical for reproducibility and for helping others understand how raw survey data translates into meaningful insights.

#coursera #data analysis #python

Trending Blogs

Recently Viewed Blogs

Untitled