شكل الانتشار والارتباط
تتضمَّن كثير من المواقف الحياتية وجود مُتغيِّرين نرغب في تعرُّف العلاقة بينهما، وبيان نوعها ومدى قوَّتها، مثل: العلاقة بين كتلة الإنسان وضغط دمه، والعلاقة بين طول الإنسان وكتلته، والعلاقة بين عدد سنوات خبرة الموظف وراتبه. لفهم هذه العلاقة، تُجمَع البيانات اللازمة عن مُتغيِّرين؛ أحدهما يُسمّى المُتغيِّر المستقل ؛ وهو مُتغيِّر يتمُّ اختياره أو التحكُّم فيه. والآخر يُسمّى المُتغيِّر التابع؛ وهو مُتغيِّر يتمُّ قياسه بناءً على المُتغيِّر المستقل.
تُعرَض هذه البيانات في صورة أزواج مُرتَّبة (x, y)، وهي تُمثَّل بوصفها نقاطًا في المستوى الإحداثي؛ فيَنتج شكل يُسمّى شكل الانتشار. بناءً على هذا الشكل، يُمكِن تقرير وجود علاقة ارتباط خطِّية بين المُتغيِّرين أو لا.
بعد ذلك، يتمُّ تحديد اتجاه هذه العلاقة، وتعرُّف إذا كان الارتباط بينهما موجبًا بما يعني أنَّ زيادة أحد المُتغيِّرين تؤدّي إلى زيادة الآخر بوجه عام، أو سالبًا؛ أيْ إنَّ زيادة أحد المُتغيِّرين تؤدّي إلى نقصان الآخر بوجه عام، وكذلك تعرُّف إذا كان الارتباط بينهما قويًّا، أو ضعيفًا، أو لا يوجد ارتباط بينهما كما هو مُبيَّن في أشكال الانتشار الآتية:

معامل ارتباط بيرسون
يُعَدُّ رسم شكل الانتشار وسيلة فعّالة للتحقُّق من وجود علاقة بين مجموعتين من البيانات، لكنَّ ذلك لا يُوفِّر دائمًا دلالة واضحة على طبيعة هذا الارتباط؛ لذا يُستعمَل معامل ارتباط بيرسون بوصفه مقياسًا عدديًّا يُحدِّد تحديدًا دقيقًا قوَّة العلاقة الخطِّية بين مجموعتين من البيانات، إضافةً إلى اتجاهها؛ سواء أكان موجبًا أم سالبًا.

تنحصر قيمة معامل ارتباط بيرسون r بين 1- و 1، وكلَّما اقتربت قيمة معامل ارتباط بيرسون من هذين العددين، كان الارتباط أكثر قوَّة، في حين يضعف الارتباط بابتعاد قيمة r عنهما نحو الصفر 0. تُصنَّف قوَّة الارتباط ونوعه بين المُتغيِّرين وَفق قيمة معامل ارتباط بيرسون كما في الشكل الآتي:

إذا كانت قيمة معامل ارتباط بيرسون r = 1 ، فإنَّ الارتباط التام الموجب يَحْكم العلاقة بين المُتغيِّرين؛ إذ تقع جميع نقاط شكل الانتشار على خطٍّ مستقيم ذي ميل موجب. أمّا إذا كانت قيمة معامل ارتباط بيرسون r = -1 ، فإنَّ العلاقة بين المُتغيِّرين يُمثِّلها الارتباط التام السالب؛ إذ تقع جميع النقاط على خطٍّ مستقيم ذي ميل سالب. وأمّا إذا كانت قيمة معامل ارتباط بيرسون r = 0 ، فإنَّ العلاقة بين المُتغيِّرين تكون معدومة؛ إذ تظهر نقاط شكل الانتشار مُتناثِرة بشكل عشوائي أو مُتجمِّعة على هيئة نمط دائري؛ ما يشير إلى غياب العلاقة الخطِّية بينهما.
والشكل الآتي يُبيِّن الحالات الثلاث المذكورة آنفًا بصورة بصرية.

معادلة خطِّ الانحدار
إذا كانت العلاقة خطِّية بين مُتغيِّرين، فإنَّه يُمكِن تمثيلها بما يُعرَف بالمستقيم الأفضل مطابقة؛وهو مستقيم يمرُّ قرب أكبر عدد مُمكِن من نقاط شكل الانتشار، بحيث تتوزَّع النقاط غير الواقعة عليه بشكل مُتوازِن تقريبًا على جانبي الخطِّ، وتكون المسافات بينها وبينه مُتقارِبة قَدْر الإمكان. يُستعمَل هذا المستقيم أداةً للتنبُّؤ بقِيَم المُتغيِّر التابع بناءً على قِيَم معلومة للمُتغيِّر المستقل؛ ما يجعله أداة تحليلية مُهِمَّة في دراسة العلاقات الإحصائية بين المُتغيِّرات.

يُبيِّن الشكل المجاور شكل انتشار رُسِم عليه المستقيم d1, d2, d4, d5 الأفضل مطابقة، وفيه تُمثِّل المسافات: 5 الفروق بين القِيَم المُتنبَّأ بها للمُتغيِّر y من خلال المستقيم الأفضل مطابقة والقِيَم الفعلية للمُتغيِّر y من نقاط شكل الانتشار.
لتقليل هذه الفروق، يجب اختيار المستقيم الأفضل مطابقة الذي يجعل مجموع مُربَّعات هذه الفروق أصغر ما يُمكِن، والذي يُسمّى خطَّ انحدار المُربَّعات الصغرى، ويُمكِن إيجاد معادلته باستعمال الصيغة الآتية:

