הגדרת המודל הסטטיסטי של רגרסיה

רגרסיה מנתחת יחסים בין משתנים

רגרסיה היא טכניקת כריית נתונים המשמשת לחיזוי טווח של ערכים מספריים (הנקראים גם ערכים רציפים ), בהתחשב במערך נתונים מסוים. לדוגמה, ניתן להשתמש ברגרסיה כדי לחזות את העלות של מוצר או שירות, בהתחשב במשתנים אחרים.

רגרסיה משמשת בתעשיות מרובות לתכנון עסקים ושיווק, חיזוי פיננסי, מודלים סביבתיים וניתוח מגמות.

רגרסיה לעומת מִיוּן

רגרסיה וסיווג הן טכניקות לכריית נתונים המשמשות לפתרון בעיות דומות, אך הן מבולבלות לעיתים קרובות. שתיהן משמשות לניתוח חיזוי, אך רגרסיה משמשת לחיזוי ערך מספרי או רציף, ואילו סיווג מקצה נתונים לקטגוריות נפרדות.

לדוגמה, רגרסיה תשמש לחיזוי ערך בית על פי מיקומו, מטר מרובע, מחיר המכירה האחרונה, מחיר בתים דומים וגורמים אחרים. סיווג יהיה בסדר אם אתה רוצה במקום לארגן בתים לקטגוריות, כגון walkability, הרבה גודל או שיעורי פשע.

סוגי טכניקות רגרסיה

הצורה הפשוטה והוותיקה ביותר של רגרסיה היא רגרסיה ליניארית המשמשת לאמידה של קשר בין שני משתנים. טכניקה זו משתמשת בנוסחה המתמטית של קו ישר (y = mx + b). במילים פשוטות, זה פשוט אומר, בהתחשב בגרף עם Y ו- X ציר, היחסים בין X ו- Y הוא קו ישר עם כמה חריגים. לדוגמה, אנו מניחים כי בהינתן גידול באוכלוסייה, ייצור המזון יגדל באותו קצב - הדבר מחייב קשר לינארי חזק בין שתי הדמויות. כדי לדמיין זאת, שקול תרשים שבו ציר Y עוקב אחר גידול האוכלוסייה, וציר ה- X עוקב אחר ייצור המזון. ככל שהערך Y גדל, הערך X יגדל באותו קצב, מה שהופך את היחסים ביניהם לקו ישר.

טכניקות מתקדמות, כגון רגרסיה מרובה, מנבאות קשר בין משתנים מרובים - למשל, האם יש מתאם בין הכנסה, השכלה, היכן בוחרים לחיות? הוספת משתנים נוספים מגדילה במידה ניכרת את המורכבות של התחזית. ישנם מספר סוגים של טכניקות רגרסיה מרובות כולל סטנדרטי, היררכי, setwise ו צעד, כל אחד עם יישום משלה.

בשלב זה, חשוב להבין מה אנו מנסים לחזות (המשתנה התלוי או הצפוי ) והנתונים בהם אנו משתמשים כדי להפוך את התחזית (המשתנים העצמאיים או המנבאים ). בדוגמה שלנו, אנחנו רוצים לחזות את המיקום שבו בוחרים לחיות (המשתנה הצפוי ) בהתחשב בהכנסה וחינוך (שניהם משתנים מנבאים ).