סיווג כריית נתונים

סיווג היא טכניקת כריית נתונים שמקצה קטגוריות לאוסף של נתונים על מנת לסייע בתחזיות וניתוח מדויקים יותר. נקרא גם נקרא עץ החלטה , סיווג הוא אחד של כמה שיטות שנועדו להפוך את ניתוח מערכי נתונים גדולים מאוד יעיל.

למה סיווג?

מסדי נתונים גדולים מאוד הופכים לנורמה בעולם של היום "נתונים גדולים". תארו לעצמכם מסד נתונים עם מספר טרה-בתים של נתונים - טרה-בתים הוא טריליון בייטים של נתונים.

פייסבוק לבד crunches 600 טרה של נתונים חדשים מדי יום (נכון לשנת 2014, בפעם האחרונה הוא דיווח על מפרט זה). האתגר העיקרי של נתונים גדולים הוא איך להבין את זה.

נפח גדול הוא לא הבעיה היחידה: נתונים גדולים נוטה להיות מגוונים, לא מובנים ומשתנים במהירות. שקול נתוני אודיו ווידאו, הודעות מדיה חברתית, נתוני תלת-ממד או נתונים גיאו-מרחביים. סוג זה של נתונים אינו מסווג בקלות או מאורגן.

כדי לעמוד באתגר זה, פותח מגוון של שיטות אוטומטיות לחילוץ מידע שימושי, ביניהן סיווג .

איך עובד סיווג

על הסכנה לנוע רחוק מדי לדבר טק, בואו נדבר על איך הסיווג עובד. המטרה היא ליצור קבוצה של כללים סיווג שיענה על שאלה, לקבל החלטה, או לחזות התנהגות.כדי להתחיל, קבוצה של נתונים הכשרה מפותחת המכילה קבוצה מסוימת של תכונות כמו גם את התוצאה האפשרית.

תפקידו של אלגוריתם הסיווג הוא לגלות כיצד קבוצה זו של תכונות מגיעה למסקנה.

תרחיש : אולי חברת כרטיסי האשראי מנסה לקבוע אילו לקוחות פוטנציאליים צריכים לקבל כרטיס אשראי להציע.

זה עשוי להיות קבוצה של נתונים האימונים שלה:

נתוני הדרכה
שֵׁם גיל מִין הכנסה שנתית הצעת כרטיס אשראי
פלוני אלמוני 25 M $ 39,500 לא
ג 'יין דו 56 F 125,000 $ כן

העמודה "מנבא" גיל , מין והכנסה שנתית קובעים את הערך של "מאפיין מנבא" הצעת כרטיס אשראי . במערך אימון, תכונה מנבא ידוע. אלגוריתם הסיווג מנסה לקבוע כיצד הגיע ערך התכונה מנבא: אילו יחסים קיימים בין המנבאים לבין ההחלטה? היא תפתח מערכת של כללי חיזוי, בדרך כלל הצהרה IF / THEN, לדוגמה:

IF (גיל 18 או גיל <75) והכנסה שנתית> 40,000 הצעת כרטיס אשראי = כן

כמובן, זהו דוגמה פשוטה, והאלגוריתם היה זקוק לדגימת נתונים גדולה בהרבה משתי הרשומות המוצגות כאן. יתר על כן, כללי החיזוי עשויים להיות מורכבים הרבה יותר, כולל כללי משנה ללכידת פרטי תכונות.

לאחר מכן, האלגוריתם מקבל "ערכת חיזוי" לנתונים לניתוח, אך לקבוצה זו חסרה תכונת החיזוי (או ההחלטה):

נתוני מנבא
שֵׁם גיל מִין הכנסה שנתית הצעת כרטיס אשראי
ג'ק פרוסט 42 M 88,000 $
מרי מאריי 16 F $ 0

נתוני מנבא אלה מסייעים לאמוד את הדיוק של כללי החיזוי, והכללים מתעדכנים עד שהמפתח רואה את התחזיות יעיל ושימושי.

דוגמאות יום - יום לסיווג

סיווג, טכניקות אחרות כריית נתונים, הוא מאחורי הרבה של ניסיון היום יום שלנו כצרכנים.

תחזיות מזג אוויר עשויות להשתמש בסיווג כדי לדווח אם היום יהיה גשום, שמש או מעונן. מקצוע הרפואה עשוי לנתח את מצב הבריאות כדי לחזות תוצאות רפואיות. סוג של שיטת סיווג, Naive Bayesian, משתמש בהסתברות מותנית לקטלג הודעות דואר זבל. מאת זיהוי הונאה להצעות המוצר, הסיווג הוא מאחורי הקלעים בכל יום ניתוח נתונים והפקת תחזיות.