מה זה k פירושו קיבוץ באשכולות?

כריית נתונים עם אלגוריתם k פירושו

האלגוריתם מקבץ k- הוא כריית נתונים וכלי למידה של מכונה המשמשים לאשכול תצפיות לקבוצות של תצפיות קשורות, ללא כל ידע מוקדם על יחסים אלה. על ידי הדגימה, האלגוריתם מנסה להראות באיזו קטגוריה, או אשכול, הנתונים שייכים, כאשר מספר האשכולות מוגדר על ידי הערך k.

האלגוריתם k הוא אחד מהשיטות הפשוטות ביותר לאשכולות, והוא נפוץ בהדמיה רפואית, ביומטריה ותחומים קרובים. היתרון של קיבוץ באשכולות הוא שהיא מספרת על הנתונים שלך (תוך שימוש בטופס ללא פיקוח), במקום שתצטרך ללמד את האלגוריתם על הנתונים שבתחילה (באמצעות הצורה המפוקחת של האלגוריתם).

זה נקרא לפעמים אלגוריתם לויד, במיוחד בחוגים מדעי המחשב, כי האלגוריתם הסטנדרטי הוצע לראשונה על ידי סטיוארט לויד בשנת 1957. המונח "k- פירושו" בשנת 1967 על ידי ג 'יימס מקווין.

איך k פירושו פונקציות אלגוריתם

אלגוריתם ה- k הוא אלגוריתם אבולוציוני שמקבל את שמו משיטת הפעולה שלו. אלגוריתמי האלגוריתם מתבוננים בקבוצות k , כאשר k מסופק כפרמטר קלט. לאחר מכן הוא מקצה כל תצפית לאשכולות המבוססים על קרבת התצפית לממוצע האשכול. משמעותו של אשכול היא אז recomputed ואת התהליך מתחיל שוב. כך פועל האלגוריתם:

  1. האלגוריתם בוחר באופן שרירותי נקודות k כמרכזי אשכול ראשוניים (האמצעים).
  2. כל נקודה במערך מוקצה לאשכול הסגור, בהתבסס על המרחק האוקלידי בין כל נקודה לבין כל מרכז אשכול.
  3. כל מרכז אשכול מחודש כממוצע הנקודות באשכול זה.
  4. צעדים 2 ו -3 לחזור עד אשכולות להתכנס. ניתן להגדיר את ההתכנסות בצורה שונה בהתאם ליישום, אך בדרך כלל משמעות הדבר היא כי אין תצפיות לשנות אשכולות כאשר חוזרים על צעדים 2 ו -3, או כי השינויים אינם עושים הבדל מהותי בהגדרת אשכולות.

בחירת מספר אשכולות

אחד החסרונות העיקריים לקיבוץ באשכולות הוא העובדה שעליך לציין את מספר האשכולות כקלט לאלגוריתם. כפי שתוכנן, האלגוריתם אינו מסוגל לקבוע את המספר המתאים של אשכולות ותלוי על המשתמש לזהות זאת מראש.

לדוגמה, אם יש לך קבוצה של אנשים שיש לקבץ אותם על סמך זהות מיגדרית בינארית כזכר או נקבה, קורא אלגוריתם K באמצעות קלט k = 3 יכריח את האנשים לשלושה אשכולות כאשר רק שניים, או קלט של k = 2, יספק התאמה טבעית יותר.

באופן דומה, אם קבוצה של אנשים התקבצו בקלות על סמך מצב הבית וקראת אלגוריתם K עם קלט k = 20, התוצאות עשויות להיות כלליות מדי כדי להיות יעיל.

מסיבה זו, לעתים קרובות מומלץ להתנסות בערכים שונים של k כדי לזהות את הערך המתאים ביותר לנתונים שלך. כמו כן, מומלץ לחקור את השימוש באלגוריתמים אחרים של כריית נתונים בחיפוש אחר ידע ממוחשב.