מה שאתה צריך לדעת על סינון דואר זבל בייסי

by היינץ צ'כבישר

למד כיצד הנתונים הסטטיסטיים עוזרים לשמור על תיבת הדואר הנכנס שלך נקייה

מסנני דואר זבל בייסי לחשב את ההסתברות של הודעה להיות דואר זבל מבוסס על התוכן שלה. שלא כמו מסננים פשוטים המבוססים על תוכן, סינון דואר זבל של Bayesian לומד מדואר זבל וממייל טוב, וכתוצאה מכך גישה אנטי-ספאם חזקה, יעילה ויעילה, שמעל לכל, חוזרת כמעט ללא תוצאות חיוביות שגויות.

איך אתה מזהה דואר זבל?

תחשוב על איך אתה מזהה דואר זבל . מבט מהיר הוא לעתים קרובות מספיק. אתה יודע איך זבל נראה, ואתה יודע איך הדואר נראה טוב.

ההסתברות של דואר זבל נראה כמו דואר טוב הוא סביב ... אפס.

ניקוד מסננים מבוססי תוכן אינם מותאמים

האם זה לא יהיה נהדר אם מסנני דואר זבל אוטומטי עובד ככה, גם?

הבקיע תוכן מבוסס מסנני דואר זבל לנסות בדיוק את זה. הם מחפשים מילים ומאפיינים אחרים אופייניים לדואר זבל. כל אלמנט אופייני מוקצה ציון, ציון ספאם עבור כל ההודעה מחושב מתוך ציונים בודדים. כמה מסננים הבקיע גם לחפש מאפיינים של דואר לגיטימי, הפחתת הציון הסופי של ההודעה.

הגישה מסננים ניקוד עושה עבודה, אבל יש גם כמה חסרונות:

רשימת המאפיינים בנויה מהספאם (והדואר הטוב) הזמין למהנדסי המסנן. כדי לקבל הבנה טובה של דואר זבל טיפוסי שמישהו יכול לקבל, הדואר חייב להיות שנאסף על מאות כתובות דוא"ל. זה מחליש את היעילות של המסננים, במיוחד בגלל המאפיינים של דואר טוב יהיה שונה עבור כל אדם , אבל זה לא נלקח בחשבון.
המאפיינים לחפש הם פחות או יותר להגדיר באבן . אם שולחי דואר הזבל עושים את המאמץ להסתגל (ולהפוך את דואר הזבל שלהם כמו דואר טוב למסננים), את המאפיינים סינון צריך להיות tweaked ידנית - מאמץ גדול עוד יותר.
הציון שהוקצה לכל מילה מבוסס כנראה על הערכה טובה, אבל זה עדיין שרירותי. וכמו רשימת המאפיינים, הוא אינו מתאים לעולם המשתנה של דואר זבל בכלל ולא לצרכים של משתמש בודד.

מסנני דואר זבל בייסיאן לצבוט את עצמם, להשתפר וטוב יותר

מסנני דואר זבל בייסיאניים הם סוג של מסננים מבוססי תוכן הבקיע, מדי. הגישה שלהם עושה משם את הבעיות של מסננים ספאם פשוט הבקיע, אם כי, וזה עושה זאת באופן קיצוני. מאז חולשה של מסננים ניקוד הוא ברשימה נבנה באופן ידני של המאפיינים ואת ציוניהם, רשימה זו מסולקת.

במקום זאת, מסנני דואר זבל בייסי לבנות את הרשימה עצמם. באופן אידיאלי, אתה מתחיל עם חבורה (גדולה) של הודעות דוא"ל שיש לך מסווג כדואר זבל, ועוד חבורה של דואר טוב. מסננים להסתכל על שניהם ולנתח את הדואר לגיטימי, כמו גם את דואר זבל כדי לחשב את ההסתברות של מאפיינים שונים המופיעים דואר זבל, וכן בדואר טוב.

כיצד מסנן דואר זבל בייסי בוחן דוא"ל

המאפיינים של מסנן דואר זבל Bayesian יכול להסתכל על יכול להיות:

את המילים בגוף ההודעה, כמובן, ו
את כותרות (שולחים נתיבי הודעה , למשל!), אלא גם
היבטים אחרים כגון HTML / CSS קוד (כמו צבעים ועיצוב אחרים), או אפילו
זוגות מילים, ביטויים ו
meta information (כאשר מופיע ביטוי מסוים, לדוגמה).

אם מילה, "קרטזית" לדוגמה, לעולם לא מופיעה בדואר זבל, אך לעתים קרובות בדוא"ל הלגיטימי שאתה מקבל, ההסתברות ש"קרטזית "מציינת דואר זבל קרובה לאפס. "טונר", לעומת זאת, מופיע באופן בלעדי, ולעתים קרובות, בספאם. "טונר" יש סבירות גבוהה מאוד להימצא בדואר זבל, לא הרבה מתחת 1 (100%).

כאשר הודעה חדשה מגיעה, הוא מנותח על ידי מסנן דואר זבל Bayesian, ואת ההסתברות של ההודעה כולה להיות דואר זבל מחושב באמצעות המאפיינים האישיים.

נניח שהודעה מכילה הן "קרטזית" והן "טונר". מן המילים האלה לבד זה עדיין לא ברור אם יש לנו דואר זבל או דואר לגיטימי. מאפיינים אחרים (בתקווה וכנראה) מצביעים על הסתברות המאפשרת לסנן לסווג את ההודעה כדואר זבל או בדואר טוב.

מסנני דואר זבל בייסי יכול ללמוד אוטומטית

עכשיו שיש לנו סיווג, את ההודעה ניתן להשתמש כדי להכשיר את המסנן עצמו עוד יותר. במקרה זה, או ההסתברות של "קרטזית" המציינת דואר טוב יורדת (אם ההודעה המכילה הן "קרטזית" ו "טונר" נמצא זבל), או את ההסתברות של "טונר" המציין דואר זבל יש לשקול מחדש.

באמצעות טכניקה זו אוטומטית הסתגלות, מסננים Bayesian יכול ללמוד הן שלהם ואת החלטות המשתמש (אם היא באופן ידני מתקן טעות על ידי מסננים). ההסתגלות של סינון Bayesian גם מוודא שהם יעילים ביותר עבור המשתמש הדוא"ל הפרט. בעוד שרוב האנשים של דואר זבל עשויים להיות מאפיינים דומים, את הדואר לגיטימי הוא אופייני שונה עבור כולם.

איך שולחי דואר זבל יכול לעבור מסננים Bayesian?

המאפיינים של דואר לגיטימי הם חשובים באותה מידה עבור תהליך סינון דואר זבל Bayesian כמו זבל. אם המסננים מאומנים במיוחד עבור כל משתמש, שולחי דואר הזבל יהיו אפילו יותר קשה לעבוד סביב מסנני דואר הזבל של כולם (או אפילו רוב האנשים), והמסננים יכולים להסתגל כמעט לכל שולחי דואר הזבל.

שולחי דואר זבל יעשו את זה רק בעבר מאומנים היטב מסננים Bayesian אם הם עושים הודעות דואר זבל שלהם נראה מושלם כמו הדוא"ל רגיל כולם עשויים לקבל.

שולחי דואר זבל בדרך כלל לא שולחים הודעות דוא"ל רגילות כאלה. נניח שזה בגלל הודעות דוא"ל אלה לא עובד כמו דואר זבל. אז, רוב הסיכויים שהם לא עושים את זה כאשר הודעות דוא"ל רגיל, משעמם הם הדרך היחידה לעשות את זה בעבר מסנני דואר זבל.

אם שולחי דואר הזבל יעברו לרוב מיילים רגילים למראה, נראה שוב הרבה דואר זבל בתיבת הדואר הנכנס שלנו, והדוא"ל עלול להיות מתסכל כפי שהיה בימים שלפני בייסיאן (או אפילו גרוע יותר). זה יהיה גם הרסו את השוק עבור רוב סוגי דואר זבל, אם כי, ולכן לא יחזיק מעמד לאורך זמן.

מחוונים חזקים יכול להיות מסנן דואר זבל בייסיאן & # 39; s אכילס & # 39; עָקֵב

חריג אחד יכול להיתפס עבור שולחי דואר זבל לעבוד את דרכם דרך מסננים Bayesian גם עם התוכן הרגיל שלהם. זה בטבע הסטטיסטיקה של Bayesian כי מילה אחת או מאפיין כי לעתים קרובות מאוד מופיע בדואר טוב יכול להיות כל כך משמעותי כדי להפוך כל הודעה מן נראה כמו דואר זבל להיות מדורגים כמו חזיר על ידי המסנן.

אם שולחי דואר זבל מוצאים דרך לקבוע את המילים הטובות של הדואר האלקטרוני שלך - על ידי שימוש בקבלות של החזרת HTML כדי לראות אילו הודעות פתחת, לדוגמה - הן יכולות לכלול אחת מהן בדואר זבל ולהגיע אליך גם דרך חשבון מסנן ביאי.

ג 'ון גרהם- Cumming ניסתה זאת על ידי מתן שני מסננים Bayesian לעבוד אחד נגד השני, "רע" אחד הסתגלות אילו הודעות נמצאו למצוא את המסנן "טוב". הוא אומר שזה עובד, אם כי התהליך הוא זמן רב ומורכב. אנחנו לא חושבים שנראה הרבה מזה קורה, לפחות לא בקנה מידה גדול, ולא מותאם למאפיינים הדוא"ל של אנשים. שולחי דואר זבל עשויים (לנסות) להבין כמה מילות מפתח עבור ארגונים (משהו כמו "Almaden" עבור אנשים מסוימים ב- IBM אולי?) במקום.

בדרך כלל, דואר זבל תמיד יהיה שונה (באופן משמעותי) מהדואר הרגיל או שהוא לא יהיה דואר זבל.

השורה התחתונה: סינון Bayes & כוח זה יכול להיות חולשה שלה

מסנני דואר זבל מסוג Bayesian הם מסננים מבוססי תוכן, אשר:

מאומנים במיוחד כדי לזהות את דואר הזבל של המשתמש האימייל האישי ודואר טוב , מה שהופך אותם יעילים וקשה להסתגל עבור שולחי דואר זבל.
יכול ללא הרף וללא מאמץ רב או ניתוח ידני להתאים את הטריקים האחרונים של שולחי דואר זבל.
לקחת בחשבון המשתמש של המשתמש הפרטי בחשבון ויש להם שיעור נמוך מאוד של חיוביות שגויות .
למרבה הצער, אם זה גורם אמון עיוור מסננים אנטי ספאם Bayesian, זה הופך את טעות מדי פעם אפילו יותר רציני . ההשפעה ההפוכה של תשלילים כוזבים (דואר זבל זה נראה בדיוק כמו דואר רגיל) יש פוטנציאל להפריע למשתמשים מתסכלים.