כיצד להשתמש 'Ngram Viewer' כלי ב - Google ספרים

A Ngram, המכונה גם בדרך כלל N-gram הוא ניתוח סטטיסטי של טקסט או תוכן דיבור כדי למצוא n (מספר) של איזה פריט בטקסט. זה יכול להיות כל מיני דברים, כמו פונמות, קידומות, משפטים או מכתבים. למרות ש- N- גרם הוא קצת מעורפל מחוץ לחוקרת, הוא משמש בפועל במגוון תחומים, ויש לו הרבה השלכות על אנשים עושה תוכניות מחשב להבין ולהגיב עם השפה המדוברת הטבעית. זה, על קצה המזלג, יהיה העניין של גוגל ברעיון.

במקרה של Google Ngram Viewer, הטקסט שיש לנתח מגיע מהכמות העצומה של הספרים ש- Google סרקה מתוך ספריות ציבוריות כדי לאכלס את מנוע החיפוש של Google ספרים . עבור Google Ngram Viewer, הם מתייחסים לטקסט שאתה עומד לחפש בתור "קורפוס". הקורפורל ב- NGR Viewer מחולק לפי שפה, אם כי אתה יכול בנפרד לנתח אנגלית בריטית ואנגלית או לגבש אותם יחד. זה בסופו של דבר להיות סופר מעניין לעבור מן הבריטים האמריקאי השימוש במונחים ולראות את השינויים תרשימים.

איך Ngram עובד

  1. עבור אל Google Ngram Viewer בכתובת books.google.com/ngrams.
  2. פריטים רגישים לרישיות, בניגוד לחיפושים של Google, לכן הקפד להשתמש באותיות רישיות.
  3. הקלד את כל הביטויים או הביטויים שברצונך לנתח. הקפד להפריד כל ביטוי עם פסיק. גוגל מציעה, "אלברט איינשטיין, שרלוק הולמס, פרנקנשטיין" כדי להתחיל.
  4. לאחר מכן, הקלד טווח תאריכים. ברירת המחדל היא 1800 עד 2000, אך יש ספרים אחרונים יותר (2011 היתה האחרונה המפורטת בתיעוד של Google, אך ייתכן שזו השתנתה).
  5. בחר קורפוס. ניתן לחפש טקסטים בשפה זרה או באנגלית, ובנוסף לבחירות הסטנדרטיות, ייתכן שתראה דברים כמו "אנגלית (2009) או אנגלית אמריקאית (2009)" בתחתית הדף. אלה הם קורפורדה ישנה יותר ש- Google עודכנה, אך ייתכן שיש לך סיבה לעשות את ההשוואות שלך כנגד קבוצות נתונים ישנות. רוב המשתמשים יכולים להתעלם מהם ולהתמקד הקורפורדה האחרונה.
  6. הגדר את רמת החלקה שלך. החלקה מתייחס עד כמה חלקה הגרף בסוף. ייצוג מדויק ביותר יהיה רמת החלקה של 0, אבל זה יכול להיות קשה לקריאה. ברירת המחדל היא 3. ברוב המקרים, אין צורך להתאים זאת.
  1. לחץ על הלחצן חיפוש ספרים רבים . (תוכל גם ללחוץ על Enter בשורת החיפוש).

מה זה NGR?

Google Ngram Viewer יציג גרף המייצג את השימוש בביטוי מסוים בספרים לאורך זמן. אם הזנת יותר ממילה או צירוף מילים אחד, תראה שורות מקודדות בצבע כדי להציג את מונחי החיפוש השונים. זה די דומה ל- Google Trends , רק החיפוש מכסה תקופה ארוכה יותר של זמן.

הנה דוגמה בחיים האמיתיים. היינו סקרנים לגבי פשטידות חומץ לאחרונה. הם מוזכרים בבית הקטן של לורה אינגלס ויילדר בסדרת הערבה , אבל מעולם לא שמענו על דבר כזה. השתמשנו לראשונה בחיפוש האינטרנט של Google כדי ללמוד עוד על פשטידות חומץ. כנראה, הם נחשבים חלק המטבח הדרומי האמריקאי באמת עשויים חומץ. הם משמיעים חזרה כאשר לא כולם היו גישה תוצרת טרייה בכל עת של השנה. זה כל הסיפור?

חיפשנו את Google Ngram Viewer, ויש כמה אזכורים של העוגה בתחילת שנות ה -80 המאוחרות, הרבה אזכורים בשנות ה -40, ומספר גדל והולך של אזכורים בתקופה האחרונה (אולי קצת נוסטלגיה פאי.) ובכן, יש כמה בעיה עם הנתונים ברמה החלקה של 3. יש רמה מעל האזכורים של 1800. אין ספק כי לא היו מספר שווה של אזכורים של עוגה אחת בכל שנה במשך חמש שנים? מה שקורה הוא שבגלל שאין הרבה ספרים שפורסמו בזמן הזה, ומכיוון שהנתונים שלנו מיועדים להחליק, זה מעוות את התמונה. קרוב לוודאי שהיה שם ספר אחד שהזכיר עוגת חומץ, ופשוט הגיע לממוצע, כדי למנוע ספייק. על ידי הגדרת החלקה ל 0, אנו יכולים לראות שזה בדיוק המקרה. ספייק מתרכז ב 1869, ויש עוד ספייק ב 1897 ו 1900.

שאר הזמן לא דיבר על פשטידות חומץ? הם בטח דיברו על העוגות האלה. היו מתכונים צפויים צפים בכל מקום. הם פשוט לא כתבו עליהם בספרים, וזו הגבלה על החיפושים האלה.

חיפוש מתקדם Ngram חיפוש Google מאמרים חדשים

זכור איך אמרנו ש- NGRs יכול להכיל כל מיני חיפושים טקסטים שונים? Google מאפשרת לך לתחקר לא מעט עם NGR Viewer גם כן. אם אתה רוצה לחפש דגים הפועל במקום דגים שם עצם, אתה יכול לעשות זאת באמצעות תגים. במקרה זה, תחפש "fish_VERB"

Google מספקת רשימה מלאה של פקודות שניתן להשתמש בהן ותיעוד מתקדם אחר באתר האינטרנט שלהן.