המדינה של לינוקס קול הכרה

מבוא

אני מבלה הרבה זמן בחקר מאמרים ולעתים קרובות אני חושב על הנושא עבור מאמר תוך הליכה לתחנת הרכבת או כאשר בחוץ בערך.

ערב אחד תוך כדי הליכה של 1.5 קילומטר לתחנה מהעבודה שלי חשבתי "זה לא יהיה טוב אם אני יכול לרשום את מה שרציתי להגיד ואז יש להעתיק את זה באופן אוטומטי לקובץ טקסט שבו אני יכול לערוך ולעצב מאוחר יותר" .

ביליתי הרבה שעות ארוכות, מסתכל על האפשרויות השונות הזמינות עבור זיהוי קולי והכתיבה, כולל הקלטה ישירה באמצעות מיקרופון באמצעות תוכנת הכתבה ב- Linux, הקלטה של ​​קובץ בפורמט MP3 או WAV ולהמרתו דרך שורת הפקודה, וכן באמצעות Chrome ואת יישומי אנדרואיד.

מאמר זה מדגיש את הממצאים שלי לאחר ימים של עבודה קשה.

אופציות לינוקס

מנסה למצוא את ההוכחה ואת תוכנת זיהוי קול בלינוקס הוא לא קל כמו שזה יכול להיות האפשרויות הזמינות הם לא כל כך חכם.

דף זה wikipedia יש רשימה של אפשרויות פוטנציאליות כולל CMU ספינקס, יוליוס וסיימון.

אני משתמש SparkyLinux אשר מבוסס על בדיקות דביאן כרגע ואני יכול להגיד לך את החבילה היחידה הכרה קולית זמין במאגרים הוא ספינקס.

התוכניות יליד לינוקס אני בסופו של דבר ניסו היו PocketSphinx, אשר נהגתי להמיר קבצי WAV לטקסט ו- Freespeech-VR שהוא יישום פייתון המאפשר לך להקליט ישר מתוך המיקרופון.

ניסיתי גם כמה אפליקציות Chrome, כולל VoiceNote II ו- Dictanote.

לבסוף ניסיתי את "הכתבה ודוא"ל" ו "לדבר ולדבר הכתבה" אנדרואיד Apps.

Freespeech-VR

Freespeech-VR אינו זמין במאגרים הרגילים. הורדתי את הקבצים מכאן.

לאחר הורדה וחילוץ התוכן של קובץ ה- zip פתחתי מסוף וניווט לתיקייה שבה הקבצים הופקו.

הקלדתי את הפקודה הבאה כדי לפתוח freespeech-vr.

sudo python freespeech-vr

יש לי זוג אוזניות עם מיקרופון הגון למדי ומבטא דרום ברור למדי.

הטקסט הבא הופיע בחלון ה- freespeech-vr:

ברוכים הבאים לכלבים יחידה של התוצאה היום יש להבטיח כיצד לנהל בדיקות יש לבדוק כאשר לטקסט משתמש בדרך מערכת דיבור אני אחד היה רק ​​בתקווה להישאר ואת האמצעים של תרנגולות אחד הזהב כמו מערכת Ea כאשר השם שלי הבא שיחות טלפון שיחות טלפון זה בקרוב מספיק טלפונים הטלפון ידיים - שטח הספינקס הולך כי זה לא טלפונים יהיה משותף מאומן וכלים להשתמש בדיבור כאשר סיימת לומר קובץ בשימוש אחרון סיפור א ו באמצעות על ידי מתי זה מאוד איך הצלחה זה לינוקס היה כמו שאתה להימנע הוא

אני רק רוצה לומר עכשיו כי זה לא אתר של כלבים באתר ובשום שלב לא הזכרתי משהו לעשות עם תרנגולות הזהב. אני ממש מנסה לתאר את התהליך של שימוש בתוכנה זיהוי קולי.

ניסיתי את התוכנה כמה פעמים, כולל משתנים המגרש ואת מהירות אבל הדיוק היה גרוע.

PocketSphinx

PocketSphinx הוא מסוגל לקחת קובץ WAV ולהמיר אותו לטקסט באמצעות שורת הפקודה.

PocketSphinx זמין דרך מאגרים של דביאן וצריך להיות זמין עבור רוב ההפצות.

הבעיה העיקרית שמצאתי עם PocketSphinx היא שאתה כמעט צריך תואר במושגים של זיהוי קולי, קבצי שפה, מילונים וכיצד לאמן את המערכת.

לאחר התקנת PocketSphinx אתה צריך ללכת לאתר הספינקס CMU ולקרוא כמה שיותר מידע. כמו כן, עליך להוריד את קובץ הדגם הבא.

(אם אינך יליד דובר אנגלית, בחר את דגם השפה המתאים לך).

התיעוד עבור PocketSphinx ו הספינקס בכלל קשה להבין עבור אדם שכב אבל מה שאני יכול לעשות קבצי מילון משמשים כדי לספק רשימה של מילים אפשריות מודלים השפה יש רשימה של ביטויים פוטנציאליים.

כדי לבדוק PocketSphinx השתמשתי הקלטה של ​​הקול שלי, קטע מתוך אל Pacino ב "עורך דין השטן" וקטע מ "מורגן פרימן". המטרה היתה לנסות קולות שונים, ואין לי מי שיכול לספר סיפור כמו מורגן פרימן, ואף אחד לא מספק שורה כמו אל פאצ'ינו.

עבור PocketSphinx לעבוד זה צריך קובץ WAV וזה צריך להיות בפורמט מסוים. אם הקובץ הוא בפורמט MP3 להשתמש בפקודה ffmpeg להמיר אותו בפורמט WAV:

ffmpeg -i inputfilename.mp3 -ododec pcm_s16le -ar 16000 outputfilename.wav

כדי להפעיל את PocketSphinx, השתמש בפקודה הבאה:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-he-us.lm 2> voice2.log

pocketsphinx_continuous לוקח קובץ WAV וממיר אותו לטקסט.

בפקודה לעיל pocketsphinx הוא אמר להשתמש בקובץ מילון בשם "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" עם מודל השפה "cmusphinx-5.0-en-us.lm". הקובץ המומר לטקסט נקרא voice2.wav (שהוא הקלטה שעשיתי עם הקול שלי). לבסוף 2> מציב את כל הפלט verbose שאתה לא בהכרח צריך לתוך קובץ שנקרא voice2.log. התוצאות בפועל של הבדיקה מוצגות בחלון המסוף.

התוצאות באמצעות קולי הן כדלקמן:

ברוכים הבאים הבא גם על זה לא השבוע הנושא על איזה תוכנה הכרה דקה

התוצאות אינן מזוויעות כמו עם freespeech-VR אבל עדיין לא ממש שמיש. ניסיתי אז באמצעות PocketSphinx עם אל Pacino אבל זה לא החזיר שום תוצאות בכלל.

לבסוף ניסיתי להשתמש בקולו של מורגן פרימן מהסרט "ברוס אדירים" והנה התוצאות:

000000000: אנו עליה
000000001: הם כל כך קשה yeah היום כי עכשיו כן כן זה הכי אנחנו כבר בחיים אני חלק על ידי חם
000000002: במעלית מי הוא המפתח מתוך קצת בייסבול או יודע מה לעשות כדי חייהם
000000003: מה הם אלה יתאושש
000000004: הם לא כתבו את זה
000000005: יש לי על הזכות החוצה
000000006: עליך להיות כללים
000000007: אני כבר מצפה לך
000000008: והוא למד כאן כי היה איור זה היה מסיבת חג המולד הרוצח
000000009: מתברר אחת הדרכים לכתוב o. התחת חשבתי כמה תמיד ללבוש אחד
000000010: כמו בעיה מאוחדת לא ייתן לו את הטוב אני מעריכים אותם באותו רגע, כאשר אנחנו לא כל מה שאתה חושב שאני בעולם יהיו בתים ראיתי את זה
000000011: אבא שיש לו את זה
000000012: מה הרבה על זה
000000013: האם זה נתון
000000014: כל מה שאתה אלה שאינם נופלים הרבה
000000015: ממש בסתיו
000000016: גם להחזיק רק בשבילי
000000017: זה אומלל אם אני חושב גם שהם הולכים לקבל את זה כי כל זה נשוי על לא היה לנו לעשות אני אוהב את בניגוד הדרך

הבדיקה שלי בקושי יכול להיחשב מדעיים היזמים של PocketSphinx עשוי המדינה כי אני לא משתמש בתוכנה כראוי. יש גם טכניקה הנקראת אימון קולי אשר ניתן להשתמש בהם כדי ליצור מילונים טובים יותר קבצי שפה.

הדעה העיקרית שלי היא כי זה פשוט קשה מדי לשימוש יומיומי רגיל.

קול

VoiceNote II הוא אפליקציית Chrome שמשתמשת בממשק ה- API של זיהוי Google Voice.

אם אתה משתמש בדפדפנים של Chrome או Chromium, תוכל להתקין את VoiceNote II דרך חנות האינטרנט .

הסמלים ב VoiceNote II הם ערוכים בצורה מוזרה כמו שאתה צריך להגדיר את השפה בתחתית החלון ואת כפתור העריכה הוא גם בתחתית, אבל כפתור ההקלטה נמצאת במיקום הנכון העליון.

הדבר הראשון שאתה צריך לעשות זה לבחור שפה וזה יכול להיות מושגת על ידי לחיצה על סמל העולם.

כדי להתחיל בהקלטה, לחץ על סמל המיקרופון והתחל לדבר אל המיקרופון שלך. לקבלת התוצאות הטובות ביותר מצאתי מדבר לאט היה המפתח, כך התוכנה תהיה הזדמנות לשמור על קשר.

התוצאות לא היו גדולות כפי שניתן לראות להלן:

שלום וברוכים הבאים להתחבר. About.com מאמרים היום על קול להמרת טקסט dunelm פארל המיתון 2008 כהמרות והוא אמר גם נתמך בדרך הטובה ביותר מצאתי טקסט addon קול כדי להראות 2014debian או סל"ד החבילה לפתוח את הקול סוג הדיבור לטקסט לפתוח אותו אם אתה רוצה לבחור לעומת בחרה בצרפתית גרמנית אדינבורו להביא לך את הזמן בממלכה המאוחדת בים micphonacent סיימת לכתוב את הטקסט שלך כקובץ טקסט itsuccess היטב זה מבטא אנגלית מאוד מדרום אנגליה הטוב ביותר עבור זה אבל אני הולך textvia זה torrentalong עם המסמך בפועל ואתה יכול לראות את הטעויות כי makethank אותך עבור listenfriends

דיקטנט

Dictanote הוא עוד יישום Chrome שבו ניתן להשתמש למטרות הכתבה ונתקל כמו להיות יותר אינטואיטיבי אבל התוצאות לא היו טובים יותר מאשר VoiceNote II.

השתמשתי רק את גירסת ההדגמה של Dictanote אשר מונע ממך ליצור מסמכים חדשים, אבל זה מאפשר לך לדבר על טקסט זה כבר בעורך. הייתי מסוגל לבדוק את ההכרה הקולית אבל התוצאות לא היו טובות יותר מאשר VoiceNote II ולכן אני לא להירשם לגרסה מקצועית.

הכתבה ודואר

"Dictation and Mail" הוא יישום Android המשתמש בממשק ה- API של Google Voice ID.

התוצאות של "הכתבה ודואר" היו טובות בהרבה מכל תוכנית אחרת שניסתה עד כה.

שלום בברכה על לינוקס על., היום אנחנו מדברים על המרת קול לטקסט

הטריק עם "הכתבה ודואר" הוא לדבר לאט bonunciate כמו גם אתה יכול עם מבטא אפילו.

לאחר שסיימת לדבר אתה יכול לשלוח את התוצאות לעצמך.

שיחה ודיבור

יישום אנדרואיד אחר שניסיתי היה "שיחה ודיבור הכתבה".

הממשק עבור App זה היה הטוב ביותר של חבורה והכרה קול עבד טוב מאוד. לאחר הקלטה של ​​הכתבה הייתי מסוגל לחלוק את התוצאות בדרכים שונות כולל באמצעות דוא"ל.

ברוכים הבאים ל- Linux on.com היום אנחנו מדברים על המרת דיבור לטקסט

כפי שאתה יכול לראות את הטקסט לעיל הוא בערך ברור כמו שאתה יכול לצפות לקבל. לדבר לאט הוא המפתח.

סיכום

Native Linux יש דרך ללכת לגבי הכרה קולית במיוחד הכתבה. יש יישומים שמשתמשים בממשק ה- API של Google Voice אך הם עדיין לא מופיעים במאגרים.

יישומי ChromeOS הם קצת יותר טובים אבל עד כה התוצאות הטובות ביותר הושגו באמצעות הטלפון אנדרואיד שלי. אולי הטלפון יש מיקרופון טוב יותר ולכן תוכנת זיהוי קול עומד סיכוי טוב יותר של המרה.

לקבלת הכרה קולית להיות שמיש באמת זה צריך להיות אינטואיטיבי יותר עם פחות התקנה נדרשת. אתה לא צריך להתעסק עם מודלים שפה ומילונים כדי להפוך אותו מובן.

אני מעריך עם זאת את כל האמנות של זיהוי קול הוא מאוד מאתגר כי לכולם יש קול אחר ויש כל כך הרבה דיאלקטים מאזור לאזור בארץ אחת אף פעם לא לדאוג למאות שפות בשימוש ברחבי העולם.

הניתוח שלי, ולכן, היא תוכנת זיהוי קול הוא עדיין עובד בתהליך.