(24/04/2024) עלו היום לאתר 9 סמינריונים 2 תזות 2 מאמרים

לרכישה גלול למטה לסוף הדוגמית

Text normalization in social media progress, problems and applications for a pre-processing system of casual English

נרמול טקסט במדיה חברתית: התקדמות, בעיות ויישומים עבור מערכת טרום עיבוד של אנגלית מדוברת

אלינור קלארק & קנג’י אראקי – בית הספר למדעי המידע והטכנולוגיה, אוניברסיטת הוקקאידו, קיטה

 

הצמיחה המהירה של תוכן שנוצר על-ידי הגולשים באינטרנט בשנות האלפיים, שמתאפיין בשימוש במדיה החברתית, הובילה ליצירת תוכן אינטרנטי שמבוסס על שפה פחות סטנדרטית מאשר התוכן שהיה קיים באינטרנט של שנות ה-90. היצירתיות של הגולש והאינדיבידואליות של השפה יוצרות בעיות בשתי רמות. הראשונה היא שלעיתים קרובות טקסט במדיה חברתית לא מתאים לשימוש עבור משימות של עיבוד שפה טבעית כגון תרגום מכונה, אחזור מידע וכריית מידע, בשל אי סדירות של השפה. השנייה היא שגולשים באינטרנט שאינם דוברי אנגלית כשפת אם, גולשים מבוגרים, וכאלו שאינם חברים ב”קבוצה הפנימית” מוצאים לעתים קרובות שישנו קושי בהבנת טקסטים אלו. מאמר זה דן בבעיות הכרוכות בנורמליזציה אוטומטית של מדיה חברתית באנגלית, ביישומים שונים הקיימים לשימוש בו, ובהתקדמות שלנו עד כה בגישה מבוססת-כללים. במיוחד, נבחנים הביצועים של שני בודקי איות מובילים בקוד פתוח בהתאם לנתונים שנלקחו ממערכת המיקרו-בלוגינג “טוויטר”, ונבחנה המידה שבה הדיוק שלהם משתפר באמצעות עיבוד מקדים בעזרת המערכת שלנו. אנו מציגים גם את הכללים והסיווג של מסדי הנתונים שלנו, תוצאות ניסויי ההערכה ותוכניות להרחבת הפרויקט.

1. מבוא

הצמיחה המהירה של השימוש באינטרנט, התקשורת האלקטרונית ושל המדיה המונחת-משתמש כגון רשתות חברתיות, בלוגים ושירותי מיקרו-בלוגינג הובילו לעלייה חדה בצורך להבין אנגלית מדוברת כתובה, אשר לעתים קרובות אינה תואמת לכללי האיות, דקדוק ופיסוק. למרות זאת, נרמול טקסט בדרך כלל נראה מסורבל [1], ועדיין דורש מידה מסוימת של מחקר. מחקרים אשר מנסים להתמודד עם בעיה זו בדרך כלל נוקטים בגישה אוטומטית וסטטיסטית לחלוטין [2, 3]; עם זאת, אנו מציעים כי שילוב של טכניקות אוטומטיות וידניות יהוו גישה שימושית יותר לבעיה זו. לפיכך, המטרה שלנו היא לפתח שיטה המשתמשת בטכניקות  אוטומטיות של ניתוח מילולי, התאמת והחלפת מילים, בשילוב עם מסד נתונים באיכות גבוהה, בעל קנה מידה גדול, שמוזן באופן ידני. במאמר אנו מציגים את התקדמות האחרונה של מערכת זו- CECS (מערכת המרה של אנגלית מדוברת).

ל-CECS יש שני יישומים: עיבוד מקדים של “קלט רועש” עבור משימות של עיבוד אוטומטי של שפה טבעית כגון תרגום מחשב או אחזור מידע; וכמערכת עצמאית שמיועדת למשתמשים אנושיים, שנועדה לסייע בהבנת הנקרא לגולשים שאינם דוברי אנגלית כשפת אם בהבנת השפה הבלתי פורמלית, ולסייע להם להתגבר על אי סדירות בשפה שעלול להקשות עליהם להשתתף באופן חיובי בתקשורת הבינלאומית של המאה ה -21.

ההיבט החינוכי המונחה-משתמש של CECS מושלם על ידי הכללת הביאור של היבטים לשוניים ו/או תרבותיים של כל מילה או ביטוי שהומר על ידי המערכת. נכון להיום, מאגר המידע שבו משתמשת המערכת עבור החלפת טקסט הוא מסד נתונים שהוזן באופן ידני בו ישנם 1,043 פריטים, מסד הנתונים מורחב באופן קבוע ומתמשך.

2. מחקרים רלוונטיים

מחקרים שמתמקדים בבעיה הספציפית של נרמול האנגלית המדוברת הינם נדירים יחסית [4]. בעוד שתיקון שגיאות איות הינה פרקטיקה מבוססת היטב, וטכניקות של התאמת דפוסים ראשונים וניתוח שפה                           n-gram השתפרו בשני העשורים האחרונים [5], מגוון הבעיות אשר עולות בתוכן מקוון שנוצר על ידי המשתמש הינו הרבה מעבר לתיקון שגיאות איות פשוטת; בעיות אחרות כוללות שינוי מהיר של שפה שאינה במילון (סלנג), קיצורים וראשי תיבות, שגיאות פיסוק או השמטת אותיות, איות פונטי, שגיאת איות שנועדו ליצור אפקט מילולי וטעויות איות מכוון אחרות, ושימוש במילים שאינן במילון [6].

מחקרים על אוצר מילים לא מוכר לעתים קרובות מתמקדים בהכרה ותרגום/תעתיק של שמות בצורתם הנכונה; Sproat ושות’ [1] אמנם כללו כמה ניסיונות להרחבה אוטומטית של ראשי תיבות וקיצורים במחקרם, אולם סלנג ושפה מדוברת לא נבדקו באופן מיוחד. Sproat ושות’ ציינו כי “נרמול טקסט אינה בעיה שקיבלה תשומת לב רבה, ונראה (…) שהיא בדרך כלל מוצגת כעבודה מלוכלכת”[1]. העבודה של אלכסנדר קלארק על עיבוד מוקדם כללה אוסף גדול של מערכות דיון באינטרנט ורשתות היוזנט, באמצעות מתודולוגיה של למידת מכונה ישירה באמצעות מודלים גנרטיביים  ומתודת “הערוץ הרועש”, הביא להתקדמות בטיפול בסוג הקלט שנדון כאן, אך התמקד בבעיות באיכות הקורפוס ולא הגיע לשלב ההערכה [7]. Aw ושות ‘ [2] יצרו מערכת לנרמול הודעות קצרות בטלפון הנייד, [1]אשר חולקת רבים מהמאפיינים של אנגלית מדוברת בה מתמקד מאמר זה, כגון צורות קצרות של מילים, איות פונטי יצירתי ומסוגנן, השמטה של פיסוק. על-ידי יצירת מאגר של 5,000 מסרים באנגלית גולמית ומנורמלת והחלת מודל SMT המבוסס על משפט, מה שהביא לתרגומים מדויקים יותר כאשר הפלט של המערכת עבר דרך מערכות MT זמינות. השימוש במודל מבוסס-ביטוי במקום במודל שמבוסס על מילים מוסיף הקשר לוגי קונטקסטואלי לתרגום ובכך מחזק את הזיקה הלקסיקונית והתאמת המילה. עם זאת, המודל שלהם הוא ביסודו של דבר מערכת SMT ישירה, ומוגבל על ידי חוסר הזמינות של המאגר המתאים לבנייה אוטומטית של מערכת כזו.

Henriquez ושות’ [3], בעבודתם בפרויקט CAW 2.0 הציגו גישה שמשתמשת במערכת SMT מבוססת n-gram ומסוגלת ליצור משפטים נכונים תחבירית מקלט עם תדירות גבוהה של מילים עם טעויות באיות וסלנג אינטרנטי, אבל שוב מצאו כי יעילותה של המערכת שלהם הינה “בעלת תלות חזקה באיכות ובגודל המילון” וכי “המילון הקטן שלהם אינו מסוגל להתמודד עם כל הקיצורים והמונחים האפשריים”.

עם צמיחתה המהירה של המדיה חדשה, אי סדירות של השפה מהווה מכשול למשימות אוטומטיות.                Ritter ושות’, במידול שלהם של דיאלוגים בטוויטר, מצאו שהפוסטים היו “לעתים קרובות לא נכונים תחבירית, ומלאים בשגיאות איות”, ובחרו בשיטות של איות ידני [8]. העניין בתוכן מסוג זה, הן מצד החוקרים והן מהתאגידים, מראה צורך דחוף לנרמול טקסט אפקטיבי של אנגלית מדוברת.

3. מערכת לסיווג אנגלית מדוברת ומסד נתונים

3.1 מערכות לסיווג אנגלית מדוברת

המערכת שלנו להמרה לאנגלית מדוברת (cecs) מתוכננת על בסיס שגיאות ושימוש לא סדיר בשפה האנגלית המדוברת שנמצאו במדיה החברתית אותן ניתן לקבץ למספר קטגוריות נפרדות, ובהתאם, גישה רב צדדי יהיה ה דרך יעילה להתמודד עם הבעיה. הקטגוריות המשמשות במסד הנתונים של CECS הן כדלקמן.               1. קיצורי מילים. לדוגמה: nite “night“, sayin (“saying“); עשויים לכלול שילוב של אות/מספר כגון                  gr8 (“great“). וכד’ 2. ראשי תיבות. דוגמאות: lol (“laugh out loud“), iirc (“if I remember correctly“),                 וכד’ 3.שגיאות הקלדה/שגיאות איות. דוגמאות: wouls “would“, rediculous (“ridiculous“). וכד’                                                4. השמטה/שגיאה בפיסוק. דוגמאות: im (“I’m“), dont (“don’t“).וכד’  5. סלנג לא מילוני. קטגוריה זו כוללת כשלים ברציונל של המילה (WSD) הנגרמים על ידי שימוש בסלנג עבור מילים סטנדרטיות, לדוגמה,                             that was well mint (“that was very good“). קטגוריה זו כוללת גם התייחסות תרבותית ספציפית או בקבוצה-ממים. 6. משחק מילים. כולל איות פונטי ואיות שגיאות מכוון ליצירת אפקט מילולי, לדוגמה, that was soooooo great (“that was so great“). 7. צנזורה. שימוש במספרים או בסימני פיסוק כדי להסוות גסויות, למשל sh1t, f * * *, וכד’ 8. סמלי משמעות (פרצופונים). בעוד שלעתים קרובות מזוהים  על ידי קורא אנושי, סמלי הבעה אינם מובנים בדרך כלל במערכות מבוססות NLP כמו תרגום מכונה ואחזור מידע. דוגמאות: 🙂 (פנים מחייכות), < 3 (לב).

3.2 מבנה וחוקיות של מאגר מידע

CECS משתמש במסד נתונים מאומת שהוזן באופן ידני, אשר מכיל כיום סך של 1,043 ערכים. ערכים אלה הם מילים בודדות או ביטויים; באופן תיאורטי מבנה הנתונים זה מאפשר להוסיף ביטויים בעלי אורך בלתי מוגבל, אבל בשלב הנוכחי רוב הביטויים במסד הנתונים הם סטים של שתיים או שלוש מילים. כל ערך נלקח מתוך מאגר נתונים עשיר באנגלית מדוברת, וכולל ערכים מ- Twitter[2]“”, תגובות מ- YouTube[3]“”, המשמעויות אומתו באמצעות מקורות שיתופיים, שהוערכו על ידי המשתמשים כגון Wiktionary [4] ו Urban Dictionary[5]. ערכי מסד נתונים מכילים ארבע עמודות: “מילת שגיאה” (הפריט באנגלית מדוברת), “מילה רגילה” (הפריט התואם במילון באנגלית), “קטגוריה” (קטגוריית הפריט כמוגדר בסעיף 3.1) ו-“הערות” (מידע תרבותי או לשוני אודות המקור של הפריט, המיועד למשתמשים של CECS). בניית מסד הנתונים היא פרויקט מתמשך, ואנו מתכוונים לשפר את ההיקף כיסוי והאיכות שלו. עריכה ידנית של מסד הנתונים כוללת בדיקה למניעת התנגשויות, בעיה נפוצה במערכות מבוססות-כללים.

3.3 חוקיות בהתאמת ביטויים

התאמת הביטוי ב-CECS היא תכונה חשובה. ראשית, ניתן להתאים ביטויי סלנג שבנויים עם יותר ממילה אחת במסד הנתונים; שנית, ניתן לבאר את המשמעות של מילים שאינן ברורות (WSD). כאשר מילה קיימת כמילה אנגלית רגילה אבל משמשת לעתים קרובות באנגלית מדוברת למשהו אחר, זה לא ניתן לזיהוי על ידי בודקי האיות הקונבנציונאליים. למשל, המילה האנגלית הרגילה “rite” (טקס) משמשת בדרך כלל כצורה מקוצרת של right”” (זכות). עם זאת, ניתן להשתמש בה גם במשמעותה המקורית כ””rite, כפי שניתן לראות במשפטים הבאים לדוגמה:

שימוש רגיל: ללכת לתיכון זה קשה, אבל זה טקס מעבר (rite).

שימוש באנגלית מדוברת: לראות את הפרסומת הזאת גורם לי לרצות להקשיב לשיר הזה עכשיו                          (right now).

בנוסף לכך, זה עלול להיות מבלבל עבור קוראים שאינם דוברי אנגלית כשפת אם, מילה זו גורמת לבעיות ביישומי MT, אשר נוטים לתרגם אותה כ- “טקס”, מה שגורם לקושי בעיבוד של משפטים רבים באנגלית לאחר התרגום. עם התאמת הביטוי ב CECS, ניתן להוסיף לתוך מסד הנתונים  צירופים נפוצים של “טקס” אשר ניתן להשתמש בהם רק במובן של “זכות”. כך, באמצעות עיבוד מקדים של אנגלית מדוברת עם CECS ניתן לשפר את הטיפול של MT  בפריטים כאלו באוצר המילים. טבלה 1 מציגה חלק מערכי מסד הנתונים המכילים את המילה “טקס”:

image1 19טבלה 1 – חלק מערכי מסד הנתונים שמכילים את המילה “rite”

גישה זו גם שימושית לנרמול מספרים ששימשו כתחליפים פונטיים, לדוגמה “4” עבור “ארבע”, “2” עבור “שתיים”  וכו’. בעוד שזה ברור מדויק שיש להמיר באופן אוטומטי את כל המופעים של המספר “4” ל “ארבע”, עם התאמת ביטויים ניתן להמיר כראוי מספר גבוה של מופעים באמצעות שילובים מעוצבים בקפידה. לכן, אנו יכולים להגדיר את הכללים לשימוש בפריטים אלה באופן ידני, ולהמיר באופן אוטומטי עם CECS. עד כה, מספר המילים הדורשות התאמת חוקיות לכלל אוצר מילים שונה באופן ניכר.

בעוד שאסטרטגיה זו של ביאור משמעות (WSD) עדיין לא יכולה לכסות את כל האפשרויות הקיימות והשימושים האפשריים שיש להן, זה הגיוני להניח כי השילובים המשמשים הם סופיים ולכן ניתן להזין אותם במסד הנתונים. ככל שנאספים יותר נתונים, ומנותחות עוד דוגמאות שנאספו, האיכות והיקף הכיסוי של מסד הנתונים גדלים עוד יותר.

4. סקירה של המערכת

image4 9תרשים זרימה של CECS  מוצג באופן סיסטמתי באיור 1

CECS כתוב בשפת התכנות פייתון. ראשית, קלט המשתמש נכתב בדקדוק רגיל לחלוטין ומוגדר באמצעות  [6]pyParsingg, אשר מגדיר מילים וסימני פיסוק כאסימונים נפרדים, ומאפשר שילובים. “תווים עיקריים” מוגדרים כאותיות z-a ו-A-Z, מספרים 0-9 (במקרה של איות מילה שמשלב מספרים כגון “gr8” עבור “great”), וסימני פיסוק נבחרים שעשויים להופיע באמצע המילה כגון גרש (“don’t“), מקף (“mid-word “), כוכבית הימנעות של צנזורה (“s * * *”), וכו’ “תווים אחרים” מוגדרים כמו כל תווי ASCII האחרים, החזרת גררה ורווחים מוגדרים בנפרד. לפיכך, מוגדר כאן אסימון כמילה המורכבת מתווים מרכזיים (“English word “) או מורכבת מתווים אחרים (“punctuation token “).

הקלט עובר לאחר מכן טוקניזציה במסד הנתונים כדי למצוא התאמה, באמצעות מבנה נתונים מסוג trie. מסד הנתונים נטען באופן רקורסיבי כדי לאפשר בדיקת מידע של הפריטים, באמצעות טוקנזציה אותו זהה לזו המשמשת לקלט. ערכי מסד נתונים שהם מחרוזת משנה מותרים, אך התאמות מלאות אינן מותרות. באמצעות מבנה נתונים זה, מופעלת התאמת צירופי מילים מרובי-תמלילים.

כאשר נמצאת התאמה, המקבילה האנגלית המנורמלת מוצגת בממשק המשתמש בחלונית “פלט”, והקטגוריה וההערות של הפריט המוחלף, כאשר קיימות, מוצגות בחלונית “הערות”. אסימונים (tocens) שלא נמצאו במסד הנתונים מועברים ללא שינוי.

5. ניסוים

5.1 סקירה של ניסויים קודמים: CECS עם קלט של MT , CECS עבור מעריכים אנושיים

ניסויים קודמים של הערכה נועדו להעריך את האפקטיביות של CECS כמערכת לעיבוד מקדים עבור מכונת תרגום קלט (MT), וגם ככלי עזר קריאה לקוראים שאינם דוברי אנגלית  כשפת אם[6].

בבדיקת CECS  כמערכת לעיבוד מקדים עבור קלטMT , 100 משפטים מתוך שירות המיקרו-בלוגינג הפופולרי Twitter”” נבדקו באמצעות שני יישומי MT ידועים חינמיים, Google Translate [7] ו Systran[8]. אותם משפטים עברו עיבוד מקדים עם CECS ואז נבדקו ב- Google Translate ולאחר מכן ב- Systran. איכות התרגומים שהתקבלו הושוותה על ידי מדידת שכיחות. התרגום היה בשתי שפות מאנגלית ליפנית. מתוך 100 המשפטים שהוצאו מטוויטר, 20 היו משפטים “ידועים”, כלומר, הם נותחו עבור שגיאות איות והוזנו מראש לתוך מסד הנתונים. 80 המשפטים הנותרים היו משפטים “לא ידועים”. שגיאות MT נספרו באופן ידני בשתי קטגוריות נפרדות, “מילה לא מתורגמת” (“NTW”) ו-“מילה מתורגמת שלא כראוי” NTW. (“WTW”) מוגדר כיישום MT פשוט שמשחזר פריטים כגון אותיות רומיות או מספרים, ואינו ממיר ליפנית בכלל. WTW הוגדר כמילה יפנית שונה לחלוטין מבחינה סמנטית מהמשמעות באנגלית. בנתונים “לא ידועים”, עם אורך משפט ממוצע של 15.35 מילים, הייתה ירידה בשכיחות של NTW מ 3.34 ל 0.86 מילים לכל משפט (ממוצע של שני יישומי MT). ירידה משמעותית זו הראתה כי כיסוי מסד הנתונים של CECS כבר מראה ביצועים סבירים.

בהערכת CECS עבור משתמשים אנושיים, עשרה לומדים שאינם דוברי אנגלית כשפת אם בין הגילאים 23 ו 64 השלימו שני שאלונים, שבו הם התבקשו להעריך את הבנתם של 20 משפטים, שנלקחו מטוויטר. השאלון הראשון השתמש בקלט גולמי עבור המשפטים, והשאלון השני השתמש באותם משפטים לאחר עיבוד על-ידי CECS. אף משתתף לא הורשה לראות את המשפטים המתוקנים עד להגשת השאלון הראשון. הדירוגים נעשו בסולם דיפרנציאלי סמנטי בן חמש נקודות, באופן הבא:

שאלה: באיזו מידה אתה מבין את המשפט ?

1. בכלל לא מבין  2. כמעט שלא מבין 3. מבין חלקית  4. מבין את רובו  5. מבין את כולו

המעריכים גם התבקשו להסביר מדוע לא יכלו להבין חלק או את כל משפט. ניתנו להם שלוש אפשרויות: אוצר מילים, דקדוק והקשר. היה ניתן לייחס יותר מסיבה אחת לכישלון בהבנת המשפט. המעריכים התבקשו גם להעריך את רמת ההבנה שלהם של השפה האנגלית בסולם מדידה של 1 (בסיסי מאוד) עד 5 (מצוין). באופן כללי, ההבנה הממוצעת של 20 המשפטים גדלה בדיוק בנקודה דיפרנציאלית סמנטית אחת: הבנת המאבחן של המשפטים בממוצע ב-2.89 עבור קלט גולמי, מתחת ל- “מבין חלקית” בסולם המדידה הסמנטי, ו-3.89 עבור פלט המערכת, או מעט נמוך יותר מאשר “את רובו” בסולם המדידה סמנטי.

5.2 CECS ובדיקות איות: תוכנות GNU Aspell & Hunspell

בסעיפים 1 ו 2 הסברנו מדוע בדיקת איות קונבנציונאלית לבדה אינה מתאימה להתמודדות עם הבעיה של אנגלית מדוברת בשימוש במדיה חברתית; דהיינו, טווח סוגי השגיאות רחב מדי. לעומת זאת, שימוש ב-CECS כתחליף לבדיקת איות קונבנציונאלית אינה שימושית מכיוון שהיקף הכיסוי של מסד הנתונים אינו יכול להתחרות במילונים מרכזיים של בודקי האיות, וכן, “נורמלי” – איות שכפי הנראה אינו מכוון שגיאות (שגיאות כתיב והקלדה נפוצות) מופיע בתדירות גבוהה בנתוני המדיה החברתית. יצוין כי בניסויים קודמים עם CECS, חלק גדול מהשגיאות הלא פתורות נפלו תחת הקטגוריה של שגיאות הקלדה/איות [6].

לכן, כפתרון לבעיה זו, הנחנו ששילוב של בודק איות בקוד פתוח למערכת שלנו יהיה הצעד הלוגי הבא לשיפור היעילות. כניסוי ראשוני, השווינו 80 משפטים מטוויטר והרצנו את הנתונים בשני בודקי איות בקוד פתוח, GNU Aspell ו Hunspell, בהתחלה לא עברו עיבוד על ידי CECS ולאחר מכן עברו עיבוד מוקדם עם CECS.  Aspell ו Hunspell נבחרו בשל היותם שני בודקי האיות המובילים בקוד פתוח בזמן הכתיבה. למרות ש Aspell היה בעבר בודק האיות המוביל בקוד פתוח, שהשתמש לעתים קרובות בידע שמציע מחקר NLP [4], Hunspell הוא כעת בודק האיות של OpenOffice ו- Mac OS X והוא נמצא בשימוש גם על ידי הדפדפנים  Google Chrome, מוזילה Firefox ו-Opera, ומחליף את Aspell בחלק מהמקרים.

הנתונים לניסוי זה היו 80 משפטים (“ציוצים”) שנלקחו מהמחקר של Choudry  ושות’ על טוויטר[9] [9]. המשפטים לא היו בשימוש כנתוני בסיס עבור CECS, ולכן היו הרבה פריטים מחוץ למסד הנתונים שלא תוקנו על-ידי CECS. אנחנו שיערנו כי השימוש בבודק איות בקוד פתוח ישפר את יכולת תיקון השגיאות הכוללת באופן משמעותי, והשימוש ב-CECS כמסנן לעיבוד מקדים ישפר את תיקון השגיאות של בודקי האיות. אנו גם שיערו כי הביצועים של Hunspell יהיו טובים, בהתחשב בכך שהוא נמצא בשימוש על ידי הרבה יישומים פופולריים, כפי שהוזכר לעיל.

תהליך הניסוי התנהל כדלקמן. נלקחו 80  משפטים מטוויטר, מתוך סך של 1,208 מילים שלא עברו עיבוד, ולאחר מכן הורחבו בתהליך של עיבוד מקדים לסך של 1,253 מילים, האיות נבדק באמצעות Aspell ו Hunspell בהתאמה. התוצאות הוגדרו לשלוש קטגוריות:

א) מילים באנגלית רגילה: מילים שהוגדרו על ידי המילון של בודק האיות כמילים כאנגלית תקינה.  לדוגמה: “what did you say

ב) טעויות שנפתרו: מילים שהוגדרו על-ידי בודק האיות כשגיאה, כאשר המילה הראשונה שבודק האיות  הציע כתחליף הייתה נכונה. לדוגמה: המשפט  “wat did you say” הוחלף על ידי  “what did you say”.

ג) טעויות שלא נפתרו: מילים שהוגדרו על-ידי בודק האיות כשגיאה, כאשר המילה הראשונה שבודק האיות  הציע כתחליף שגוייה. לדוגמה: המשפט “wat did you say” הוחלף על ידי “water did you say”.

נכונות המשפטים החלופיים אומתה על ידי שני דוברי השפה המקומית. יש לשים לב שרק המשפט החלופי הראשון שהופק על-ידי בודק האיות נבדק, לכן גם אם המשפט החלופי השני, החמישי או העשירי היה נכון, המילה הוגדרה כשגיאה לא פתורה.

5.3 CECS ובודקי האיות: תוצאות הניסוי

תוצאות הניסוי מוצגות באיורים 2 ו-3. התוצאה הבולטת הראשונה היא כי השימוש ב- CECS כמערכת לעיבוד  מקדים משמעותית מאוד מבחינת שכיחות השגיאות. השני הוא שלמרות שביצועי האיות של שתי התוכנות זהים כמעט בנתונים המעובדים מראש, נראה שלתוכנת Aspell יש יתרון קל בנתונים לא מעובדים.

image2 15איור 2 – תוצאות של בדיקות טוויטר לא מעובדות

image3 12איור 2 – תוצאות של בדיקות טוויטר מעובדות

באופן כללי, הן Hunspell והן Aspell בדרך כלל זיהו ותיקנו את אותם הפריטים באנגלית מדוברת, עם כמה הבדלים משמעותיים. למרות שהתוצאות מצביעות כי הביצועים של Aspell טובים יותר בנתונים לא מעובדים, עקב זיהוי שגיאות, כמו גם תיקון שגיאות, ההבדל אינו כל כך ברור. לדוגמה, תוכנת Aspell מתעלמת מהשימוש בצירוף  של מספרים עם אותיות, מה שמקשה על תרגום פריטים כגון hard2tell                       (” hard to tell“) ו-sh1t (“shit”), כפי שהופיע בנתוני הניסוי שלנו, בהתאם למקובל בשפה אנגליות. Hunspell מתייחסת לצירופים של אותיות ומספרים כבעיתיים, ולא סיפקה חלופות מתוקנות עבורן. זיהוי אי-ההתאמות עבור שגיאות בלתי פתורות אלו  גבוהה יותר ב-Hunspell.

דוגמאות נוספות של זיהוי שגיאות שהושלמו הן סמלי הבעה (פרצופונים) ואותיות בודדות. שני בודקי האיות מתעלמים מסימני פיסוק, ולכן סמלי הבעה כגון “:)” ו-“:-(” לא סומנו כטעות; עם זאת, סמלי הבעה הכוללים אותיות כגון “:p” או “;D” הוגדרו כשגיאות איות. “אותיות בודדות” מתייחס לשימוש ב-“b” עבור “r”, “be” עבור “are”, “c” עבור “see” וכו’. אף אחד מאלו אינו מסומן כשגיאות איות, אך אם נעשה בהם שימוש בנתוני MT, הם אינם ניתן לתרגום. נורמליזציה עם CECS הסירה את בעיות אלה כמעט מכל המקרים בנתוני הניסוי שלנו.

חולשות ברורות אחרות שקיימות בשימוש בבודקי האיות בנתוני המדיה החברתית היו בעיות WSD וסלנג שאינו מילוני. לדוגמה, לא Hunspell ולא Aspell לא סימנו ביטויים כמו “rite now“, מה שגורם לבעיות כפי שהוסבר בסעיף 3.3. WSD היו גם בעיות עם הגרש, שבו בדרך כלל “cant” עבור “can’t” ו “wont” עבור “won’t” זוהו כמילים באנגלית תקינה (מה שככל הנראה יוביל לתרגום לפי משמעות של “hypocrisy” ו “habit”. עם זאת, הגרש במילים ארוכות כגון “havent” ו “theyre”  בדרך כלל תורגם כראוי. בסלנג יש יותר בעיה לדוגמה, “im”, משמש לעתים קרובות עבור “I’m” (כמו גם שימושים אחרים כגון קיצור עבור                         “instant message”) היוו מחסום משמעותי עבור Aspell .Hunspell המירה כראוי “im” ל “I’m“, אבל Hunspell אפילו לא הציגה אותה כחלופה אפשרית (האפשרויות היו: mi, um, Om, in, i, m, ism, aim, rim, dim, imp, him, vim, Sim, tim). הקיצור השכיח “ur“, יכול להיות “ your” או “ you’re” תלוי בהקשר, האותיות הגדולות זוהו כשם המקום  Ur על ידי שני בודקי האיות. עם זאת, “ u’re” מזוהה כראוי כ  “ you’re ” על ידי שניהם. לעומת זאת, לעתים קרובות “coz” עבור ” because” הוסב לשם הנכון “Cox” על ידי Aspell ו Hunspell.

בודקי האיות הראו את החוזקות שלהם בשגיאות הקלדה שנובעות מקרבה משמעותית, למשל “shoukd” הומרה כראוי ל “should” על ידי Hunspell ו Aspell. סוג זה של שגיאת הקלדה קשה לכסות עם מסד הנתונים CECS, וכאן שילוב של בודק האיות הינו מועיל מאוד. Hunspell ביצעה היטב עם טעויות בתנועות, למשל      “anyhow” עבור “nyhw”, בעוד ש Aspell לא זיהתה שגיאות אלו. Hunspell גם ביצעה היטב המרה של האות הסופית g, והמירה נכון “feelin“, “hatin” ו “sayin” לחלופות שלהן  “feeling “,” hating” ו “saying“, אבל Aspell הציעה בעקביות “in” (פועל) כחלופה הראשונה. אף אחת מהתוכנות לא תרגמה כראוי את המילה “goin” (“going”), עם זאת, Hunspell הציעה כחלופה “ goon” ו Aspell בחרה כחלופה ב “go in”.

תיקון של משחקי מילים שיש בהם תנועות מאורכות היו משחק של בול פגיעה, כאשר הביצועים של Aspell היו קצת יותר טובים מאשר אלו של Hunspell. “soo ” ו “sooo” עבור “so” תוקנו כראוי על ידי Aspell אבל לא Hunspell (שהציעה “sou” או “soho”), אבל דוגמאות ארוכות יותר לא הומרו בצורה נכונה על ידי אף אחת מהן, למשל “oooohhhh” הומרה על ידי Hunspell לחלופות כמו “Houyhnhnm, Hohenlohe“, בעוד שתוכנת  Aspell הציעה כחלופה את “ oohing” שהינה החלופה הקרובה ביותר באופן סמנטי.

באופן כללי, עם נתונים לא מעובד, ספירת השגיאות הגבוהה יותר נפתרה עבור Aspell סביר להניח שזה מכיוון ש Aspell המירה נכון את  “im “; ספירת השגיאות הלא פתורות הייתה גבוהה יותר ב Hunspell בעיקר בשל צירופים של מספרים/אותיות שסומנו כשגיאות, אשר Aspell התעלמה מהן. עם זאת, כאשר הנתונים עובדו מראש, הבדלים בתוצאות היו משמעותיים במידה גבוהה יותר.

זה מוביל אותנו לשאלה איזה בודק איות יהיה בחירה טובה יותר לשילוב עם המערכת שלנו. למרות שלאחר עיבוד מקדים ההבדל בתוצאות הוא מינימלי, בהתחשב בעוצמות והחולשות של כל בודק האיות עם סוגים שונים של שגיאות, נראה כי Hunspell עשויה להיות מעט יותר שימושית, בשל הטיפול שלה בשילובים מספרים/אותיות, הטיפול בתנועה ובבעיה של “g” סופית.

6. מסקנות

במאמר זה הצגנו דיון על הבעיות המרכזיות בעיבוד המדיה החברתית באנגלית, בקשות השימושיות והאפשריות לכך, וההתקדמות שלנו במערכת המיועדת למטרה זו. תיארנו ניסוי שבודק את היעילות של בודקי האיות המקובלים באנגלית מדוברת, ובאיזו מידה ניתן לשפר את העיבוד עם המערכת שלנו. התוצאות הראו כי שגיאות ממוצעות למשפט ירדו באופן משמעותי, בין בערך  15% עד לפחות מ -5%. הגענו למסקנה כי הצעד הבא עבור המערכת שלנו צריך להיות שילוב של בודק איות בקוד פתוח, אשר, בהתחשב בביצועים שלו בניסוי שלנו, קרוב לוודאי יהיה Hunspell. אנו בטוחים שההתקדמות העתידית של הפרויקט שלנו תציג תוצאות משופרות נוספות, ושגישה משולבת ורבת-ממדים כמו שלנו תוכיח שהינה הדרך היעילה ביותר לנרמול אנגלית מדוברת.

הפניות

[1] Sproat R, Black AW, Chen S, Kumar S, Ostendorf M, Richards C (2001). Normalization of non-standard words. Computer Speech and Language, 15(3), 287–333.

[2] Aw A, Zhang M, Xiao J, Su J (2006). A phrase-based statistical model for SMS text normalization. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions, Sydney, Australia, July 2006, 33–40.

[3] Henriquez CA, Hernandez A (2009). A ngram-based statistical machine translation approach for text normalization on chat-speak style communications. Proceedings of CAW2.0, Madrid, Spain, August 2009, 1–5.

[4] Wong W, Liu W, Bennamoun M (2007). Enhanced integrated scoring for cleaning dirty texts. Proceedings of IJCAI 2007 Workshop on Analytics for Noisy Unstructured Text Data, Hyderabad, India, January 2007, 55–62.

[5] Kukich K (1992). Techniques for automatically correcting words in text. ACM Computing Surveys, 24(4), 377–439.

[6] Clark E, Roberts T, Araki K (2010). Towards a Pre- processing System for Casual English Annotated with Linguistic and Cultural Information. Proceedings of Computational Intelligence 2010, Hawaii, August 2010.

[7] Clark A (2003). Pre-processing very noisy text. Proceedings of Workshop on Shallow Processing of Large Corpora, Lancaster, UK, March 2003, 12–22.

[8] Ritter A, Cherry C, Dolan B (2010). Unsupervised modeling of Twitter Conversations. Proceedings of HLT-NAACL 2010, Los Angeles, California, June 2010, 172–180.

[9] Choudhury MD, Lin YR, Sundaram H, Candan KS, Xie L and Kelliher A (2010). How does the sampling strategy impact the discovery of information diffusion in social media? Proceedings of the 4th International Conference on Weblogs and Social Media, Washington DC, USA, May 2010.

[1] שירות הודעות קצרות, או טקסט של הודעת SMS מוגבלים לאורך של 160 תווים, ולכן נדרש שימוש יצירתי בפורמטים חדשים של שפה

[2] https://twitter.com

[3] www.youtube.com

[4] www.wiktionary.org

[5] www.urbandictionary.com

[6] https://pyparsing.wikispaces.com/

[7] https://translate.google.com

[8] https://www.systranet.com

[9] 10,500,000 “ציוצים” (פרסומים של טוויטר) שנאספו, שוחררו בפומבי על ידי Choudhury [9]. מכיל ציוצים מ 200,000 משתמשים ייחודיים שנאספו בין 2006 ו 2009; המשפטים ששימשו בניסוי שלנו נלקחו בספטמבר 2009 .

נרמול טקסט במדיה חברתית: התקדמות, בעיות ויישומים עבור מערכת טרום עיבוד של אנגלית מדוברת

אלינור קלארק & קנג'י אראקי - בית הספר למדעי המידע והטכנולוגיה, אוניברסיטת הוקקאידו, קיטה

  הצמיחה המהירה של תוכן שנוצר על-ידי הגולשים באינטרנט בשנות האלפיים, שמתאפיין בשימוש במדיה החברתית, הובילה ליצירת תוכן אינטרנטי שמבוסס על שפה פחות סטנדרטית מאשר התוכן שהיה קיים באינטרנט של שנות ה-90. היצירתיות של הגולש והאינדיבידואליות של השפה יוצרות בעיות בשתי רמות. הראשונה היא שלעיתים קרובות טקסט במדיה חברתית לא מתאים לשימוש עבור משימות של עיבוד שפה טבעית כגון תרגום מכונה, אחזור מידע וכריית מידע, בשל אי סדירות של השפה. השנייה היא שגולשים באינטרנט שאינם דוברי אנגלית כשפת אם, גולשים מבוגרים, וכאלו שאינם חברים ב"קבוצה הפנימית" מוצאים לעתים קרובות שישנו קושי בהבנת טקסטים אלו. מאמר זה דן בבעיות הכרוכות בנורמליזציה אוטומטית של מדיה חברתית באנגלית, ביישומים שונים הקיימים לשימוש בו, ובהתקדמות שלנו עד כה בגישה מבוססת-כללים. במיוחד, נבחנים הביצועים של שני בודקי איות מובילים בקוד פתוח בהתאם לנתונים שנלקחו ממערכת המיקרו-בלוגינג "טוויטר", ונבחנה המידה שבה הדיוק שלהם משתפר באמצעות עיבוד מקדים בעזרת המערכת שלנו. אנו מציגים גם את הכללים והסיווג של מסדי הנתונים שלנו, תוצאות ניסויי ההערכה ותוכניות להרחבת הפרויקט. 1. מבוא הצמיחה המהירה של השימוש באינטרנט, התקשורת האלקטרונית ושל המדיה המונחת-משתמש כגון רשתות חברתיות, בלוגים ושירותי מיקרו-בלוגינג הובילו לעלייה חדה בצורך להבין אנגלית מדוברת כתובה, אשר לעתים קרובות אינה תואמת לכללי האיות, דקדוק ופיסוק. למרות זאת, נרמול טקסט בדרך כלל נראה מסורבל [1], ועדיין דורש מידה מסוימת של מחקר. מחקרים אשר מנסים להתמודד עם בעיה זו בדרך כלל נוקטים בגישה אוטומטית וסטטיסטית לחלוטין [2, 3]; עם זאת, אנו מציעים כי שילוב של טכניקות אוטומטיות וידניות יהוו גישה שימושית יותר לבעיה זו. לפיכך, המטרה שלנו היא לפתח שיטה המשתמשת בטכניקות  אוטומטיות של ניתוח מילולי, התאמת והחלפת מילים, בשילוב עם מסד נתונים באיכות גבוהה, בעל קנה מידה גדול, שמוזן באופן ידני. במאמר אנו מציגים את התקדמות האחרונה של מערכת זו- CECS (מערכת המרה של אנגלית מדוברת). ל-CECS יש שני יישומים: עיבוד מקדים של "קלט רועש" עבור משימות של עיבוד אוטומטי של שפה טבעית כגון תרגום מחשב או אחזור מידע; וכמערכת עצמאית שמיועדת למשתמשים אנושיים, שנועדה...

295.00 

295.00 

סיוע בכתיבת עבודה מקורית ללא סיכונים מיותרים!

כנסו עכשיו! הצטרפו לאלפי סטודנטים מרוצים. מצד אחד עבודה מקורית שלכם ללא שום סיכון ומצד שני הקלה משמעותית בנטל.