תקציר
סגנון כתיבה הוא שילוב עקבי של החלטות ברמות שונות של ייצור שפה כולל מילוניות, תחביריות ומבניות הקשורות למחבר ספציפי (או לקבוצות מחברים). בעוד שמודלים מבוססי-מילים נחקרו באופן נרחב בטקסט מסווג מבוסס-סגנון, הסתמכות על קונטקסט הופך את המודל לפחות מדרגי כאשר מדובר בנתונים הטרוגניים המורכבים מנושאים שונים. מצד שני, מודלים תחביריים שאינם תלויים בקונטקסט, חזקים יותר לעומת שונות של נושאים.
במאמר זה אנו מציגים רשת עצבית חוזרת תחבירית לקידוד דפוסים תחביריים של מסמך במבנה היררכי. המודל לומד תחילה את הייצוג התחבירי של משפטים מתוך רצף התגים של חלק מהדיבור. לצורך כך אנו מנצלים גם פילטרים מפותלים וגם זיכרונות ארוכי / קצרי טווח כדי לחקור את התלות לטווח הקצר ולטווח הארוך של תגי חלק מהדיבור במשפטים. לאחר מכן, הייצוגים התחביריים של משפטים מצטברים לכדי ייצוג מסמכים באמצעות רשתות עצביות חוזרות. תוצאות הניסוי שלנו על מערך הנתונים של PAN 2012 עבור משימת ייחוס המחבר מראות, כי תחבירית רשת עצבית חוזרת עולה ב 14% יותר מהמודל הלקסיקלי עם הארכיטקטורה הזהה מבחינת הדיוק.
1. הקדמה
אנשים מבטאים את מחשבותיהם בדרכים שונות הנובעות מגורמים רבים ביניהם מוסכמות השפה, הרקע החינוכי קהל היעד וכו’. על השפה הכתובה ,השילוב בין החלטות קבועות, מודעות או לא מודעות בהפקת השפה המכונות סגנון כתיבה, נעשה לימוד רחב. עבודה מוקדמת בנושא סטילומטריה חישובית הוצגה בשנות השישים על ידיMosteller and Wallace בכתבי הפדרליסט (Mosteller and Wallace, 1964). זמינות חסרת תקדים של נתונים דיגיטליים בשנים האחרונות יחד עם ההתקדמות בלימוד טכניקות מכונה, הובילו לעלייה בתשומת לב המלומדים בתחום הסטילומטריה החישובית (Koppel et al., 2009; Neal et al., 2017). מאפיינים סגנוניים הם בדרך כלל תלויי הקשר, מה שאומר שהם עקביים בעיקר בין מסמכים שונים שנכתבו על ידי קבוצת מחברים או על ידי מחברים ספציפיים. מאפיינים לקסיקליים, תחביריים ומבניים הם שלוש משפחות עיקריות של מאפיינים סגנוניים. תכונות לקסיקליות מייצגות את העדפות האופי ואת השימוש במילים, בעוד שתכונות תחביריות לוכדות את הדפוסים התחביריים של משפטים במסמך. תכונות מבניות חושפות מידע על האופן שבו מחבר מארגן את מבנה המסמך.
אחת הבעיות הבסיסיות שמטופלת בספרות לעיתים רחוקות, היא האינטראקציה בין סגנון ותוכן. בעוד שמילות תוכן יכולות להיות בעלות תכונות ניבוי של סגנון כתיבה של המחבר, בשל העובדה שהן נושאות מידע על בחירתו המילונית של מחברם, אי הכללת מילים של תוכן כתכונות היא צעד בסיסי להימנעות מנושא זיהוי, יותר מאשר זיהוי סגנון (ArgamonEngelson et al., 1998). עם זאת, מאפיינים תחביריים ומבניים אינם תלויים בתוכן, מה שהופך אותם לחזקים מול שונות נושאים.
השיטות המוקדמות המוצעות לזיהוי סגנונות הן טכניקות לימוד מכונה קונבנציונליות, המתבססות על תכונות מבוססות ספירה. רשתות עצביות עמוקות, אף על פי שנחקרו בהרחבה בהמשך בכמה תחומים של עיבוד שפה טבעית, מעט מחקרים השתמשו בגישה זו לסטילומטריה ולייחוס מחבר (Gagala, 2018). הגישות המאומצות ברשת עצבית עמוקה לסיווג טקסט מבוסס סגנון, מתמקדות בעיקר בתכונות מילוניות, למרות העובדה שלמודלים של שפה מבוססת-מילוניות יש יכולת הרחבה מוגבלת מאד כאשר מתמודדים עם מערך נתונים המכיל נושאים וז’אנר מגוונים.
בעוד שבעבר הוצעה רשת עצבית עמוקה המתמקדת ברמה המילונית, אנו מציגים רשת עצבית חוזרת תחבירית אשר לומדת ומבצעת היררכית את המבנה התחבירי של המסמכים. ראשית, הייצוג התחבירי של משפטים נלמד מרצף התגים של הדיבור (POS) אז הם מצטברים לייצוג מסמכים באמצעות רשתות עצביות חוזרות. לאחר מכן, אנו משתמשים במנגנון קשב לתגמול המשפטים שתורמים יותר לגילוי סגנון הכתיבה הסמכותי. על מנת לחקור את ההשפעה של תלות ארוכת טווח וקצרת טווח של תגי POS במשפט, אנו מעסיקים זיכרון לטווח קצר – ארוך (LSTM) ורשתות עצביות מפותלות (CNN) בהתאמה. המודל המוצע צפוי להיות יעיל יותר מהמודלים המקובלים מבוססי ספירה.
המשך המאמר הזה מאורגן באופן הבא: בסעיף 2 נסקור את השיטות המוצעות בספרות לסיווג טקסט מבוסס סגנון. נפרט את הגישה שלנו המוצעת בסעיף 3. בסעיף 4 נדון במערך הנתונים ואחריו מחקר ביצועים. לבסוף, אנו מסכמים המאמר בסעיף 5.
2. תעסוקה קשורה
סגנון כתיבה הוא שילוב של החלטות עקביות ברמות שונות של ייצור שפה, כולל שפות מילוניות, שפות תחביריות ומבניות הקשורות למחבר ספציפי (או לקבוצות מחברים, למשל מחברות או מחברים בגיל העשרה) (Daelemans, 2013). כיום, לסטילומטריה חישובית מגוון רחב של יישומים במדעי הספרות (Kabbara and Cheung, 2016; van der Lee and van den Bosch, 2017), בפלילי (Brennan et al., 2012; Afroz et al., 2012; Wang, 2017 ) ופסיכולינגוויסטיקה (Newman et al., 2003; Pennebaker and King, 1999). סיווג טקסט מבוסס סגנון הוצע על ידי Argamon-Engelson et al. (Argamon-Engelson et al., 1998). המחברים השתמשו בתכונות סגנוניות בסיסיות (תדירות מילות פונקציה וטריגרמות של חלקי דיבור) כדי לסווג מסמכי חדשות בהתבסס על המו”ל המקביל (עיתון או מגזין) וכן ז’אנר טקסט (מערכת או ידיעה).
2.1 תחביר לזיהוי סגנון
N-gram תחביריים מוצגים על מנת להשיג תוצאות מבטיחות במשימות סטילומטריות שונות כולל משימת פרופיל מחבר (Posadas-Duran et al., 2015) ומשימת אימות מחבר (Krause, 2014). Raghavan et al בפרט חקרו את השימוש במידע התחבירי על ידי הצעת דקדוק חופשי מהקשר הסתברותי לצורך ייחוס המחבר, והשתמשו בו כשפת מודל לסיווג (Raghavan et al., 2010). שילוב של תכונות לקסיקליות ותחביריות הראה גם כי הוא משפר את ביצועי הדגם. Sundararajan et al טוענים, כי למרות שתחביר יכול להועיל לייחוס שמחבר בין ז’אנרים, שילוב של תחביר ומידע מילוני יכול לשפר עוד יותר את הביצועים לייחוס בין נושאים ולייחוס של תחום יחיד (Sundararajan ו- Woodard, 2018). מחקרים נוספים המשלבים מאפיינים מילוניים ותחביריים כוללים (Soler and Wanner, 2017; Schwartz et al., 2017; Kreutz and Daelemans, 2018) .
2.2 רשת עצבית בסטילומטריה
עם ההתקדמות האחרונה בתחום הלמידה העמוקה, קיים בספרות גוף עבודה גדול אשר מפעיל רשתות עצביות עמוקות עבור סטילומטריה וייחוס מחבר למשל, Ge et al השתמש במודל שפת רשת עצבית מלאכותית קדימה עבור משימת ייחוס מחבר. התפוקה משיגה תוצאות מבטיחות בהשוואה לקו הבסיס של n-gram ((Ge et al., 2016). l. Bagnall et al העסיקו רשת עצבית חוזרת עם מצב חוזר משותף שעולה על שיטות מוצעות אחרות במשימת PAN 2015 (Bagnall, 2016).
שיטות המשתמשות ליישום סטילומטריה במיוחד ב- CNN, כוללות את הפעולות הבאות. Shrestha et al יישם CNN בהתבסס על תו n-gram לזיהוי מחברי ציוצים. בהתחשב בכך שכל ציוץ הוא קצר במהותו, הגישה שלהם מראה, שרצף תווי n-gram כמו CNN מאפשר לארכיטקטורה לתפוס את רמת התווים באינטראקציות, אשר לאחר מכן מצטברות ללימוד דפוסים ברמה גבוהה יותר להדגמת הסגנון (Shrestha et al., 2017). Hitchler et al הציעו CNN המבוסס על וקטור מילים מוטבע מראש והמאוגד בשיטת קידוד hot encoding של תגי POS; עם זאת, הם לא הראו שום מחקר באבלציה כדי לדווח על התרומה של תגי POS על תוצאות ביצועים סופיות (Hitschler et al., 2017). Alharthi et al מציעים המלצה על ספר מערכת, תוך שימוש במשימת חיזוי מחבר כדי ללמוד ייצוג הניתן להעברה עבור תהליך המלצה על ספר (Alharthi et al., 2018).
3. המודל המוצע: רשת עצבית חוזרת תחבירית
אנו מציגים רשת עצבית חוזרת תחבירית לקידוד הדפוסים התחביריים של מסמך במבנה היררכי. ראשית, אנו מייצגים כל משפט כרצף של תגי POS וכל תג POS מוטבע בווקטור ממדי נמוך וקודן POS (שיכול להיות CNN או LSTM) לומד את הייצוג התחבירי של משפטים.
לאחר מכן, ייצוגי המשפט שנלמד מצטברים בייצוג המסמך. יתר על כן, אנו משתמשים במנגנון קשב כדי לתגמל את המשפטים התורמים יותר לחיזוי התוויות. לאחר מכן אנו משתמשים בסווג softmax כדי לחשב את התפלגות ההסתברות על פני תוויות סוג. הארכיטקטורה הכוללת של הרשת מוצגת באיור 1. בחלקים הבאים נפרט את המרכיבים העיקריים של המודל.
3.1 הטמעת POS
אנו מניחים שכל מסמך הוא רצף של משפטים M וכל משפט הוא רצף של מילים N, כאשר M ו- N הם היפרפרמטרים מודליים והערכים הטובים ביותר נחקרים דרך שלב כוונון ההיפרפרמטר (סעיף 4.3).
בהינתן משפט, אנו ממירים כל מילה לתג POS המקביל במשפט ולאחר מכן אנו משבצים כל תג POS לווקטור נמוך ממדי Pi ∈ R dp באמצעות שימוש בטבלת בדיקת מידע θP ∈ R | T | × dp , כאשר T הוא הסט מכל תגי ה POS האפשריים בשפה. אנו משתמשים במתייג דיבור של NLT (Bird et al., 2009) למטרת התיוג ומשתמשים בערכה של POS tags47 במודל שלנו כדלקמן.
T = { CC, CD, DT, EX, FW, IN, JJ, JJR, JJS, LS, MD, NN, NNS, NNP, NNPS, PDT, POS, PRP, PRP$, RB, RBR, RBS, RP, SYM, TO, UH, VB, VBD, VBG, VBN, VBP, VBZ, WDT, WP, WP$, WRB, ‘,’, ‘:’, ‘…’, ‘;’, ‘?’, ‘!’, ‘.’, ‘$’, ‘(’, ‘)’, “‘ ’, ‘” ’}
כנראה שלמודל המוצע פחות אוצר מילים.
3.2 מקודד POS
מקודד POS לומד את הייצוג התחבירי של משפטים מפלט הטמעת POS שכבתי. על מנת לחקור את ההשפעה של תלות קצרת טווח וארוכת טווח של תגי POS במשפט, אנו מנצלים גם את אלה של CNN וגם את אלה של LSTM.
3.2.1 תלות לטווח קצר
CNN לוכד לרוב את התלות קצרת הטווח של מילים במשפטים, שהופכים אותם לחסונים מפני השונות של אורך המשפטים במסמכים. בדגמי CNN מבוססי לקסיקלים נעשה שימוש נרחב לסיווג טקסטים וניתוחי סנטימנט(et al., 2012; Kim, 2014; Johnson and Zhang, 2014; Wang Collobert et al., 2011)) והם בדרך כלל עולים על השיטות המקובלות המבוססות על וקטור ngram .
בואו ניתן ל- Si = [P1; P2; …; PN] להיות הווקטור הייצוגי של המשפט i ו- W ∈ R rdp להיות מסנן קונבולוציה עם גודל שדה קולט של r. אנו מיישמים שכבה אחת של פילטרים מורכבים עם גדלים שונים של חלונות כמו זה של ליניארי מתוקן יחידת פונקציה (relu) עם מונח הטיה b, ואחריה על ידי שכבת איגום מקסימלית זמנית שמחזירה רק את הערך המקסימלי של כל מפת תכונות C ri ∈ R N − r + 1. כתוצאה מכך, כל משפט מיוצג על ידי n-grams התחביריים החשובים ביותר שלו, ללא תלות במיקומם במשפט. בקולטניי שדה משתנים Z משמשים לחישוב וקטורים עבור n-grams שונים במקביל, והם משורשרים לווקטור סופי hi ∈ R K לאחר מכן, כאשר K הוא המספר הכולל של מסננים:
C r ij = relu(WT Sj:j+r−1 +b), j ∈ [1, N −r + 1]
, Cˆr i = max{C r i },
hi = ⊕Cˆr i , ∀r ∈ Z
3.2.2 תלות לטווח ארוך
רשתות עצביות חוזרות במיוחד LSTM מסוגלות לתפוס את היחסים ארוכי הטווח ברצפים שהופכים אותם ליעילים יותר בהשוואה למודלים ה- n-gram המקובלים שבהם הגדלת אורך הרצפים גורמת לדלילות ייצוג מטריצות של מסמכים. רשתות עצביות חוזרות ונשנות המבוססות על לקסיקל היו רבות משמש למשימות סיווג טקסטים (Tang et al., 2015; יאנג ואח ‘, 2016)
ניקח את Si = [P1; P2; …; PN] להיות הייצוג הווקטורי של המשפט i. כחלופה ל- CNN, אנו משתמשים ב- LSTM דו כיווני כדי לקודד כל משפט. ה- LSTM הקדמי קורא את המשפט Si מ- P1 ל- PN וה- LSTM לאחור קורא את המשפט מ- PN ל- P1. וקטור התכונה h p t ∈ R 2dl הוא שרשור של ה- LSTM קדימה ו- LSTM לאחור, כאשר dl הוא הממדיות של המצב הנסתר. הייצוג הווקטורי הסופי של משפט i, h s i ∈ R 2dl 2dl מחושב כסכום לא משוקלל של הייצוג הווקטורי הנלמד של תגי POS במשפט. זה מאפשר לנו לייצג משפט לפי תבנית התחביר הכללי שלו.
−→ h p t = LSTM(Pt), t ∈ [1, N],
←− h p t = LSTM(Pt), t ∈ [N, 1],
h p t = [−→ h p t ; ←− h p t ]
h s i = X t∈[1,N] h p t
3.3 מקודד משפטים
מקודד משפט לומד את הייצוג התחבירי של מסמך מרצף המשפט ייצוגים שהוצאו ממקודד הPOS.
אנו משתמשים ב- LSTM דו-כיווני כדי לתפוס כיצד משפטים עם דפוסי תחביר שונים בנויים במסמך. הווקטור שהוצא מקודד המשפט מחושב כדלקמן:
−→ h d i = LSTM(h s i ), i ∈ [1, M],
←− h d i = LSTM(h s i ), i ∈ [M, 1],
h d i = [ −→ h d i ; ←− h d i ]
למותר לציין שלא כל המשפטים אינפורמטיביים באותה מידה לגבי סגנון המחבר של המסמך. לכן, אנו משלבים מנגנון קשב על מנת חשוף את המשפטים שתורמים יותר בזיהוי סגנון הכתיבה. אנו מגדירים וקטור רמת משפט לנו ונשתמש בו כדי למדוד את החשיבות של המשפט i כדלקמן:
ui = tanh(Wsh d i + bs)
αi = exp(u T i us) P i exp(u T i us)
V = X i αih d i
כאשר אנחנו הוא וקטור נלמד והוא מאותחל באקראי במהלך תהליך האימון ו- V הוא הווקטור הייצוגי של המסמך שהוא סכום משוקלל של ייצוגים וקטוריים של כל המשפטים.
3.4 סיווג
הייצוג הווקטורי הנלמד של מסמכים מוזנים למסווג softmax כדי לחשב את
טבלה 1 – סטטיסטיקת קורפוסט
חלוקת הסתברות של תוויות מחלקה. נניח ש- Vk הוא הייצוג הווקטורי של מסמך k נלמד על ידי שכבת הקשב. התחזית y˜k הוא הפלט של שכבת softmax ומחושב כ:
y˜k = sof tmax(WcVk + bc)
כאשר Wc, bc הם משקל לומד והטיות נלמדות בהתאמה ו yi הוא C וקטור מימדי (C הוא מספר הכיתות). אנו משתמשים באובדן קרוסנטרופיה כדי למדוד את פער התחזיות והתוויות האמיתיות yk. הפרמטרים של המודל מותאמים כדי למזער את אובדן חוצה האנטרופיה על פני כל המסמכים בקורפוס ההדרכה. לפיכך, פונקציית ההפסד הרגולטורי במסמכי N המסומנים על ידי J (θ) היא:
J(θ) = − 1 N X N i=1 X C k=1 yiklogy˜ik + λ||θ||
4.1 מערך נתונים
אנו מעריכים את השיטה המוצעת שלנו בדרך כלל בשימוש במערך אמת מידה מ- PAN 2012 משימת ייחוס מחבר משותפת. בחרנו במערך המשימות I המתאים לייחוס המחבר בקרב קבוצה סגורה של 14 מחברים. מערך ההדרכה כולל 28 מסמכים באורך רומן (שניים לכל מחבר מועמד), שנעים בין 32,000 מילים לכ -180,000 מילים. מערך המבחן מורכב מ -14 רומנים (אחד לכל מחבר מועמד) שאורכו נע בין 42,000 מילים ועד 190,000 מילים. טבלה 1 מדווחת על ספירת המילים ועל אורך המשפט הממוצע של המסמכים בשני אימונים ומערך מבחנים לכל מחבר מועמד.
על מנת ליצור מספיק דגימות אימון / טסט, חילקנו את הרומנים לקטעים כאשר מספר M משפטים (אורך הרצף). הערך הטוב ביותר של M נחקר דרך כוונון ההיפרפרמטר (סעיף 4.3). לפיכך, מדדי הביצוע כוללים דיוק קטגורי ברמת המגזר וכן דיוק קטגורי ברמת המסמכים. באחרון, אנו משתמשים ברוב המצביעים לסימון מסמך המבוסס על תחזיות ברמת הסגמנט.
4.2 קווי בסיס
עבור קווי הבסיס שלנו אנו משתמשים בתחביר סטנדרטי מודל n-gram כגישה תחבירית ומודל ngram מילים כגישה מילונית. עבור שני הדגמים, השתמשנו במסווג Support Vector Machine (SVM)) עם גרעין ליניארי. יתר על כן, על מנת להשוות את הביצועים של רשת עצבית חוזרת תחבירית לגישות המבוססות על-מילוניות, הזנו את רצף המילים לרשת עצבית עם ארכיטקטורה זהה. אנו משתמשים ב-300 מימדים של הטבעות כפפה לפני הכשרה (et al., 2014 Pennington) לשכבת ההטבעה ברשת. על מנת להפחית את ההשפעה של בעיה מחוץ למילים, אנו שומרים רק על 50,000 מילים התכופות ביותר.
4.3 כוונון היפר-פרמטר
בחלק זה אנו בוחנים את השפעתם של היפרפרמטרים שונים על ביצועי הדגם המוצע. כל מדדי הביצוע הם ממוצע של הדיוק ברמת הסגמנט (על ערכת הבדיקה) המחושב מעל 10 ריצות עם פיצול אימון / אימות 0.9 / 0.1. אנו משתמשים באופטימיזציה של Nadam Sutskever et al., 2013)) כדי לייעל את אובדן האנטרופיה הצולבת במשך 30 תקופות אימונים.
4.3.1 CNN לקידוד POS
איור 2 ממחיש את הביצועים של רשת עצבית חוזרת תחבירית כאשר CNN משמש כמקודד POS, על פני גדלים שונים של שדות קליטה שונים ומספר שכבות, בעוד שפרמטרים אחרים נשמרים קבועים. אנו מבחינים כי הגדלת מספר השכבות המפותלות מקטינה בדרך כלל את הביצועים. זה יכול להיות בגלל העובדה שכל שכבה מוסיפה למורכבות המודל אשר נובעת ממספר הפרמטרים הגבוה יותר, ונתוני אימון מוגבלים שמחמירים את הביצועים של המודל. יתר על כן, בשכבה אחת, הדיוק בדרך כלל גדל על ידי הגדלת שדות קליטה פשוט בגלל ששדות בגדלים הגבוהים יותר לוכדים רצפים תחביריים ארוכים יותר והם אינפורמטיביים יותר.
בניסויים שלנו ראינו גם, שיש שכבות קונבולוציה מקבילות עם גדלים של שדות קליטה שונים שמשפרות את הביצועים. לכן, במודל הסופי, אנו משתמשים בשכבה אחת של פילטרים מפותלים מרובים כאשר גודל הקולטים 3 ו -5.
2: ההשפעה של גדלים שונים של שדות קליטה שונים ומספר שכבות (n שכבות) על הביצועים של רשת עצבית תחבירית חוזרת
4.3.2 LSTM לקידוד POS
איור 3 מדגים את הדיוק של המודל המוצע כאשר LSTM מועסק כמקודד POS על פני ערכים שונים של אורך המשפט (N) ואורך הרצף (M: מספר המשפטים בכל קטע). אנו רואים מהאיור כי הגדלת אורך הרצף מגבירה את הביצועים והמודל משיג דיוק גבוה יותר בקטעים עם 100 משפטים (74.40) מאשר בקטעים עם 20 משפטים בלבד (60.02). תצפית זו מאשרת כי חקירה זו של סגנון הכתיבה במסמכים קצרים מאתגר יותר (Neal et al., 2017).
כפי שמוצג בטבלה 1, המשפט הממוצע אורכו נע במערך הנתונים בין 13 ל -35. לכן בדקנו את אורך המשפט 10, 20, 30 ו- 40 (ביצועי המודל זהים כאשר אורך המשפט הוא 30 ו -40, ולכן לא כללנו את תוצאות האחרון באיור). ראינו כי הגדלת אורך המשפטים ל -30 מילים משפרת את הביצועים בעיקר מכיוון שהקטנת אורך המשפט מתעלמת מכמה מילים במשפט המוביל לאובדן מידע בולט. לסיכום, רשת עצבית תחבירית מקבלת קטעים כקלט שבהם כל קטע מכיל 100 משפטים ואורכו של כל משפט הוא 30.
איור 3: השפעת אורך המשפט ורצף אורך הביצועים על ביצועים תחביריים עצביים חוזרים ברשת.
4.4 תוצאות
אנו מדווחים הן על רמת מקטעים והן על רמת הדיוק של מסמכים. כאמור, כל מסמך (רומן) חולק לקטעים של 100 משפטים. לכן, לכל מקטע ברומן מסווג באופן עצמאי ולאחר מכן התווית מכל מסמך מחושב כהצבעה של רוב המגזרים המרכיבים אותו. טבלה 2 מדווחת על תוצאות הביצועים של קווי הבסיס והמודל המוצע (עם CNN ו- LSTM כמקודד POS) במערך הנתונים של PAN 2012. על פי הדיוק ברמת המקטעים, הביצועים של כל הדגמים צנחו משמעותית במערך המבחנים בעיקר בגלל נתוני אימונים לא מספיקים. אנו מצפים שאם המודלים יתורגלו בדוגמאות כתיבה לכל מחבר, תוצאות הבדיקה יהיו קרובים יותר לתוצאות האימות.
באופן לא מפתיע, דגם CNN-LSTM התחבירי עולה על ביצועי מודל ה- n-gram הקונבנציונאלי (POS N-gram-SVM) בשיפור של 9.1% בעוד מידע על טקסט המקור הזה נדרש לצורך מידע נוסף על התרגום שליחת משוב חלוניות צדדיות דיוק ברמת הסגמנט ושיפור של .15% בדיוק ברמת המסמך. זה בעיקר בגלל שה- CNN-LSTM התחבירי לא רק מייצג משפט לפי הגרמים התחביריים החשובים שלו, אלא גם לומד כיצד משפטים אלה בנויים במסמך. מצד שני, מודל ה- POS N-gram-SVM תופס רק את תדירות הנגרמים השונים במסמך.
מודל | רמת דיוק של מקטעים_%______
הערכה |
___________ מבחן | רמת דיוק של מסמכים % | |
לקסיקלי | Word N-grams-SVM | 90.71 | 58.35 | 78.57 (11/14 רומנים) |
CNN-LSTM | 98.88 | 64/12 | 78/57 11/14) רומנים( | |
LSTM-LSTM | 96.83 | 63.92 | 85.71 (12/14 רומנים) | |
תחבירי | POS N-grams-SVM | 89.60 | 69.66 | 92/85 ) 13/14 רומנים ( |
CNN-LSTM | 93.22 | 78.76 | 100.00 (14/14 רומנים) | |
LSTM-LSTM | 95.00 | 74.40 | 100.00 (14/14 רומנים) | |
טבלה 2: תוצאות הביצועים של מודלים במערך PAN 2012 למשימת ייחוס מחבר.
4.4.1 תחביריות נגד לקסיקלי
על פי הטבלה 2, שניהם תחביריים חוזרים ונשנים רשתות עצביות (CNN-LSTM ו- LSTM-LSTM) עולים על המודלים המילוניים על ידי השגת הדיוק ברמת המסמך הגבוה ביותר (100.00%). רשתות עצביות תחביריות חוזרות סיווגו נכון את כל 14 הרומנים במערך הבדיקות בעוד LSTM-LSTM לקסיקלי משיג את הדיוק הגבוה ביותר ברמת המסמכים (85.71%) במודלים הלקסיקלים על ידי סיווג נכון של 12 רומנים. בסיווג ברמת הסגמנט, רשתות עצביות חוזרות ונשנות עולות על המודלים הלקסיקאליים בזמן הבדיקה בדיוק רב יותר של 14%; עם זאת, המודלים המילוניים משיגים דיוק אימות גבוה יותר. תצפית זו עשויה לרמוז על יכולת ההכללה הנמוכה יותר של מודלים לקסיקליים בהשוואה למודלים התחביריים בסיווג הטקסט מבוסס הסגנון.
4.4.2 טווח קצר נגד טווח ארוך
על פי התוצאות בטבלה 2, מודל CNN-LSTM התחבירי עולה מעט על LSTM-LSTM התחבירי בכ -4% בדיוק ברמת המגזר. ההבדל העיקרי בין שני מודלים הוא האופן שבו הם מייצגים משפט. ב- CNN-LSTM התחבירי, כל משפט מיוצג על ידי ה- n-gram התחבירי החשוב שלו ללא תלות במיקומו במשפט. למרות זאת, תחביר LSTM-LSTM לוכד בעיקר את התבנית התחבירית הכוללת של משפט על ידי סיכום כל הייצוגים הווקטוריים הנלמדים של תגי POS במשפט.
4.4.3 מסמכים קצרים נגד מסמכים ארוכים
ערכנו מחקר מבוקר על ההשפעה של אורך המסמך על הביצועים של שני הדגמים CNN-LSTM ו- LSTM-LSTM. למטרה זו, תרגלנו כל דגם בשבר ספציפי בלבד של כל מסמך אימונים ולאחר מכן בדקנו את המודל המתורגל על כל מערך הבדיקות. אנו שומרים על מספר הפרמטרים של המודל בשני המודלים, בערך במידה שווה כדי לבטל את ההשפעה של הגבלת הנתונים על תהליך האימון. איור 4 מדגים את תוצאות הביצועים של מודלים כאשר הם מתורגלים על ה- n% הראשון של הקטעים בכל מסמך.
איור 4: הביצועים של מודלים CNN-LSTM ו- LSTMLSTM כאשר הם מאומנים על מספר שונה של פלחים למסמך
אנו מבחינים שכאשר החלק הקטן יותר של מקטעים (<30%) משמשים לאימונים, דגמי LSTMLSTM משיגים בבדיקות דיוק גבוה יותר מאשר דגמי CNN-LSTM הן בהגדרות התחביריות והן בלקסיקליות. מצד שני, דגמי CNN-LSTM עדיפים מעט בביצועים על דגמי LSTM-LSTM כאשר מספר המקטעים המשמשים לאימונים בכל מסמך עולה. במילים אחרות, נראה כי דגמי LSTMLSTM מהירים יותר בלכידת סגנון כתיבה ממודלים של CNN-LSTM שמאפיין זה הופך אותם למודל פוטנציאלי מועדף בעת חקירת סגנון כתיבה במערך של מסמכים קצרים.
4.4.4. ביצועים מבחינה שכבתית
איור 5 ממחיש את הזיכרון ברמת הסגמנט עבור כל תווית שכבה של שתי הרשתות עצביות החוזרות ונשנות הלקסיקליות (a ו- b) והן על הרשת התחבירית (c – d). תא [i, j] מדווח על חלקי המקטעים במסמך שנכתב על ידי המחבר i, שם יוחס למחבר j. ברשתות לקסיקליות, LSTM-LSTM בעל שיעור סיווג שגוי ונמוך יותר (2 מסמכים מסווגים באופן שגוי) בהשוואה ל- CNN (3 מסמכים המסווגים באופן שגוי). CNN-LSTM ו- LSTM-LSTM תחביריים משיגים את הזיכרון הגבוה ביותר ומסווגים נכון יותר את כל 14 המסמכים בערכת הבדיקה. לשני המודלים הלקסיקלים יש זיכרון יחסי נמוך בתוויות השכבה 1,4,7,11 ו- 12 בעוד ששני המודלים התחביריים מראים זיכרון נמוך בתווית השכבה 13. יתר על כן, שני המודלים המילוניים כמו גם CNN-LSTM התחבירי מראים זיכרון נמוך יותר עבור תווית השכבה 11 ו -12; למרות זאת תחביר LSTM-LSTM מראה זיכרון גבוה יותר בשכבות האלה.
איור 5: מטריצות הבלבול של רשת עצבית חוזרת לקסיקלית ותחבירית. התוויות אנכיות וציר אופקי מציין תוויות מחלקה. (א) דגם CNN-LSTM לקסיקלי (b) דגם LSTM-LSTM לקסיקלי (c) תחביר דגם CNN-LSTM (ד) דגם LSTM-LSTM תחבירי
5 מסקנה ועבודה עתידית
במאמר זה הצגנו רשת עצבית חוזרת תחבירית במטרה לקודד את דפוסי התחביר במסמכים במבנה היררכי ולאחר מכן להשתמש בייצוג התחבירי הנלמד של המסמך לסיווג טקסט מבוסס סגנון. בדקנו תלות ארוכת טווח וקצרת טווח של תגי חלקי דיבור (POS) במשפטים. על פי תוצאות הניסוי שלנו במערך הנתונים של PAN 2012, רשתות עצביות תחביריות חוזרות על ידי רשתות מבוססות-לקסיקליות ב -14% מבחינת הדיוק ברמת הסגמנט. יתר על כן, ראינו כי מקודדי POS מבוססי LSTM מהירים יותר בללכוד את סגנון הכתיבה הסמכותי מאשר מקודדי POS מבוססי CNN, המאפיין הזה הופך אותם למודל עדיף בעת חקירת סגנון כתיבה מחברתי במערך של מסמכים קצרים.
295.00 ₪
295.00 ₪
מוגן בזכויות יוצרים ©2012-2023 אוצר אקדמי – מבית Right4U כל הזכויות שמורות.