תקציר: כריית נתונים ומבני נתונים של רשתות ומדיה חברתית (Web and Social Media – WSM) מספקת משאב חדש של מעקב מחלות ויכולה לזהות קהילות מקוונות המיועדות לתקשורת ממוקדת בנושא בריאות הציבור (Public Health Communications – PHC), כדי להבטיח הפצה רחבה של מידע רלוונטי. WSM שמזכירים שפעת נסקרו לתקופה בת 24 שבועות, מ- 5 באוקטובר 2008 עד 21 במרץ, 2009. ניתוח קישורים חושף קהילות המיועדות ל- PHC. כריית טקסטים מציגה זיהוי מגמות במודעות שפעת המתאימות לנתוני דיווח על חולי דלקת שפעת וכשפעת בעולם האמת. אנו גם מביאים טכניקת כריית נתונים מבוססת על גרפים לאיתור חריגות בקרב בלוגים על שפעת המחוברים אחד אל השני לפי סוג מפרסם, קישורים ותגי משתמש.
מילות מפתח: מעקב אחר מחלות; אפידמיולוגיה של בריאות הציבור; אינפורמטיקה של בריאות; כריית נתונים מבוססת על גרפים; רשת ומדיה חברתית; ניתוח רשת חברתית
אבחנת שפעת המתבססת אך ורק על הצגת סימפטומים מוגבלת מכיוון שתופעות אלה עשויות להיות קשורות למחלות רבות אחרות. בדיקות סרולוגיות ואנטיגן דורשות כי מטופל עם מחלה דמויית שפעת (ILI – Influenza-Like Illness) ייבדק על ידי רופא שיכול לבצע בדיקת אבחון מהירה או לקחת דגימות דם בבדיקת מעבדה. זה מרמז שמקרים רבים של שפעת נותרו ללא אבחנה. אמנם ניתן לאשר את נוכחות השפעת אצל אדם באמצעות בדיקות אבחנות ספציפיות, אולם לא ידוע שכיחות השפעת באוכלוסייה בכל זמן נתון וניתן רק להעריך אותה. בעבר הערכות כאלה הסתמכו אך ורק על אקסטרפולציה של מקרים מאובחנים, מה שמקשה על זיהוי השלבים השונים של שפעת עונתית או זיהוי של ביטוי חמור יותר של מגיפת שפעת.
רשת ומדיה חברתית (WSM – Web and Social Media) מספקות משאב לגלות עליות ב- ILI. מאמר זה בוחן פוסטים בבלוגים, סוג של WSM, הדנים בשפעת והניתוחים מראים על קשר משמעותי עם דיווחי המטופלים על ILI בעונת השפעת בארה”ב ב- 2008-2009. תוצאות ניסוי ראשוניות על נתונים שנמשכו חודשיים בשנת 2008 פורסמו בקובץ מאמרים של הכנס [1]. במאמר זה אנו מציגים ניתוח מקיף, הכולל 24 חודשי נתונים. אסטרטגיית תגובה מוגדרת היטב להתפרצות עשויה לעשות שימוש ב- WSM כדי להפחית את ההשפעה של המחלה על האוכלוסייה והאנשים. אנו מציעים תגובה אפשרית המזהה קהילות WSM הקשורות לשפעת המפרסמות פוסטים הקשורים לשפעת. מקורות קהילתיים אלה יכולים לתווך ולהפיץ מידע התערבות חשוב במקרה של התפרצות מחלה זיהומית. המסגרת אותה אנו מציעים, באיור 1, מתארת חזותית גישה זו לאיתור מגיפות שפעת והתגובות.
איור 1. מתודולוגיה למעקב אחר מחלות דמויות שפעת במדיה החברתית וזיהוי קהילות אינטרנטיות ומדיה חברתיות שיוכלו להשתתף בתגובה לבריאות הציבור.
אנו דנים בקצרה בהיסטוריה של התפרצויות מחלות זיהומיות וגישות אחרונות במעקב מקוון על שפעת בנושא בריאות הציבור. אנו דנים גם בערך הקהילה החברתית ביחס לתגובות להתפרצות. בשלב הבא מוצג מערך הנתונים המשמש בניתוח שלנו ומבוססת המתודולוגיה לחילוץ מידע וניתוח מגמה. באמצעות גילוי ואימות של מגמות בבלוגים הקשורים לשפעת, אנו מוודאים מתאם בין המרכזים לבקרה ומניעת מחלות (Centers for Disease Control and Prevention CDC) לדיווח פציינטים של ILI על נותני ספקים של שירותי בריאות. בנוסף, קטגוריות, תדירות ותופעות ליווי של שפעת ממושכות מסייעות מבחינה איכותנית בזיהוי מגמות של ILI בבלוגים. הערכת קהילות המחוברות חזק וזיהוי בלוגרים בעלי השפעה צריכים להיות חלק מתגובת WSM. לאחר מכן אנו ממנפים כריית נתונים מבוססת גרפים כדי לזהות עוד יותר חריגות מבניות בבלוגוספירה של שפעת המתאימות לעלייה ב- ILI.
שימוש באינטרנט ומדיה חברתית למעקב ביולוגי
התפשטותם של משאבי האינטרנט והשכיחות שלהם מספקים לאנשים גישה למקורות מידע רבים המאפשרים אבחון עצמי ומספקים אמצעים למעקב ביולוגי בלתי מסורתי; לדוגמה, ניתן לשלב תסמיני מחלה ספציפיים כדי לרשום שאילתות חיפוש. תוצאות שאילתות חיפוש כאלה מובילות לרוב לאתרים שעשויים לסייע באבחון המחלה ומציעים ייעוץ רפואי (למשל PeopleLikeMe.com, WebMD.com). לאחרונה Google ™ התייחסה לנושא זה על ידי לכידת מילות המפתח לשאילתה וזיהוי חיפושים ספציפיים הכוללים מונחי חיפוש המעידים על ILI [2]. מחקר שפורסם בנושא מעקב אחר שפעת באינטרנט כולל גם חיפוש “לחיצה על הפרסום” [3], באמצעות קבוצה של שאילתות חיפוש של Yahoo המכילות את המילים “שפעת” [4], ויומני גישה לאתר בריאות [5,6] . מקורות מידע אחרים, כגון שירותי מיון טלפוני, יכולים להועיל לגילוי ILI. הממצאים ב- Yih et al [7] מראים ששירות מיון טלפוני אינו אמצעי אמין למעקב אחר שפעת עקב כיסוי השירות; עם זאת, יתכן וזה מועיל במצבים מסוימים שבהם אמצעי מעקב אחרים אינם מספקים. אנו חוזים שיופיעו יישומים המשפרים ניתוח אנליטי אוטומטי של מסמכים ממקורות פתוחים למעקב ביולוגי: מערכת כזו עשויה לספק אינדיקטורים המציינים על התפרצות מחלות למערכת המעקב הביולוגי בגבולות ובנמלים בארה”ב (תקשורת אישית עם ד”ר אנדרו פלאמר, מרכזים לבקרת מחלות ומניעה, המרכז הלאומי להכנות, גילוי ובקרה של מחלות זיהומיות, אגף הגירה גלובלית והסגר); יישום שני בפיתוח הוא הפרויקט האחרון שמומן על ידי האיחוד האירופי במערכת רפואית אקולוגית בהתאמה אישית, ואפליקציה שלישית היפותטית עשויה לספק זרימת נתונים במערכות מעקב גלובליות קיימות (כמו ארגוס גלובל באוניברסיטת ג’ורג’טאון) שחייבים להעסיק בלשנים כדי לפקח אירוע ביולוגי.
2.1. נתונים
Spinn3r [8] הוא שירות אינדקס WSM שמחשב אינדקס בזמן אמת של כל הבלוגים, עם תפוקה של מעל 100,000 בלוגים חדשים לשעה לחישוב אינדקס. ניתן להגיע לפוסטים בבלוג דרך ממשק תכנות יישומי Java (application programming interface API). מטא-נתונים הזמינים עם מערך נתונים זה (ראה איור 2. דוגמה לקידוד XML של פוסט במדיה החברתית שמזכיר שפעת) כולל את הדברים הבאים (אם מדווחים לפי מקור הנתונים): כותרת הבלוג, כתובת הבלוג, כותרת הפוסט, כתובת האתר של הפוסט, תאריך הפירסום (מדויק לשניות), תיאור, תוכן מקודד HTML מלא, תגי נושא שהוגדרו על ידי המחבר, ושפה.
איור 2. דוגמה של קידוד XML של פוסט במדיה החברתית המזכיר שפעת.
איור 3. בלוגים, פורומים, מיינסטרים מדיה ומאמרים אחרים שנאספו באמצעות שידורי Spinn3r RSS/ATOM באוקטובר 2008 עד 21 במרץ 2009.
הנתונים נבחרים מפרק זמן שרירותי של 24 שבועות, החל מה-5 באוקטובר ומסתיים ב- 21 במרץ, 2009. סך של 158,497,700 פריטי WSM נמשכו משידורי RSS ו- ATOM של Spinn3r. זיהינו עלייה משמעותית בכיסוי הבלוגים כתוצאה מהצלחת שירות Spinn3r והרחבה לאחר מכן של סורקי אתרים בנוסף לצמיחה בסיסית של פרסום WSM, כפי שמוצג באיור 3. ברור מהמספר הממוצע של הבלוגים שפורסמו ביום מסוים בשבוע, כמו שסוכם באיור 4b, שרוב ה- WSM בנתונים אלה מתפרסמים במהלך השבוע ופחות בסופי השבוע. רוב המאמרים שניתחנו היו בלוגים ברשת (עם הכותרת Spinn3r); המדיה המיינסטרים מהווה 20% מהנתונים והסוגים הנותרים כוללים פורומים ומודעות מסווגות (ראה איור 4 א). בניתוח המדווח כאן אנו בוחרים פריטי WSM בשפה האנגלית שלהם חושב אינדקס על ידי Spinn3r, כאשר קיימת התאמה לקסיקלית למונחים של שפעת בכל מקום שבתוכן שלו (שגיאות באיות ושמות נרדפים אינם נחשבים). פריטי הבלוג מקובצים לפי חודש, שבוע (יום ראשון עד שבת), ויום בשבוע. פריטי הבלוג שנבחרו והמכילים מילות מפתח של שפעת מכונים פוסטים עם תוכן שפעת או פוסטים (FC flu-content). חסרים בנתונים שלנו ההתפתחויות האחרונות של WSM כמו מיקרו-בלוגים, וויקים (wikis) וקהילות ברשת שהרבה פעמים הן מגודרות ולא צמודות לאינדקס בסריקות אינטרנט רדודות. חישוב אינדקס, ניתוח ומיצוי קישורים נכתב ב- Python, באמצעות pyMPI ו- openMPI והוצא לפועל באשכול שמונה צמתים (מעבדי Quad Core Xeon של 2.66 ג’יגה הרץ), עם 64 ליבות, 256 ג’יגה-בייט, 30 TB אחסון ברשת [9 , 10]. משאב חישוב זה נמצא במרכז אוניברסיטת צפון טקסס לאפידמיולוגיה חישובית ולניתוח תגובה.
איור 4. (a) סוגי פרסומים ברשת ומדיה חברתית (%) מתוך 158,497,700 פריטים שפורסמו במשך 24 שבועות. (ב) ליום בבלוגים שבועיים, פורומים, מדיה מיינסטרים ופריטים אחרים בממוצע במשך 24 שבועות, 5 באוקטובר 2008 עד 21 במרץ 2009.
2.2. ניתוח
2.2.1. כריית טקסטים למעקב אחר מגמות שפעת.
כריית טקסטים היא תהליך גילוי מידע באוספי טקסטים גדולים וזיהוי אוטומטי של דפוסים ומערכות יחסים מעניינים בנתונים טקסטואליים [11]. כריית טקסטים קשורה במיוחד לכריית נתונים, אזור מחקר ותיק המתמקד במיצוי מידע משמעותי מרשומות נתונים. עם זאת, כריית טקסטים הוכחה כקשה יותר מכריית נתונים, שכן נתוני המקור מורכבים מאוספי מסמכים לא מובנים ולא ממאגרי נתונים מובנים. מספר גדול של יישומים משתמשים כעת בכריית טקסטים, כולל יישומי תשובה לשאלות, בנייה אוטומטית של מסדי נתונים על רישומי משרות ובניית מילון. Feldman and Sanger [12] פרסמו לאחרונה סקר מעמיק על עבודות מחקר בתחום כריית טקסטים.
ניתן לעקוב אחר מגמות פריטי WSM בשפעת באמצעות מתודולוגיית הכרייה של המדיה החברתית המוצגת במאמר זה. מתודולוגיה זו מאפשרת זיהוי התפרצויות ועליות של זיהום/שפעת באוכלוסייה. אנו חושבים שקיים מתאם גבוה בין תדירות הודעות ה- FC בשבוע, לבין נתוני מעקב CDI ILI. הערכה איכותנית של תגי קטגוריות, שכיחות פוסטים ב- FC באתר בלוג, ופרסום מתמשך של פוסטים הקשורים לשפעת, מעידים גם על מגמות של ILI.
אנו משערים כי קיים מתאם בין תדירות פרסומי שפעת בבלוגים בעולם לבין דיווחי חולים עם מחלת ILI ועונת השפעת בארה”ב. כדי לאמת השערה זו, אנו משווים את הנתונים שלנו לדיווחי מעקב CDC מספקי שירותי בריאות. אתר ה- CDC מציין כי רשת המעקב אחר מחלות דומות לשפעת חוץ אשפוזית (ILINet) מורכבת מכ -2,400 נותני שירותי בריאות ב -50 מדינות (בארה”ב) המדווחות על כ -16 מיליון ביקורי חולים בכל שנה. כל ספק מדווח ל- CDC על המספר הכולל של החולים שנראו ומספר החולים עם ILI לפי קבוצת גיל. עבור מערכת זו, ILI מוגדר כחום (טמפרטורה של 100 מעלות F (37.8 מעלות צלזיוס ומעלה) ושעול ו / או כאב גרון בהיעדר גורם ידוע שאינו שפעת [13].
2.2.2. כריית מבנים מבוססת גרפים כדי לגלות קהילות שפעת בבלוג ולאתר חריגות.
לקהילות WSM יהיה תפקיד חיוני בכל תגובה של בריאות הציבור להתפרצות. בלוגרים בעלי השפעה יכולים להפיץ ולתווך אסטרטגיות והתערבויות בתגובות בקהילות הבלוגרים שלהם. בלוגרים אלו יכולים להיות המגיבים הראשונים להתפרצות מחלה, במובן המידע. הקוראים שלהם יפעילו (נקווה) מפל מידע, שיפיץ תקשורת בנושא בריאות הציבור (כלומר, חיסון, הסגר, סגירת בתי ספר וכו ‘). על אף שזה פחות יקר משמעותית ממסע פרסום תקשורתי במיינסטרים, תגובה ממוקדת של WSM צריכה להיות יעילה וחסכונית בכדי להשיג חדירת אסטרטגיה מקסימאלית. כל בלוגר המשתתף בקמפיין לבריאות הציבור צריך להשפיע על הקהילה שלו ועל היכולת להפיץ מידע ל- WSM אחר. מדדי סמיכות ומרכזיות ומידת התאמה PageRank של Google (מרכזיות ווקטור עצמי) ידרגו אתרי בלוגים בנושאי שפעת על מנת למקד משתתפים עיקריים. בנוסף, האלגוריתם של מציאת קהילה של Girvan-Newman יאתר קהילות רלוונטיות.
יתר על כן, ניתן לשכלל אלגוריתמים מבוססי גרף לא רק כדי לזהות קהילות אלא גם כדי להקל על איתור אירועים ביולוגיים על ידי חיפוש אחר חריגות במבנה הקישורים של WSM. פותחו מספר גישות לגילוי מושגים במאגרי מידע לינאריים של ערכי תכונות. כעת מחקר כריית נתונים מתמקד בעיקר באלגוריתמים לגילוי קבוצות של תכונות שיכולות להפלות ישויות נתונים בקטגוריות, כמו קניות או מגמות בנקאיות לקבוצה דמוגרפית מסוימת. גישות אלה קשות כאשר מושגי מפתח כוללים קשרים בין נקודות הנתונים. לעומת זאת, אנו מפתחים טכניקות לכריית נתונים כדי לגלות דפוסים המורכבים מקשרים מורכבים בין ישויות. הצגנו שיטה לגילוי מבנים במאגרי מידע מבניים המיושמים במערכת Subdue [14]. בניגוד לגישות אלטרנטיביות, Subdue מיועד לגילוי אוטומטי ולשימוש כללי, ללמידת מושגים, ובניית אשכול היררכי. מכאן שניתן ליישם את השיטה בתחומים מבניים רבים. Subdue מנוצל בניתוח שלנו כדי לזהות דפוסים לא ברורים בפוסטים בבלוגים שעשויים לשמש אינדיקטורים עם פיגור להתפרצות שפעת.
2.2.3. בעיות פוטנציאליות וסיכונים נלווים
ישנם סיכונים הקשורים בשימוש במסמכי קוד פתוח המתקבלים באמצעות WSM בעיקר בגלל הטית מדגם בגלל גישה מוגבלת לטכנולוגיה ואמיתות הצהרות הבלוגר. אנשים שיכולים להרשות לעצמם גישה ביתית למחשבים ולאינטרנט הם בדרך כלל משכילים [15,16]. עם זאת, השכיחות של גישה לאינטרנט אלחוטי במקומות ציבוריים כמו ספריות, מסעדות ובתי קפה מאפשרת למשתמשים ממגוון רמות חברתיות וחינוכיות לעסוק ב- WSM ולתרום לו. שנית, לא ידוע אמינות של אבחנות בריאות או התנהגויות מדווחות עצמית כמו הסגר מרצון (שהייה בבית כשהוא חולה), חיסון והגיינה מוגברת. מצב זה מעלה דאגות וחוסר וודאות בשאלה אם חשיפות עצמית אלו משקפות התנהגות מיועדת, כוזבת או ממשית (אבחנות). מחקרים קודמים בנושא התנהגויות מדווחות עצמית דרך האינטרנט הראו כי השימוש במחשבים מעודד רמות גבוהות של גילוי עצמי וביטוי אישי ללא מעצורים. ממצא זה תומך בתוקף הדיווח העצמי באינטרנט; עם זאת, יש צורך במחקר פורמלי בכדי לאמת את הדיוק של אבחנות והתנהגויות המדווחות באופן עצמאי ב- WSM.
נתוני מעקב ה- CDC ILINet ונתוני ה- FC פוסט לנתונים שבועיים משורטטים באיור. תסמיני CDC ILI בכל ביקור אצל ספקי הבריאות בארה”ב מסומנים בציר ה- Y הראשוני. בציר ה- Y המשני מסומנת תדירות ה- FC פוסט לשבוע, מנורמל על ידי המספר הכולל של הודעות במהלך 24 השבועות. המתאם בין שתי סדרות הנתונים נמדד בעזרת מקדם מתאם של פירסון, r. כדי להוכיח את ההשערה שלנו כי קיים קשר בין דיווחי CDC ILINet לבין תדירות ה- WSM FC הנסקר, חישבנו נתוני המתאם של פירסון בין שתי סדרות הנתונים. המדד של פירסון שווה ל-1 אם שתי סדרות הנתונים מתאימות בדיוק אחת לשניה, r = 1. אם לא קיים מתאם בין סדרות הנתונים, המדד של פירסון שווה ל- 0, r = 0. בניתוח שלנו, 24 נקודות הנתונים של ILI ו- FC פוסט מתואמות חזק, עם מדד פירסון גבוה, r = 0.545, והמתאם הוא מובהק ברמת הסמך של 95%. נציין את הסטייה בסדרה עתית ב- 1 בפברואר עד 21 במרץ 2009. לאחר בדיקה מדוקדקת של הנתונים שנמסרו על ידי Spinn3r, זיהינו עלייה משמעותית בסיקור הבלוגים כתוצאה מהצלחת השירות שלהם וההתרחבות לאחר מכן של סורקי רשת, ובכך הטה את הנורמליזציה של נוכחות בבלוג השפעת. יתר על כן, כריית נתונים על בסיס גרפים גילה נוכחות משמעותית של בלוגים של MySpace בשלושת השבועות האחרונים של הנתונים. בדקנו ידנית את הבלוגים וגילינו שרבים מהבלוגים של MySpace דנו בבריאותם שלמתמודדי American Idol, שחלקם חלו בשפעת.
איור 5. תדירות CDC ILINet לעומת פוסט בלוג מנורמל (עם מילות מפתח שפעת) בשבוע. 5 באוקטובר 2008 עד 21 במרץ 2009.
לכל פריט WSM יש מטא נתונים עשירים שניתן למנף לניתוח תוכן. folksonomy מוגדרת מ- WSM על ידי “תגים” המשויכים למחברים מתוך מטא נתונים של הקטגוריות. יתר על כן, folksonomy הוא סוג של מערכת סיווג לתוכן מקוון, שנוצר על ידי משתמש בודד המתייג מידע עם מילות מפתח שנבחרו באופן חופשי. האלגוריתם stemmed של Porter [17] משמש למציאת השורש המורפולוגי מהתוויות מתויגות למחבר. תוויות כפולות מתויגות למחבר נספרות רק פעם אחת לכל בלוגר. טבלה 1 מפרטת את 45 הקטגוריות המובילות ותדירות הופעתן. איור 6 הוא גרפיקה של ענן תגים, הנקרא Wordle (ראה www.wordle.net), המתארת חזותית את תדירות הקטגוריות בנתונים. הקטגוריות העיקריות (למשל שפעת, בריאות, עופות) הם אינטואיטיביים; עם זאת, ניתן לפקח על קטגוריות המרמזות על זיהום עצמי או על מושגים קרובים כגון משפחה, חולה, סימפטום, בית, בית ספר, ותנאים ייצוגיים אחרים.
איור 6. Wordleקטגוריות התיוג התדירות ביותר של המחברים (stemmed). [פוסטים של שפעת: 5 באוקטובר 2008 עד 21 במרץ 2009].
מעקב אחר זיהוי עצמי ומגמות פוסטיםFC מפורסמים מחדש יכולות לסמן עליות ב- ILI. ניתן לומר כי בלוגרים שמפרסמים לעיתים קרובות על שפעת נוטים יותר להיות א) סמכות לשפעת (אולי לא מומחה, עם זאת), שם קוראיו מוצאים מידע על שפעת או ב) הבלוגר חולה שפעת לעתים קרובות. באיזו תדירות או עד כמה באופן קבוע כותבים הבלוגים פרסומי FC גם מצביע על מגמות; אתר בלוג שיש בו פוסטים ב- FC לזמן מוגבל עשוי להיות זיהוי של ILI ממקור ראשון או שני. התפלגות מצטברת של ההסתברות של כמה פוסטים שבלוגר כותב על שפעת מסוכמת באופן גרפי באיור 7. מספר הפוסטים עם מילות מפתח שפעת לכל בלוגר מסומן על ציר ה- X וההסתברות לכך שבלוגר יפרסם את מספר ה- X של הודעות שפעת מסומנת על ציר ה- Y; הנתונים מסומנים בסולם לוג-לוג. אנו רואים שמעל 95% מהבלוגרים מפרסמים רק פוסט “שפעת” אחד, ואילו הבלוגר הנפוץ ביותר בשפעת חיבר 1,897 פוסטים. ההסתברות שבלוגר יפרסם 1,897 הודעות שפעת היא בערך 0.0000388%. ההסתברות עם זנב עבה מעידה על תהליכים חברתיים (למשל, מספר שותפים אינטימיים [18]) והיא נוכחת בהתפלגות הפצת הודעות שפעת לבלוגר. התפלגות ההסתברות המצטברת תומכת גם בהשערה שרוב הבלוגרים לא כותבים תוכן עם שפעת לעתים קרובות. ניתוח תוכן התומך בטענה כי המפרסמים פחות מזהים ILI בעצמם, נותר לעבודה עתידית.
טבלה 1. הקטגוריות הנפוצות ביותר עם פוסטים שפעת מתויגים למחבר (stemmed) [הודעות שפעת: 5 באוקטובר 2008 עד 21 במרץ 2009].
כדי ללמוד את המבנה המבוסס על קישורים של בלוגרים המחברים תוכן הקשור לשפעת, אנו מחלצים את כתובות האתר המקושרות בכל פוסט בבלוג. כתובות URL ופרמלינקים של בלוגים (829,662 כתובות URL) מקוצצות למיקום ולנתיב הרשת וכתוצאה מכך 694,388 כתובות URL ייחודיות. לאחר מכן נבנה גרף קישור מכתובת האתר המקורית של הבלוגר וקישורים חוץ מפוסטים על השפעת, תוך הסרת הפניות עצמיות וקישורי חוץ מקבילים והרכיב החלש הגדול ביותר המפיק גרף מצטבר של 694,388 קודקודים (בלוגרים) ו -3,529,362 צלעות מכוונים (בלוגר ייחודי לקישורי בלוגר).
איור 7. התפלגות הסתברות מצטברת של מספר הודעות השפעת, לכל בלוגר, 5 באוקטובר 2008 עד 21 במרץ, 2009.
טבלה 2 מפרטת את שבעת בלוגרים של שפעת הפוריים ביותר ואת התואר שלהם (In, Out ו- Total). התואר In הנמוך יחסית תומך בטענה כי פוסטרים תכופים הם בעלי חדשות ודעות ולא תמיד המשפיעים ביותר על קהילות מקוונות. מדדי מרכזיות מוערכים על אותם בלוגרים תכופים. התוצאות מפורטות בטבלה 3. לשלושה מהפוסטרים המובילים אין קישורים In, שמשמעותם שהם בלוגים של זבל ואין להם שום השפעה בבלוגוספרה “שפעת”. אנו מאמתים הצהרה זו באמצעות בדיקה מהירה של כתובת האתר. לעדכון ה- RSS BirdFluMonitor יש מרכזיות וסמיכות Out הגבוהה ביותר, אך אין תואר In, ומשמע שהם מוכשרים לפרסם קישורים לבלוגים פופולריים אך אינם משפיעים בעצמם. שלושה בלוגים (h5n1, יומן שפעת, fluwikie2) הם רכזות מעניינות של בלוגוספרת השפעת. לבלוג ” A Flu Diary” יש את המרכזיות הגדולה ביותר בין היחידות (השפעה בין אישית) עם תואר In ו- Out גבוה, והוא מדגים את היכולת לתווך מידע משפיע בבלוגוספרה של היעד. לבלוג h5n1 יש מרכזיות הדף והקרבה הגדולה ביותר; יתר על כן, יש לו את הפריטים שפורסמו ביותר של הבלוגרים השכיחים ביותר ומשפיעים על הפצת המידע ב- h5n1.
טבלה 2. תואר ותדירות של בלוגרים של פוסטים על שפעת בתדירות הגבוהה ביותר, 5 באוקטובר 2008 עד 21 במרץ 2009.
תואר
הכל לחוץ פנימה URL של בלוגר מספר
טבלה 3. סמיכות, סמיכות ביחידות ומרכזיות ווקטור עצמי של הבלוגרים הנפוצים ביותר בשפעת, 5 באוקטובר 2008 עד 21 במרץ 2009.
השימוש בבלוגרים של שפעת הנפוצים ביותר הוא גישה נאיבית למציאת קהילות יעד של WSM שאותן אפשר למנף לתגובה של בריאות הציבור. כדי לקדם את הגישה שלנו, אנו מכוונים לרכיבים המחוברים חזק בתוך זיהוי גרפי של קהילה עם קישור לשפעת (ההגדרה Flake, Lawrence ו- Gilles של הקהילה [19,20]). המרכיב הגדול ביותר של גרף הקישור המחובר היטב הוא מעל 17,000 כתובות אתרים ייחודיות. עם זאת, הקודקודים שלו הם בלוגרים של דואר זבל; באופן ספציפי, כולם היו בלוגים של LiveJournal, ולכל פוסט היו שמונה קישורים חיצוניים בדיוק. האחידות והבדיקה הידנית של אלה כבלוגים של דואר זבל מראים שהם נכתבו לצורך אופטימיזציה למנועי חיפוש. לכן אנו מקבצים את הרכיב השני בגודלו המחובר חזק מאוד, המורכב מ -2,306 בלוגים, 26,768 צלעות, ועם דרגה ממוצעת של 23. האלגוריתם של מציאת קהילות של Girvan-Newman (מסיר את הקודקוד באופן רקורסיבי עם המרכזיות betweenness הגבוהה ביותר) מזהה 11 קהילות.
טבלה 4. שש קהילות התוכן הגדולות של שפעת וקהילות מדיה חברתית שהתגלו על ידי האלגוריתם Girvan-Newman של מציאת קהילה.
טבלה 4 (המשך).
טבלה 4 מדווחת על מרכזים וגודל של שש הקהילות הגדולות ביותר. ממצא מעניין הוא שקהילות אלה מקובצות לא רק על ידי סוגים של מפרסמים אלא גם על ידי חברת אם. באופן לא מפתיע, הקהילה הגדולה ביותר כוללת בלוגים אישיים ושל עיתונים כלליים; השאר כוללים כלי חדשות מרכזיים ומקומיים, תקשורת לקהל בינלאומי, LiveJournal ותעשיית הבידור (למשל, Viacom, Reed), תאגידי חדשות גדולים (למשל, News Corp, Disney), ותכני פרשנות, דעה ועריכה. לקמפיין מוצלח של WSM לבריאות הציבור צריך להיות נוכחות והשפעה בכל אחת מקהילות הבלוגים המדווחות על מנת להבטיח סיקור נרחב והפצת מידע רלוונטי.
איור 8. דוגמה לייצוג גרף בלוגרים של שפעת המשמשים לגילוי חריגות על ידי Subdue.
איתור חריגות במערכות נתונים שונות הוא מאמץ חשוב. אנו מגדירים חריגה/אנומליה כהתרחשות מפתיעה או חריגה. השימוש בגישות סטטיסטיות הביא להצלחות שונות כמו איתור חדירות למחשבים ולרשת. מחקרים עדכניים בגילוי אנומליות מבוססות גרפים סללו את הדרך לגישות חדשות שלא רק משלימות את שיטות הלא מבוססות על גרפים אלא גם מספקות מנגנונים לטיפול בנתונים שלא ניתן לנתח אותם בקלות באמצעות גישות סטטיסטיות מסורתיות [21]. שוב, ניתן להשתמש ב- Subdue כדי להתמודד עם אתגר זה. Subdue בוחן גרף שלם ומדווח על מבנים חריגים, או מבנים המתרחשים לעיתים רחוקות, בתוכו [14]. Subdue גם לוקח בחשבון את סדירות הנתונים בכדי לקבוע עד כמה סביר להתרחש לתת-מבנה בהינתן החיזוי של הנתונים המבניים המקיפים את תת-המבנה. רעיונות אלה נבדקו ביישומים הכוללים איתור חדירות וניתוח פעילויות טרור.
כדי להקל על זיהוי ה- ILI באמצעות כריית נתונים מבוססת גרפים של בלוגי שפעת, אנו מבססים את הייצוג על גרף הקישורים. מספר פוסטים של אותו מחבר מצטברים ומייצגים בלוגר ייחודי; באופן דומה, תגיות מרובות ויציאות וקישורים out and in נספרות רק פעם אחת לכל בלוגר. כדי להעשיר את מבנה גרף הקישורים אנו מחברים את כתובת האתר והבלוגים של הבלוגר לקודקוד המתויג על ידי סוג המפרסם (למשל, בלוג, פורום, מדיה מיינסטרימית, קישור חיצוני) כפי שמתואר באיור 8. מבני הגרף נוצרים מפוסטים בבלוג שפעת להקל על איתור חריגות ומתאם לדוחות המטופלים ב- CDC ILI. איור 8 מדגים כיצד כתובות אתרים נפרדות ממאמר WSM שלהם, ובכך נוצר קשר בין שתי ישויות (המאמר WSM וכתובת האתר). זה מאפשר ל- Subdue למצוא תת-גרפים אינפורמטיביים של בלוגים עם תוכן שונה (חדשות, בלוגים אישיים) בנוסף למבני כתובות אתרים מסורתיים. הנתונים המועשרים במבנה שלהם והתבנית הזמנית מאפשרים איתור חריגות על ידי Subdue (זאת בניגוד לגרף הקישור המצטבר של 24 שבועות המשמש לזיהוי הקהילה).
טבלה 5. כריית נתונים מבוססת על גרף באמצעות Subdue לאיתור חריגות מבניות המאפשרות זיהוי מחלות דמויות שפעת.
טבלה 5 מפרטת את מאפייני התת-מבנה שהתגלו על ידי Subdue, ומזהה אם הם תואמים אנומליה לצורך גילוי פריצה. לאחר מכן אנליסט יכול לבדוק את התת-מבנים המדווחים למידע על הפריצה. התגלית הראשונה המעניינת היא במהלך השבוע שהתחיל 7 בדצמבר 2008 בזיהוי אתר Yahoo Answers הבריטי. באותה תקופה, בריטניה הייתה בעיצומה של עונת השפעת הגרועה ביותר שלה בשמונה שנים. אף שהמתאם בין תדירות שפעת לנתוני CDC ILINet לא צלח בפברואר ומרץ 2009, Subdue מסוגל לזהות מבנים חדשים בבלוגים אישיים שמזכירים שפעת. האנומליה השלישית שגילה Subdue מציגה מספר רב של תת-מבנים, המורכבים מפוסטים בבלוג של MySpace שדנו בכמה מתמודדי American Idol שחלו בשפעת ולא הצליחו להופיע במיטבם במהלך תחרות ההופעות השבועית.
4. שיטות וחומרים
Wasserman and Faust טוענים כי סמיכות יכולה להיות פרודוקטיבית בהעברת מידע לשחקנים אחרים. זה מוגדר במשוואה 1 כנתיבים ממוצעים הקצרים ביותר או מרחק גיאודזי מהשחקן v וכל השחקנים הניתנים להשגה (t ב- V v) ב- [22]:
מרכזיות של סמיכות (משווה 2) מודדת השפעה בין אישית. באופן ספציפי, בלוג הוא מרכזי אם הוא שוכן בין בלוגים אחרים בגיאודזיה שלהם – הבלוג הוא “בין” רבים אחרים, כאשר gjk הוא מספר הגיאודזיות המקשרות בין בלוג j לבלוג k [22]:
דירוג עמוד הוא דוגמה למרכזיות של הווקטור העצמי ומודד את החשיבות של קודקוד על ידי הנחה שקישורים מקודקודים מרכזיים יותר תורמים יותר לדירוגו מאשר קודקודים פחות מרכזיים [23]. יהי d גורם דעיכה (בדרך כלל 0.85), n יהיה האינדקס לקודקוד המעניין אותנו, pn יהיה הקודקוד, יהיה M (pi) מערכת קודקודים המקשרים ל- pn, ו- L (pj) יהיו מספר קישורי חוץ בעמוד pj:
אנו מקבלים הגדרה אינטואיטיבית ופשוטה של קהילת WSM ומזהים בלוגרים היכולים להגיב ראשונים, באמצעות ניתוח קישורים. דירוג הבלוגים משפר את הרעיון שקהילות אלו יכולות להפיץ מידע כחלק מתגובה רחבה יותר של בריאות הציבור שגורמת חריגות במעקב ILINet ו- WSM. הקהילה כאן מוגדרת בדומה ל- Flake, Lawrence, and Giles כאשר ישנם יותר צלעות בין קודקודים של חברים מאשר צלעות לקודקודים חיצוניים. באופן פורמלי, קהילה היא תת-קודקוד C ב- V, כך שלכל הקודקודים יש לפחות כמה צלעות המתחברים לקודקודים ב- C כמו שזה מתחבר לקודקודים ב (V-C) [19,20]. קישורים מפוסט שאינו FC לפוסט FC ולהפך אינם מוגדרים בהגדרת קהילה זו. האלגוריתם של Girvan-Newman משמש לזיהוי קהילות בנתונים שלנו. הצורה הכללית של אלגוריתם מציאת מבנה של קהילה מצויינת למטה, המרכיבים שנותרו בתרשים בסוף כל איטרציה הם הקהילות [24]:
1. חשב את ציוני הסמיכות בין כל הצלעות ברשת.
2. מצא את הצלע עם הציון הגבוה ביותר והסר אותו מהרשת. אם שני צלעות או יותר קשורים לציון הגבוה ביותר, בחר באחד מהם באקראי והסר את הצלע הזה.
3. חשב מחדש של הסמיכות בין כל הצלעות שנותרו.
4. חזור משלב 2 עד שתגיע למספר הרצוי (אם ידוע מראש) של קהילות, אחרת חזור משלב 2 עד שלא יישארו צלעות.
Subdue מקבל גרפים מכוונים או לא מכוונים כקלט עם קודקודים מסומנים וצלעות (קישורים), גרפים פלט המייצגים את התבנית שהתגלתה או המושג שנלמד. באופן פורמלי, Subdue משתמש בתרשים שכותרתו G = (V, E, L) ככניסה וגם כמוצא, כאשר V = {v1, v2, …, vn} הוא קבוצת קודקודים, היא קבוצת צלעות, ו- L היא קבוצת תוויות שיכולות להופיע בקודקודים ובצלעות. הגרף G יכול להכיל צלעות מכוונים, צלעות לא מכוונים, צלעות עצמיים ורב-צלעות. כאלגוריתם ללא פיקוח, Subdue מחפש תת-מבנה, או תת-גרף של גרף הקלט, המדחס בצורה הטובה ביותר את גרף הקלט. Subdue משתמש בגרסה של חיפוש קרן עבור אלגוריתם החיפוש הראשי שלו. תת-מבנה ב- Subdue מורכב מהגדרת תת-גרף וכל התרחשויות לאורך הגרף.
Subdue משתמש בחיפוש קרן עם זמן פולינומי באלגוריתם הגילוי שלו, כפי שהוא מסוכם באיור 9. המצב הראשוני של החיפוש הוא קבוצת התת-מבנים המורכבים מכל הקודקודים המסומנים באופן ייחודי. החיפוש מתקדם על ידי הפעלת הפקודה ExtendSubstructure על כל תת מבנה במצב השוטף. כפי ששמו מרמז, הוא מרחיב תת-מבנה בכל הדרכים האפשריות על ידי צלע בודד וקודקוד או רק על ידי צלע בודד אם שני הקודקודים כבר נמצאים בתת-גרף. התת-מבנים החדשים המתקבלים מסודרים על פי הדחיסה שלהן (לעיתים מכונה ערך) כפי שמחושבות באמצעות עקרון אורך התיאור המינימלי (MDL Minimum Description Length) [21] המתואר להלן, והתת-מבנים העליונים (כפי שנקבעו על ידי הקרן) נשארים בתור עבור הרחבה נוספת.
החיפוש מסתיים בהגעה למגבלה על מספר תת-מבנים מורחבים או עם מיצוי שטח החיפוש. ברגע שהחיפוש יסתיים ו- Subdue מחזיר את רשימת המבנים הטובים ביותר, ניתן לדחוס את הגרף באמצעות התת-מבנה הטוב ביותר. נוהל הדחיסה מחליף את כל המופעים של תת-המבנה בגרף הקלט על ידי קודקודים יחידים, המייצגים את הגדרת תת-המבנה. צלעות נכנסים ויוצאים למקומות שהוחלפו ומהם יצביעו על יציאה או כניסה לקודקוד החדש שמייצג את המקרה הספציפי. ניתן להפעיל שוב את האלגוריתם של Subdue בגרף דחוס זה. כדוגמה איור 9 מציג תבניות ש- Subdue מגלה בגרף קלט לדוגמה ובגרסה דחוסה של הגרף.
איור 9. אלגוריתם הגילוי של Subdue ודוגמא. התרשים מציג את התבנית שהתגלתה (S1) מהגרף המקורי, את המבנה שנמצא במהלך האיטרציה השנייה (S2) ואת הגרף הסופי שנדחס באמצעות תת-מבנים S1 ו- S2.
4. עבודה בעתיד
מחלות זיהומיות מתפתחות ממשיכות להשפיע על בריאות, בטיחות וצמיחה בר-קיימא של מדינתנו, כפי שמוצג על ידי זן השפעת A / H1N1 המופיע משנת 2009. לאחר זיהוי ראשוני של התפרצויות H1N1 נפוצות באפריל 2009, השתתף ה- CDC במאמץ מתואם עולמי לפיקוח על העברת שפעת A / H1N1 ומניעת התפרצויות מגיפה על ידי מתן המלצות לבריאות הציבור. עבודה עתידית תכמת את ההשפעה ותאמת את השימוש ב- WSM לפיקוח על מגפות שפעת עונתיות ומגפות עולמיות. בטבלה 6 מדווחים באופן מקדים על בלוגים על שפעת במהלך מגפה זו, לא כולל אזכורים בפלטפורמות מיקרו-בלוגים (Twitter). תיוג מיקום גיאוגרפי מיושם כעת בפלטפורמות בלוג, רשת חברתית ומיקרו-בלוגים, ומחקר עתידי ימנף נתונים חדשים אלה במערכת המעקב הביולוגית WSM מהדור הבא; עם זאת, מידע על מיקום גיאוגרפי לא היה זמין בניתוחים שדווחו כאן. המחקר נמשך גם בבלוגים של בריאות וגם במיקרו-בלוגים בתחום הבריאות כדי ליידע מערכת פיקוח על מחלות נפוצות באמצעות מסמכי קוד פתוח.
טבלה 6. מאמרים חדשים על שפעת H1N1 / A שפורסמו כל שבוע בשנת 2009.
לאחר חילוץ פריטי WSM על שפעת, ניתן לעקוב אחר התפרצויות שפעת על ידי הערכת נקודת המבט של מחברי הבלוגים. בלוגרים בעלי ידע ישיר על זיהום שפעת הם בעלי ערך רב יותר למעקב אחר מחלות מאשר אלה המחברים מאמר אובייקטיבי או דעה של המחבר. זיהוי הפרספקטיבה של פוסטים במילות מפתח בשפעת, מאפשר לקבוע את תרומתה למעקב אחר מחלות. שלוש פרספקטיבות של המחברים מזוהות באיור 10. פוסט ב- FC יכול להיות (1) זיהוי עצמי של תסמיני ILI, (2) פוסט יד שנייה (או באמצעות פרוקסי) על אדם אחר שיש לו ILI, או (3) דעה או מאמר אובייקטיבי המכיל מילות מפתח של ILI. ידע יד שנייה יכול להיות כתיבה על חבר, בן כיתה, בן משפחה או חבר לעבודה, אך בלוגר יכול גם לפרסם פרטים על אדם מפורסם כמו ספורטאי. פתיחת העונה של הכדורגל האמריקאי עולה בקנה אחד עם הנתונים, ורבים מהפוסטים ב- FC מזהים ספורטאים שאינם מסוגלים לשחק בגלל ILI. הסיווג האוטומטי של פרספקטיבה של מחבר הכותב על השפעת הוא מחקר מתמשך.
איור 10. שלושה פוסטים בבלוג עם פרספקטיבה שמזכירים שפעת: זיהוי עצמי, יד שנייה ואובייקטיבית / דעה של המחבר.
6. מסקנות
כריית נתונים וטקסטים מבניים של WSM מספקת משאב וטכניקה חדשניים למעקב אחר מחלות לזיהוי קהילות מידע בנושא בריאות ושפעת מקוונות. המסגרת המוצעת שלנו של שיטות כריית נתונים משלימות תומכת בהשערה שלנו. אנו מעריכים באופן מקיף פוסטים בבלוגים המכילים מילות מפתח לשפעת באמצעות טקסט, קישור וכריית נתונים מבניים. תוצאות הניתוח מראות התרחשות משותפת חזקה של פוסטים בבלוג שפעת במהלך עונת השפעת בארה”ב 2008-2009. כלומר, מה -5 באוקטובר 2008 עד 21 במרץ 2009, קיים מתאם גבוה בין תדירות הפוסטים, המכילים מילות מפתח על שפעת, לשבוע, לבין נתוני מעקב CDI ILI. התדירות של פוסטים בשפעת לכל בלוגר היא לפי הסתברות עם זנב עבה, ואנחנו מראים באמצעות מדדי גרפים כי הבלוגרים הפוריים ביותר אינם המשפיעים ביותר. למידע בריאותי רלוונטי צריך להיות נוכחות בכל קהילות ה- WSM המזוהות. האלגוריתם של Girvan-Newman ממונף כדי לזהות אשכולות של אתרים דומים כקהילות יעד פוטנציאליות עבור קמפיינים מקוונים למידע בנושא בריאות. התוצאות מראות קהילות WSM מובחנות המקובצות לפי מפרסמים וסוג תוכן, כגון נכסי News Corp & Disney, קהלים בינלאומיים, או בלוגים אישיים.
סיקור WSM הוא אתגר מתמשך עם הגידול הנפיץ של השימוש באינטרנט. כדי להשלים את גישת כריית הטקסטים למעקב אחר ILI, אנו מיישמים טכניקת כריית נתונים מבוססת גרף, Subdue, כדי לאתר חריגות ותת-מבנים אינפורמטיביים בין בלוגים של שפעת המחוברים לפי סוג מפרסם, קישורים ותגי משתמש. טכניקה זו מסמנת חריגות שלא התגלו באמצעות ניתוח תוכן התואם את עונת השפעת הגרועה ביותר בבריטניה מזה שמונה שנים והופעתה של תקשורת אישית חזקה בבלוג במהלך שכיחות השיא העונתית בארצות הברית.
ניתוח קישורים חושף קהילות, מקובצות על פי תוכן ובמקרים רבים לפי בעלות על תאגידים, אשר יש לכוון במסע פרסום מצליח של תקשורת בריאות הציבור כדי להבטיח הפצה רחבה של מידע רלוונטי. כריית טקסטים של אזכורי שפעת ב- WSM מוכיחה כי היא מזהה מגמות במודעות שפעת המתאימות לנתוני דיווח חולי ILI בעולם האמיתי. יתר על כן, כריית נתונים מבוססת גרפים מסוגלת לזהות חריגות משמעותיות בבלוגים של שפעת שלא זוהו באמצעות ניתוח טקסטים וניתן לסמן אותם להמשך בדיקה על ידי אנליסט.
הבעת תודה
מקורות
295.00 ₪
295.00 ₪
מוגן בזכויות יוצרים ©2012-2023 אוצר אקדמי – מבית Right4U כל הזכויות שמורות.