Name: כריית טקסט ונתונים מבניים של אזכורי שפעת ברשתות ובמדיה החברתית Text and Structural Data Mining of Influenza Mentions in Web and Social Media • אוצר אקדמי
SKU: 0bde5b209a03
Price: 295.00 ILS
Availability: InStock

כריית טקסט ונתונים מבניים של אזכורי שפעת ברשתות ובמדיה החברתית

תקציר: כריית נתונים ומבני נתונים של רשתות ומדיה חברתית (Web and Social Media – WSM) מספקת משאב חדש של מעקב מחלות ויכולה לזהות קהילות מקוונות המיועדות לתקשורת ממוקדת בנושא בריאות הציבור (Public Health Communications – PHC), כדי להבטיח הפצה רחבה של מידע רלוונטי. WSM שמזכירים שפעת נסקרו לתקופה בת 24 שבועות, מ- 5 באוקטובר 2008 עד 21 במרץ, 2009. ניתוח קישורים חושף קהילות המיועדות ל- PHC. כריית טקסטים מציגה זיהוי מגמות במודעות שפעת המתאימות לנתוני דיווח על חולי דלקת שפעת וכשפעת בעולם האמת. אנו גם מביאים טכניקת כריית נתונים מבוססת על גרפים לאיתור חריגות בקרב בלוגים על שפעת המחוברים אחד אל השני לפי סוג מפרסם, קישורים ותגי משתמש.

מילות מפתח: מעקב אחר מחלות; אפידמיולוגיה של בריאות הציבור; אינפורמטיקה של בריאות; כריית נתונים מבוססת על גרפים; רשת ומדיה חברתית; ניתוח רשת חברתית

מבוא

אבחנת שפעת המתבססת אך ורק על הצגת סימפטומים מוגבלת מכיוון שתופעות אלה עשויות להיות קשורות למחלות רבות אחרות. בדיקות סרולוגיות ואנטיגן דורשות כי מטופל עם מחלה דמויית שפעת (ILI – Influenza-Like Illness) ייבדק על ידי רופא שיכול לבצע בדיקת אבחון מהירה או לקחת דגימות דם בבדיקת מעבדה. זה מרמז שמקרים רבים של שפעת נותרו ללא אבחנה. אמנם ניתן לאשר את נוכחות השפעת אצל אדם באמצעות בדיקות אבחנות ספציפיות, אולם לא ידוע שכיחות השפעת באוכלוסייה בכל זמן נתון וניתן רק להעריך אותה. בעבר הערכות כאלה הסתמכו אך ורק על אקסטרפולציה של מקרים מאובחנים, מה שמקשה על זיהוי השלבים השונים של שפעת עונתית או זיהוי של ביטוי חמור יותר של מגיפת שפעת.

רשת ומדיה חברתית (WSM – Web and Social Media) מספקות משאב לגלות עליות ב- ILI. מאמר זה בוחן פוסטים בבלוגים, סוג של WSM, הדנים בשפעת והניתוחים מראים על קשר משמעותי עם דיווחי המטופלים על ILI בעונת השפעת בארה”ב ב- 2008-2009. תוצאות ניסוי ראשוניות על נתונים שנמשכו חודשיים בשנת 2008 פורסמו בקובץ מאמרים של הכנס [1]. במאמר זה אנו מציגים ניתוח מקיף, הכולל 24 חודשי נתונים. אסטרטגיית תגובה מוגדרת היטב להתפרצות עשויה לעשות שימוש ב- WSM כדי להפחית את ההשפעה של המחלה על האוכלוסייה והאנשים. אנו מציעים תגובה אפשרית המזהה קהילות WSM הקשורות לשפעת המפרסמות פוסטים הקשורים לשפעת. מקורות קהילתיים אלה יכולים לתווך ולהפיץ מידע התערבות חשוב במקרה של התפרצות מחלה זיהומית. המסגרת אותה אנו מציעים, באיור 1, מתארת חזותית גישה זו לאיתור מגיפות שפעת והתגובות.

איור 1. מתודולוגיה למעקב אחר מחלות דמויות שפעת במדיה החברתית וזיהוי קהילות אינטרנטיות ומדיה חברתיות שיוכלו להשתתף בתגובה לבריאות הציבור.

אנו דנים בקצרה בהיסטוריה של התפרצויות מחלות זיהומיות וגישות אחרונות במעקב מקוון על שפעת בנושא בריאות הציבור. אנו דנים גם בערך הקהילה החברתית ביחס לתגובות להתפרצות. בשלב הבא מוצג מערך הנתונים המשמש בניתוח שלנו ומבוססת המתודולוגיה לחילוץ מידע וניתוח מגמה. באמצעות גילוי ואימות של מגמות בבלוגים הקשורים לשפעת, אנו מוודאים מתאם בין המרכזים לבקרה ומניעת מחלות (Centers for Disease Control and Prevention CDC) לדיווח פציינטים של ILI על נותני ספקים של שירותי בריאות. בנוסף, קטגוריות, תדירות ותופעות ליווי של שפעת ממושכות מסייעות מבחינה איכותנית בזיהוי מגמות של ILI בבלוגים. הערכת קהילות המחוברות חזק וזיהוי בלוגרים בעלי השפעה צריכים להיות חלק מתגובת WSM. לאחר מכן אנו ממנפים כריית נתונים מבוססת גרפים כדי לזהות עוד יותר חריגות מבניות בבלוגוספירה של שפעת המתאימות לעלייה ב- ILI.

שימוש באינטרנט ומדיה חברתית למעקב ביולוגי

התפשטותם של משאבי האינטרנט והשכיחות שלהם מספקים לאנשים גישה למקורות מידע רבים המאפשרים אבחון עצמי ומספקים אמצעים למעקב ביולוגי בלתי מסורתי; לדוגמה, ניתן לשלב תסמיני מחלה ספציפיים כדי לרשום שאילתות חיפוש. תוצאות שאילתות חיפוש כאלה מובילות לרוב לאתרים שעשויים לסייע באבחון המחלה ומציעים ייעוץ רפואי (למשל PeopleLikeMe.com, WebMD.com). לאחרונה Google ™ התייחסה לנושא זה על ידי לכידת מילות המפתח לשאילתה וזיהוי חיפושים ספציפיים הכוללים מונחי חיפוש המעידים על ILI [2]. מחקר שפורסם בנושא מעקב אחר שפעת באינטרנט כולל גם חיפוש “לחיצה על הפרסום” [3], באמצעות קבוצה של שאילתות חיפוש של Yahoo המכילות את המילים “שפעת” [4], ויומני גישה לאתר בריאות [5,6] . מקורות מידע אחרים, כגון שירותי מיון טלפוני, יכולים להועיל לגילוי ILI. הממצאים ב- Yih et al [7] מראים ששירות מיון טלפוני אינו אמצעי אמין למעקב אחר שפעת עקב כיסוי השירות; עם זאת, יתכן וזה מועיל במצבים מסוימים שבהם אמצעי מעקב אחרים אינם מספקים. אנו חוזים שיופיעו יישומים המשפרים ניתוח אנליטי אוטומטי של מסמכים ממקורות פתוחים למעקב ביולוגי: מערכת כזו עשויה לספק אינדיקטורים המציינים על התפרצות מחלות למערכת המעקב הביולוגי בגבולות ובנמלים בארה”ב (תקשורת אישית עם ד”ר אנדרו פלאמר, מרכזים לבקרת מחלות ומניעה, המרכז הלאומי להכנות, גילוי ובקרה של מחלות זיהומיות, אגף הגירה גלובלית והסגר); יישום שני בפיתוח הוא הפרויקט האחרון שמומן על ידי האיחוד האירופי במערכת רפואית אקולוגית בהתאמה אישית, ואפליקציה שלישית היפותטית עשויה לספק זרימת נתונים במערכות מעקב גלובליות קיימות (כמו ארגוס גלובל באוניברסיטת ג’ורג’טאון) שחייבים להעסיק בלשנים כדי לפקח אירוע ביולוגי.

נתונים ושיטות

2.1. נתונים

Spinn3r [8] הוא שירות אינדקס WSM שמחשב אינדקס בזמן אמת של כל הבלוגים, עם תפוקה של מעל 100,000 בלוגים חדשים לשעה לחישוב אינדקס. ניתן להגיע לפוסטים בבלוג דרך ממשק תכנות יישומי Java (application programming interface API). מטא-נתונים הזמינים עם מערך נתונים זה (ראה איור 2. דוגמה לקידוד XML של פוסט במדיה החברתית שמזכיר שפעת) כולל את הדברים הבאים (אם מדווחים לפי מקור הנתונים): כותרת הבלוג, כתובת הבלוג, כותרת הפוסט, כתובת האתר של הפוסט, תאריך הפירסום (מדויק לשניות), תיאור, תוכן מקודד HTML מלא, תגי נושא שהוגדרו על ידי המחבר, ושפה.

איור 2. דוגמה של קידוד XML של פוסט במדיה החברתית המזכיר שפעת.

איור 3. בלוגים, פורומים, מיינסטרים מדיה ומאמרים אחרים שנאספו באמצעות שידורי Spinn3r RSS/ATOM באוקטובר 2008 עד 21 במרץ 2009.

הנתונים נבחרים מפרק זמן שרירותי של 24 שבועות, החל מה-5 באוקטובר ומסתיים ב- 21 במרץ, 2009. סך של 158,497,700 פריטי WSM נמשכו משידורי RSS ו- ATOM של Spinn3r. זיהינו עלייה משמעותית בכיסוי הבלוגים כתוצאה מהצלחת שירות Spinn3r והרחבה לאחר מכן של סורקי אתרים בנוסף לצמיחה בסיסית של פרסום WSM, כפי שמוצג באיור 3. ברור מהמספר הממוצע של הבלוגים שפורסמו ביום מסוים בשבוע, כמו שסוכם באיור 4b, שרוב ה- WSM בנתונים אלה מתפרסמים במהלך השבוע ופחות בסופי השבוע. רוב המאמרים שניתחנו היו בלוגים ברשת (עם הכותרת Spinn3r); המדיה המיינסטרים מהווה 20% מהנתונים והסוגים הנותרים כוללים פורומים ומודעות מסווגות (ראה איור 4 א). בניתוח המדווח כאן אנו בוחרים פריטי WSM בשפה האנגלית שלהם חושב אינדקס על ידי Spinn3r, כאשר קיימת התאמה לקסיקלית למונחים של שפעת בכל מקום שבתוכן שלו (שגיאות באיות ושמות נרדפים אינם נחשבים). פריטי הבלוג מקובצים לפי חודש, שבוע (יום ראשון עד שבת), ויום בשבוע. פריטי הבלוג שנבחרו והמכילים מילות מפתח של שפעת מכונים פוסטים עם תוכן שפעת או פוסטים (FC flu-content). חסרים בנתונים שלנו ההתפתחויות האחרונות של WSM כמו מיקרו-בלוגים, וויקים (wikis) וקהילות ברשת שהרבה פעמים הן מגודרות ולא צמודות לאינדקס בסריקות אינטרנט רדודות. חישוב אינדקס, ניתוח ומיצוי קישורים נכתב ב- Python, באמצעות pyMPI ו- openMPI והוצא לפועל באשכול שמונה צמתים (מעבדי Quad Core Xeon של 2.66 ג’יגה הרץ), עם 64 ליבות, 256 ג’יגה-בייט, 30 TB אחסון ברשת [9 , 10]. משאב חישוב זה נמצא במרכז אוניברסיטת צפון טקסס לאפידמיולוגיה חישובית ולניתוח תגובה.

איור 4. (a) סוגי פרסומים ברשת ומדיה חברתית (%) מתוך 158,497,700 פריטים שפורסמו במשך 24 שבועות. (ב) ליום בבלוגים שבועיים, פורומים, מדיה מיינסטרים ופריטים אחרים בממוצע במשך 24 שבועות, 5 באוקטובר 2008 עד 21 במרץ 2009.

2.2. ניתוח

2.2.1. כריית טקסטים למעקב אחר מגמות שפעת.

כריית טקסטים היא תהליך גילוי מידע באוספי טקסטים גדולים וזיהוי אוטומטי של דפוסים ומערכות יחסים מעניינים בנתונים טקסטואליים [11]. כריית טקסטים קשורה במיוחד לכריית נתונים, אזור מחקר ותיק המתמקד במיצוי מידע משמעותי מרשומות נתונים. עם זאת, כריית טקסטים הוכחה כקשה יותר מכריית נתונים, שכן נתוני המקור מורכבים מאוספי מסמכים לא מובנים ולא ממאגרי נתונים מובנים. מספר גדול של יישומים משתמשים כעת בכריית טקסטים, כולל יישומי תשובה לשאלות, בנייה אוטומטית של מסדי נתונים על רישומי משרות ובניית מילון. Feldman and Sanger [12] פרסמו לאחרונה סקר מעמיק על עבודות מחקר בתחום כריית טקסטים.

ניתן לעקוב אחר מגמות פריטי WSM בשפעת באמצעות מתודולוגיית הכרייה של המדיה החברתית המוצגת במאמר זה. מתודולוגיה זו מאפשרת זיהוי התפרצויות ועליות של זיהום/שפעת באוכלוסייה. אנו חושבים שקיים מתאם גבוה בין תדירות הודעות ה- FC בשבוע, לבין נתוני מעקב CDI ILI. הערכה איכותנית של תגי קטגוריות, שכיחות פוסטים ב- FC באתר בלוג, ופרסום מתמשך של פוסטים הקשורים לשפעת, מעידים גם על מגמות של ILI.

אנו משערים כי קיים מתאם בין תדירות פרסומי שפעת בבלוגים בעולם לבין דיווחי חולים עם מחלת ILI ועונת השפעת בארה”ב. כדי לאמת השערה זו, אנו משווים את הנתונים שלנו לדיווחי מעקב CDC מספקי שירותי בריאות. אתר ה- CDC מציין כי רשת המעקב אחר מחלות דומות לשפעת חוץ אשפוזית (ILINet) מורכבת מכ -2,400 נותני שירותי בריאות ב -50 מדינות (בארה”ב) המדווחות על כ -16 מיליון ביקורי חולים בכל שנה. כל ספק מדווח ל- CDC על המספר הכולל של החולים שנראו ומספר החולים עם ILI לפי קבוצת גיל. עבור מערכת זו, ILI מוגדר כחום (טמפרטורה של 100 מעלות F (37.8 מעלות צלזיוס ומעלה) ושעול ו / או כאב גרון בהיעדר גורם ידוע שאינו שפעת [13].

2.2.2. כריית מבנים מבוססת גרפים כדי לגלות קהילות שפעת בבלוג ולאתר חריגות.

לקהילות WSM יהיה תפקיד חיוני בכל תגובה של בריאות הציבור להתפרצות. בלוגרים בעלי השפעה יכולים להפיץ ולתווך אסטרטגיות והתערבויות בתגובות בקהילות הבלוגרים שלהם. בלוגרים אלו יכולים להיות המגיבים הראשונים להתפרצות מחלה, במובן המידע. הקוראים שלהם יפעילו (נקווה) מפל מידע, שיפיץ תקשורת בנושא בריאות הציבור (כלומר, חיסון, הסגר, סגירת בתי ספר וכו ‘). על אף שזה פחות יקר משמעותית ממסע פרסום תקשורתי במיינסטרים, תגובה ממוקדת של WSM צריכה להיות יעילה וחסכונית בכדי להשיג חדירת אסטרטגיה מקסימאלית. כל בלוגר המשתתף בקמפיין לבריאות הציבור צריך להשפיע על הקהילה שלו ועל היכולת להפיץ מידע ל- WSM אחר. מדדי סמיכות ומרכזיות ומידת התאמה PageRank של Google (מרכזיות ווקטור עצמי) ידרגו אתרי בלוגים בנושאי שפעת על מנת למקד משתתפים עיקריים. בנוסף, האלגוריתם של מציאת קהילה של Girvan-Newman יאתר קהילות רלוונטיות.

יתר על כן, ניתן לשכלל אלגוריתמים מבוססי גרף לא רק כדי לזהות קהילות אלא גם כדי להקל על איתור אירועים ביולוגיים על ידי חיפוש אחר חריגות במבנה הקישורים של WSM. פותחו מספר גישות לגילוי מושגים במאגרי מידע לינאריים של ערכי תכונות. כעת מחקר כריית נתונים מתמקד בעיקר באלגוריתמים לגילוי קבוצות של תכונות שיכולות להפלות ישויות נתונים בקטגוריות, כמו קניות או מגמות בנקאיות לקבוצה דמוגרפית מסוימת. גישות אלה קשות כאשר מושגי מפתח כוללים קשרים בין נקודות הנתונים. לעומת זאת, אנו מפתחים טכניקות לכריית נתונים כדי לגלות דפוסים המורכבים מקשרים מורכבים בין ישויות. הצגנו שיטה לגילוי מבנים במאגרי מידע מבניים המיושמים במערכת Subdue [14]. בניגוד לגישות אלטרנטיביות, Subdue מיועד לגילוי אוטומטי ולשימוש כללי, ללמידת מושגים, ובניית אשכול היררכי. מכאן שניתן ליישם את השיטה בתחומים מבניים רבים. Subdue מנוצל בניתוח שלנו כדי לזהות דפוסים לא ברורים בפוסטים בבלוגים שעשויים לשמש אינדיקטורים עם פיגור להתפרצות שפעת.

2.2.3. בעיות פוטנציאליות וסיכונים נלווים

ישנם סיכונים הקשורים בשימוש במסמכי קוד פתוח המתקבלים באמצעות WSM בעיקר בגלל הטית מדגם בגלל גישה מוגבלת לטכנולוגיה ואמיתות הצהרות הבלוגר. אנשים שיכולים להרשות לעצמם גישה ביתית למחשבים ולאינטרנט הם בדרך כלל משכילים [15,16]. עם זאת, השכיחות של גישה לאינטרנט אלחוטי במקומות ציבוריים כמו ספריות, מסעדות ובתי קפה מאפשרת למשתמשים ממגוון רמות חברתיות וחינוכיות לעסוק ב- WSM ולתרום לו. שנית, לא ידוע אמינות של אבחנות בריאות או התנהגויות מדווחות עצמית כמו הסגר מרצון (שהייה בבית כשהוא חולה), חיסון והגיינה מוגברת. מצב זה מעלה דאגות וחוסר וודאות בשאלה אם חשיפות עצמית אלו משקפות התנהגות מיועדת, כוזבת או ממשית (אבחנות). מחקרים קודמים בנושא התנהגויות מדווחות עצמית דרך האינטרנט הראו כי השימוש במחשבים מעודד רמות גבוהות של גילוי עצמי וביטוי אישי ללא מעצורים. ממצא זה תומך בתוקף הדיווח העצמי באינטרנט; עם זאת, יש צורך במחקר פורמלי בכדי לאמת את הדיוק של אבחנות והתנהגויות המדווחות באופן עצמאי ב- WSM.

תוצאות ודיון

נתוני מעקב ה- CDC ILINet ונתוני ה- FC פוסט לנתונים שבועיים משורטטים באיור. תסמיני CDC ILI בכל ביקור אצל ספקי הבריאות בארה”ב מסומנים בציר ה- Y הראשוני. בציר ה- Y המשני מסומנת תדירות ה- FC פוסט לשבוע, מנורמל על ידי המספר הכולל של הודעות במהלך 24 השבועות. המתאם בין שתי סדרות הנתונים נמדד בעזרת מקדם מתאם של פירסון, r. כדי להוכיח את ההשערה שלנו כי קיים קשר בין דיווחי CDC ILINet לבין תדירות ה- WSM FC הנסקר, חישבנו נתוני המתאם של פירסון בין שתי סדרות הנתונים. המדד של פירסון שווה ל-1 אם שתי סדרות הנתונים מתאימות בדיוק אחת לשניה, r = 1. אם לא קיים מתאם בין סדרות הנתונים, המדד של פירסון שווה ל- 0, r = 0. בניתוח שלנו, 24 נקודות הנתונים של ILI ו- FC פוסט מתואמות חזק, עם מדד פירסון גבוה, r = 0.545, והמתאם הוא מובהק ברמת הסמך של 95%. נציין את הסטייה בסדרה עתית ב- 1 בפברואר עד 21 במרץ 2009. לאחר בדיקה מדוקדקת של הנתונים שנמסרו על ידי Spinn3r, זיהינו עלייה משמעותית בסיקור הבלוגים כתוצאה מהצלחת השירות שלהם וההתרחבות לאחר מכן של סורקי רשת, ובכך הטה את הנורמליזציה של נוכחות בבלוג השפעת. יתר על כן, כריית נתונים על בסיס גרפים גילה נוכחות משמעותית של בלוגים של MySpace בשלושת השבועות האחרונים של הנתונים. בדקנו ידנית את הבלוגים וגילינו שרבים מהבלוגים של MySpace דנו בבריאותם שלמתמודדי American Idol, שחלקם חלו בשפעת.

איור 5. תדירות CDC ILINet לעומת פוסט בלוג מנורמל (עם מילות מפתח שפעת) בשבוע. 5 באוקטובר 2008 עד 21 במרץ 2009.

לכל פריט WSM יש מטא נתונים עשירים שניתן למנף לניתוח תוכן. folksonomy מוגדרת מ- WSM על ידי “תגים” המשויכים למחברים מתוך מטא נתונים של הקטגוריות. יתר על כן, folksonomy הוא סוג של מערכת סיווג לתוכן מקוון, שנוצר על ידי משתמש בודד המתייג מידע עם מילות מפתח שנבחרו באופן חופשי. האלגוריתם stemmed של Porter [17] משמש למציאת השורש המורפולוגי מהתוויות מתויגות למחבר. תוויות כפולות מתויגות למחבר נספרות רק פעם אחת לכל בלוגר. טבלה 1 מפרטת את 45 הקטגוריות המובילות ותדירות הופעתן. איור 6 הוא גרפיקה של ענן תגים, הנקרא Wordle (ראה www.wordle.net), המתארת חזותית את תדירות הקטגוריות בנתונים. הקטגוריות העיקריות (למשל שפעת, בריאות, עופות) הם אינטואיטיביים; עם זאת, ניתן לפקח על קטגוריות המרמזות על זיהום עצמי או על מושגים קרובים כגון משפחה, חולה, סימפטום, בית, בית ספר, ותנאים ייצוגיים אחרים.

איור 6. Wordleקטגוריות התיוג התדירות ביותר של המחברים (stemmed). [פוסטים של שפעת: 5 באוקטובר 2008 עד 21 במרץ 2009].

מעקב אחר זיהוי עצמי ומגמות פוסטיםFC מפורסמים מחדש יכולות לסמן עליות ב- ILI. ניתן לומר כי בלוגרים שמפרסמים לעיתים קרובות על שפעת נוטים יותר להיות א) סמכות לשפעת (אולי לא מומחה, עם זאת), שם קוראיו מוצאים מידע על שפעת או ב) הבלוגר חולה שפעת לעתים קרובות. באיזו תדירות או עד כמה באופן קבוע כותבים הבלוגים פרסומי FC גם מצביע על מגמות; אתר בלוג שיש בו פוסטים ב- FC לזמן מוגבל עשוי להיות זיהוי של ILI ממקור ראשון או שני. התפלגות מצטברת של ההסתברות של כמה פוסטים שבלוגר כותב על שפעת מסוכמת באופן גרפי באיור 7. מספר הפוסטים עם מילות מפתח שפעת לכל בלוגר מסומן על ציר ה- X וההסתברות לכך שבלוגר יפרסם את מספר ה- X של הודעות שפעת מסומנת על ציר ה- Y; הנתונים מסומנים בסולם לוג-לוג. אנו רואים שמעל 95% מהבלוגרים מפרסמים רק פוסט “שפעת” אחד, ואילו הבלוגר הנפוץ ביותר בשפעת חיבר 1,897 פוסטים. ההסתברות שבלוגר יפרסם 1,897 הודעות שפעת היא בערך 0.0000388%. ההסתברות עם זנב עבה מעידה על תהליכים חברתיים (למשל, מספר שותפים אינטימיים [18]) והיא נוכחת בהתפלגות הפצת הודעות שפעת לבלוגר. התפלגות ההסתברות המצטברת תומכת גם בהשערה שרוב הבלוגרים לא כותבים תוכן עם שפעת לעתים קרובות. ניתוח תוכן התומך בטענה כי המפרסמים פחות מזהים ILI בעצמם, נותר לעבודה עתידית.

טבלה 1. הקטגוריות הנפוצות ביותר עם פוסטים שפעת מתויגים למחבר (stemmed) [הודעות שפעת: 5 באוקטובר 2008 עד 21 במרץ 2009].

כדי ללמוד את המבנה המבוסס על קישורים של בלוגרים המחברים תוכן הקשור לשפעת, אנו מחלצים את כתובות האתר המקושרות בכל פוסט בבלוג. כתובות URL ופרמלינקים של בלוגים (829,662 כתובות URL) מקוצצות למיקום ולנתיב הרשת וכתוצאה מכך 694,388 כתובות URL ייחודיות. לאחר מכן נבנה גרף קישור מכתובת האתר המקורית של הבלוגר וקישורים חוץ מפוסטים על השפעת, תוך הסרת הפניות עצמיות וקישורי חוץ מקבילים והרכיב החלש הגדול ביותר המפיק גרף מצטבר של 694,388 קודקודים (בלוגרים) ו -3,529,362 צלעות מכוונים (בלוגר ייחודי לקישורי בלוגר).

איור 7. התפלגות הסתברות מצטברת של מספר הודעות השפעת, לכל בלוגר, 5 באוקטובר 2008 עד 21 במרץ, 2009.

טבלה 2 מפרטת את שבעת בלוגרים של שפעת הפוריים ביותר ואת התואר שלהם (In, Out ו- Total). התואר In הנמוך יחסית תומך בטענה כי פוסטרים תכופים הם בעלי חדשות ודעות ולא תמיד המשפיעים ביותר על קהילות מקוונות. מדדי מרכזיות מוערכים על אותם בלוגרים תכופים. התוצאות מפורטות בטבלה 3. לשלושה מהפוסטרים המובילים אין קישורים In, שמשמעותם שהם בלוגים של זבל ואין להם שום השפעה בבלוגוספרה “שפעת”. אנו מאמתים הצהרה זו באמצעות בדיקה מהירה של כתובת האתר. לעדכון ה- RSS BirdFluMonitor יש מרכזיות וסמיכות Out הגבוהה ביותר, אך אין תואר In, ומשמע שהם מוכשרים לפרסם קישורים לבלוגים פופולריים אך אינם משפיעים בעצמם. שלושה בלוגים (h5n1, יומן שפעת, fluwikie2) הם רכזות מעניינות של בלוגוספרת השפעת. לבלוג ” A Flu Diary” יש את המרכזיות הגדולה ביותר בין היחידות (השפעה בין אישית) עם תואר In ו- Out גבוה, והוא מדגים את היכולת לתווך מידע משפיע בבלוגוספרה של היעד. לבלוג h5n1 יש מרכזיות הדף והקרבה הגדולה ביותר; יתר על כן, יש לו את הפריטים שפורסמו ביותר של הבלוגרים השכיחים ביותר ומשפיעים על הפצת המידע ב- h5n1.

טבלה 2. תואר ותדירות של בלוגרים של פוסטים על שפעת בתדירות הגבוהה ביותר, 5 באוקטובר 2008 עד 21 במרץ 2009.

תואר

הכל לחוץ פנימה URL של בלוגר מספר

טבלה 3. סמיכות, סמיכות ביחידות ומרכזיות ווקטור עצמי של הבלוגרים הנפוצים ביותר בשפעת, 5 באוקטובר 2008 עד 21 במרץ 2009.

השימוש בבלוגרים של שפעת הנפוצים ביותר הוא גישה נאיבית למציאת קהילות יעד של WSM שאותן אפשר למנף לתגובה של בריאות הציבור. כדי לקדם את הגישה שלנו, אנו מכוונים לרכיבים המחוברים חזק בתוך זיהוי גרפי של קהילה עם קישור לשפעת (ההגדרה Flake, Lawrence ו- Gilles של הקהילה [19,20]). המרכיב הגדול ביותר של גרף הקישור המחובר היטב הוא מעל 17,000 כתובות אתרים ייחודיות. עם זאת, הקודקודים שלו הם בלוגרים של דואר זבל; באופן ספציפי, כולם היו בלוגים של LiveJournal, ולכל פוסט היו שמונה קישורים חיצוניים בדיוק. האחידות והבדיקה הידנית של אלה כבלוגים של דואר זבל מראים שהם נכתבו לצורך אופטימיזציה למנועי חיפוש. לכן אנו מקבצים את הרכיב השני בגודלו המחובר חזק מאוד, המורכב מ -2,306 בלוגים, 26,768 צלעות, ועם דרגה ממוצעת של 23. האלגוריתם של מציאת קהילות של Girvan-Newman (מסיר את הקודקוד באופן רקורסיבי עם המרכזיות betweenness הגבוהה ביותר) מזהה 11 קהילות.

טבלה 4. שש קהילות התוכן הגדולות של שפעת וקהילות מדיה חברתית שהתגלו על ידי האלגוריתם Girvan-Newman של מציאת קהילה.

טבלה 4 (המשך).

טבלה 4 מדווחת על מרכזים וגודל של שש הקהילות הגדולות ביותר. ממצא מעניין הוא שקהילות אלה מקובצות לא רק על ידי סוגים של מפרסמים אלא גם על ידי חברת אם. באופן לא מפתיע, הקהילה הגדולה ביותר כוללת בלוגים אישיים ושל עיתונים כלליים; השאר כוללים כלי חדשות מרכזיים ומקומיים, תקשורת לקהל בינלאומי, LiveJournal ותעשיית הבידור (למשל, Viacom, Reed), תאגידי חדשות גדולים (למשל, News Corp, Disney), ותכני פרשנות, דעה ועריכה. לקמפיין מוצלח של WSM לבריאות הציבור צריך להיות נוכחות והשפעה בכל אחת מקהילות הבלוגים המדווחות על מנת להבטיח סיקור נרחב והפצת מידע רלוונטי.

איור 8. דוגמה לייצוג גרף בלוגרים של שפעת המשמשים לגילוי חריגות על ידי Subdue.

איתור חריגות במערכות נתונים שונות הוא מאמץ חשוב. אנו מגדירים חריגה/אנומליה כהתרחשות מפתיעה או חריגה. השימוש בגישות סטטיסטיות הביא להצלחות שונות כמו איתור חדירות למחשבים ולרשת. מחקרים עדכניים בגילוי אנומליות מבוססות גרפים סללו את הדרך לגישות חדשות שלא רק משלימות את שיטות הלא מבוססות על גרפים אלא גם מספקות מנגנונים לטיפול בנתונים שלא ניתן לנתח אותם בקלות באמצעות גישות סטטיסטיות מסורתיות [21]. שוב, ניתן להשתמש ב- Subdue כדי להתמודד עם אתגר זה. Subdue בוחן גרף שלם ומדווח על מבנים חריגים, או מבנים המתרחשים לעיתים רחוקות, בתוכו [14]. Subdue גם לוקח בחשבון את סדירות הנתונים בכדי לקבוע עד כמה סביר להתרחש לתת-מבנה בהינתן החיזוי של הנתונים המבניים המקיפים את תת-המבנה. רעיונות אלה נבדקו ביישומים הכוללים איתור חדירות וניתוח פעילויות טרור.

כדי להקל על זיהוי ה- ILI באמצעות כריית נתונים מבוססת גרפים של בלוגי שפעת, אנו מבססים את הייצוג על גרף הקישורים. מספר פוסטים של אותו מחבר מצטברים ומייצגים בלוגר ייחודי; באופן דומה, תגיות מרובות ויציאות וקישורים out and in נספרות רק פעם אחת לכל בלוגר. כדי להעשיר את מבנה גרף הקישורים אנו מחברים את כתובת האתר והבלוגים של הבלוגר לקודקוד המתויג על ידי סוג המפרסם (למשל, בלוג, פורום, מדיה מיינסטרימית, קישור חיצוני) כפי שמתואר באיור 8. מבני הגרף נוצרים מפוסטים בבלוג שפעת להקל על איתור חריגות ומתאם לדוחות המטופלים ב- CDC ILI. איור 8 מדגים כיצד כתובות אתרים נפרדות ממאמר WSM שלהם, ובכך נוצר קשר בין שתי ישויות (המאמר WSM וכתובת האתר). זה מאפשר ל- Subdue למצוא תת-גרפים אינפורמטיביים של בלוגים עם תוכן שונה (חדשות, בלוגים אישיים) בנוסף למבני כתובות אתרים מסורתיים. הנתונים המועשרים במבנה שלהם והתבנית הזמנית מאפשרים איתור חריגות על ידי Subdue (זאת בניגוד לגרף הקישור המצטבר של 24 שבועות המשמש לזיהוי הקהילה).

טבלה 5. כריית נתונים מבוססת על גרף באמצעות Subdue לאיתור חריגות מבניות המאפשרות זיהוי מחלות דמויות שפעת.

טבלה 5 מפרטת את מאפייני התת-מבנה שהתגלו על ידי Subdue, ומזהה אם הם תואמים אנומליה לצורך גילוי פריצה. לאחר מכן אנליסט יכול לבדוק את התת-מבנים המדווחים למידע על הפריצה. התגלית הראשונה המעניינת היא במהלך השבוע שהתחיל 7 בדצמבר 2008 בזיהוי אתר Yahoo Answers הבריטי. באותה תקופה, בריטניה הייתה בעיצומה של עונת השפעת הגרועה ביותר שלה בשמונה שנים. אף שהמתאם בין תדירות שפעת לנתוני CDC ILINet לא צלח בפברואר ומרץ 2009, Subdue מסוגל לזהות מבנים חדשים בבלוגים אישיים שמזכירים שפעת. האנומליה השלישית שגילה Subdue מציגה מספר רב של תת-מבנים, המורכבים מפוסטים בבלוג של MySpace שדנו בכמה מתמודדי American Idol שחלו בשפעת ולא הצליחו להופיע במיטבם במהלך תחרות ההופעות השבועית.

4. שיטות וחומרים

Wasserman and Faust טוענים כי סמיכות יכולה להיות פרודוקטיבית בהעברת מידע לשחקנים אחרים. זה מוגדר במשוואה 1 כנתיבים ממוצעים הקצרים ביותר או מרחק גיאודזי מהשחקן v וכל השחקנים הניתנים להשגה (t ב- V v) ב- [22]:

מרכזיות של סמיכות (משווה 2) מודדת השפעה בין אישית. באופן ספציפי, בלוג הוא מרכזי אם הוא שוכן בין בלוגים אחרים בגיאודזיה שלהם – הבלוג הוא “בין” רבים אחרים, כאשר gjk הוא מספר הגיאודזיות המקשרות בין בלוג j לבלוג k [22]:

דירוג עמוד הוא דוגמה למרכזיות של הווקטור העצמי ומודד את החשיבות של קודקוד על ידי הנחה שקישורים מקודקודים מרכזיים יותר תורמים יותר לדירוגו מאשר קודקודים פחות מרכזיים [23]. יהי d גורם דעיכה (בדרך כלל 0.85), n יהיה האינדקס לקודקוד המעניין אותנו, pn יהיה הקודקוד, יהיה M (pi) מערכת קודקודים המקשרים ל- pn, ו- L (pj) יהיו מספר קישורי חוץ בעמוד pj:

אנו מקבלים הגדרה אינטואיטיבית ופשוטה של קהילת WSM ומזהים בלוגרים היכולים להגיב ראשונים, באמצעות ניתוח קישורים. דירוג הבלוגים משפר את הרעיון שקהילות אלו יכולות להפיץ מידע כחלק מתגובה רחבה יותר של בריאות הציבור שגורמת חריגות במעקב ILINet ו- WSM. הקהילה כאן מוגדרת בדומה ל- Flake, Lawrence, and Giles כאשר ישנם יותר צלעות בין קודקודים של חברים מאשר צלעות לקודקודים חיצוניים. באופן פורמלי, קהילה היא תת-קודקוד C ב- V, כך שלכל הקודקודים יש לפחות כמה צלעות המתחברים לקודקודים ב- C כמו שזה מתחבר לקודקודים ב (V-C) [19,20]. קישורים מפוסט שאינו FC לפוסט FC ולהפך אינם מוגדרים בהגדרת קהילה זו. האלגוריתם של Girvan-Newman משמש לזיהוי קהילות בנתונים שלנו. הצורה הכללית של אלגוריתם מציאת מבנה של קהילה מצויינת למטה, המרכיבים שנותרו בתרשים בסוף כל איטרציה הם הקהילות [24]:

1. חשב את ציוני הסמיכות בין כל הצלעות ברשת.

2. מצא את הצלע עם הציון הגבוה ביותר והסר אותו מהרשת. אם שני צלעות או יותר קשורים לציון הגבוה ביותר, בחר באחד מהם באקראי והסר את הצלע הזה.

3. חשב מחדש של הסמיכות בין כל הצלעות שנותרו.

4. חזור משלב 2 עד שתגיע למספר הרצוי (אם ידוע מראש) של קהילות, אחרת חזור משלב 2 עד שלא יישארו צלעות.

Subdue מקבל גרפים מכוונים או לא מכוונים כקלט עם קודקודים מסומנים וצלעות (קישורים), גרפים פלט המייצגים את התבנית שהתגלתה או המושג שנלמד. באופן פורמלי, Subdue משתמש בתרשים שכותרתו G = (V, E, L) ככניסה וגם כמוצא, כאשר V = {v1, v2, …, vn} הוא קבוצת קודקודים, היא קבוצת צלעות, ו- L היא קבוצת תוויות שיכולות להופיע בקודקודים ובצלעות. הגרף G יכול להכיל צלעות מכוונים, צלעות לא מכוונים, צלעות עצמיים ורב-צלעות. כאלגוריתם ללא פיקוח, Subdue מחפש תת-מבנה, או תת-גרף של גרף הקלט, המדחס בצורה הטובה ביותר את גרף הקלט. Subdue משתמש בגרסה של חיפוש קרן עבור אלגוריתם החיפוש הראשי שלו. תת-מבנה ב- Subdue מורכב מהגדרת תת-גרף וכל התרחשויות לאורך הגרף.

Subdue משתמש בחיפוש קרן עם זמן פולינומי באלגוריתם הגילוי שלו, כפי שהוא מסוכם באיור 9. המצב הראשוני של החיפוש הוא קבוצת התת-מבנים המורכבים מכל הקודקודים המסומנים באופן ייחודי. החיפוש מתקדם על ידי הפעלת הפקודה ExtendSubstructure על כל תת מבנה במצב השוטף. כפי ששמו מרמז, הוא מרחיב תת-מבנה בכל הדרכים האפשריות על ידי צלע בודד וקודקוד או רק על ידי צלע בודד אם שני הקודקודים כבר נמצאים בתת-גרף. התת-מבנים החדשים המתקבלים מסודרים על פי הדחיסה שלהן (לעיתים מכונה ערך) כפי שמחושבות באמצעות עקרון אורך התיאור המינימלי (MDL Minimum Description Length) [21] המתואר להלן, והתת-מבנים העליונים (כפי שנקבעו על ידי הקרן) נשארים בתור עבור הרחבה נוספת.

החיפוש מסתיים בהגעה למגבלה על מספר תת-מבנים מורחבים או עם מיצוי שטח החיפוש. ברגע שהחיפוש יסתיים ו- Subdue מחזיר את רשימת המבנים הטובים ביותר, ניתן לדחוס את הגרף באמצעות התת-מבנה הטוב ביותר. נוהל הדחיסה מחליף את כל המופעים של תת-המבנה בגרף הקלט על ידי קודקודים יחידים, המייצגים את הגדרת תת-המבנה. צלעות נכנסים ויוצאים למקומות שהוחלפו ומהם יצביעו על יציאה או כניסה לקודקוד החדש שמייצג את המקרה הספציפי. ניתן להפעיל שוב את האלגוריתם של Subdue בגרף דחוס זה. כדוגמה איור 9 מציג תבניות ש- Subdue מגלה בגרף קלט לדוגמה ובגרסה דחוסה של הגרף.

איור 9. אלגוריתם הגילוי של Subdue ודוגמא. התרשים מציג את התבנית שהתגלתה (S1) מהגרף המקורי, את המבנה שנמצא במהלך האיטרציה השנייה (S2) ואת הגרף הסופי שנדחס באמצעות תת-מבנים S1 ו- S2.

4. עבודה בעתיד

מחלות זיהומיות מתפתחות ממשיכות להשפיע על בריאות, בטיחות וצמיחה בר-קיימא של מדינתנו, כפי שמוצג על ידי זן השפעת A / H1N1 המופיע משנת 2009. לאחר זיהוי ראשוני של התפרצויות H1N1 נפוצות באפריל 2009, השתתף ה- CDC במאמץ מתואם עולמי לפיקוח על העברת שפעת A / H1N1 ומניעת התפרצויות מגיפה על ידי מתן המלצות לבריאות הציבור. עבודה עתידית תכמת את ההשפעה ותאמת את השימוש ב- WSM לפיקוח על מגפות שפעת עונתיות ומגפות עולמיות. בטבלה 6 מדווחים באופן מקדים על בלוגים על שפעת במהלך מגפה זו, לא כולל אזכורים בפלטפורמות מיקרו-בלוגים (Twitter). תיוג מיקום גיאוגרפי מיושם כעת בפלטפורמות בלוג, רשת חברתית ומיקרו-בלוגים, ומחקר עתידי ימנף נתונים חדשים אלה במערכת המעקב הביולוגית WSM מהדור הבא; עם זאת, מידע על מיקום גיאוגרפי לא היה זמין בניתוחים שדווחו כאן. המחקר נמשך גם בבלוגים של בריאות וגם במיקרו-בלוגים בתחום הבריאות כדי ליידע מערכת פיקוח על מחלות נפוצות באמצעות מסמכי קוד פתוח.

טבלה 6. מאמרים חדשים על שפעת H1N1 / A שפורסמו כל שבוע בשנת 2009.

לאחר חילוץ פריטי WSM על שפעת, ניתן לעקוב אחר התפרצויות שפעת על ידי הערכת נקודת המבט של מחברי הבלוגים. בלוגרים בעלי ידע ישיר על זיהום שפעת הם בעלי ערך רב יותר למעקב אחר מחלות מאשר אלה המחברים מאמר אובייקטיבי או דעה של המחבר. זיהוי הפרספקטיבה של פוסטים במילות מפתח בשפעת, מאפשר לקבוע את תרומתה למעקב אחר מחלות. שלוש פרספקטיבות של המחברים מזוהות באיור 10. פוסט ב- FC יכול להיות (1) זיהוי עצמי של תסמיני ILI, (2) פוסט יד שנייה (או באמצעות פרוקסי) על אדם אחר שיש לו ILI, או (3) דעה או מאמר אובייקטיבי המכיל מילות מפתח של ILI. ידע יד שנייה יכול להיות כתיבה על חבר, בן כיתה, בן משפחה או חבר לעבודה, אך בלוגר יכול גם לפרסם פרטים על אדם מפורסם כמו ספורטאי. פתיחת העונה של הכדורגל האמריקאי עולה בקנה אחד עם הנתונים, ורבים מהפוסטים ב- FC מזהים ספורטאים שאינם מסוגלים לשחק בגלל ILI. הסיווג האוטומטי של פרספקטיבה של מחבר הכותב על השפעת הוא מחקר מתמשך.

איור 10. שלושה פוסטים בבלוג עם פרספקטיבה שמזכירים שפעת: זיהוי עצמי, יד שנייה ואובייקטיבית / דעה של המחבר.

זיהוי עצמי: מה שהתחיל כקור מעצבן הפך אמש להיות מה שלדעתי אכן שפעת. התעוררתי במיטה בסביבות שלוש הבוקר עם שרירים כואבים, ריאות / אף גודש וצמרמורות רצות בכל גופי.
יד שנייה: על פי ESPN.com, Ravens quarterback Troy Smith איבד “כמות ניכרת של משקל” בזמן שאושפז עם דלקת שקדים ותסמינים דמויי שפעת. Smith ו- Kyle Boller הוותיק ככל הנראה לא ישחקו בפתיחת העונה ביום ראשון, וישאירו את עומס העבודה לטירון Joe Flacco ו- Joey Harrington, שנחתם ביום שני.
אובייקטיבי (או דעת מערכת): עופות מבויתים עלולים להידבק בנגיף שפעת העופות באמצעות מגע ישיר עם עופות מים נגועים או עופות נגועים אחרים, או דרך מגע עם משטחים או חומרים כמו זה של מים או הזנה שזוהמו בנגיף.

6. מסקנות

כריית נתונים וטקסטים מבניים של WSM מספקת משאב וטכניקה חדשניים למעקב אחר מחלות לזיהוי קהילות מידע בנושא בריאות ושפעת מקוונות. המסגרת המוצעת שלנו של שיטות כריית נתונים משלימות תומכת בהשערה שלנו. אנו מעריכים באופן מקיף פוסטים בבלוגים המכילים מילות מפתח לשפעת באמצעות טקסט, קישור וכריית נתונים מבניים. תוצאות הניתוח מראות התרחשות משותפת חזקה של פוסטים בבלוג שפעת במהלך עונת השפעת בארה”ב 2008-2009. כלומר, מה -5 באוקטובר 2008 עד 21 במרץ 2009, קיים מתאם גבוה בין תדירות הפוסטים, המכילים מילות מפתח על שפעת, לשבוע, לבין נתוני מעקב CDI ILI. התדירות של פוסטים בשפעת לכל בלוגר היא לפי הסתברות עם זנב עבה, ואנחנו מראים באמצעות מדדי גרפים כי הבלוגרים הפוריים ביותר אינם המשפיעים ביותר. למידע בריאותי רלוונטי צריך להיות נוכחות בכל קהילות ה- WSM המזוהות. האלגוריתם של Girvan-Newman ממונף כדי לזהות אשכולות של אתרים דומים כקהילות יעד פוטנציאליות עבור קמפיינים מקוונים למידע בנושא בריאות. התוצאות מראות קהילות WSM מובחנות המקובצות לפי מפרסמים וסוג תוכן, כגון נכסי News Corp & Disney, קהלים בינלאומיים, או בלוגים אישיים.

סיקור WSM הוא אתגר מתמשך עם הגידול הנפיץ של השימוש באינטרנט. כדי להשלים את גישת כריית הטקסטים למעקב אחר ILI, אנו מיישמים טכניקת כריית נתונים מבוססת גרף, Subdue, כדי לאתר חריגות ותת-מבנים אינפורמטיביים בין בלוגים של שפעת המחוברים לפי סוג מפרסם, קישורים ותגי משתמש. טכניקה זו מסמנת חריגות שלא התגלו באמצעות ניתוח תוכן התואם את עונת השפעת הגרועה ביותר בבריטניה מזה שמונה שנים והופעתה של תקשורת אישית חזקה בבלוג במהלך שכיחות השיא העונתית בארצות הברית.

ניתוח קישורים חושף קהילות, מקובצות על פי תוכן ובמקרים רבים לפי בעלות על תאגידים, אשר יש לכוון במסע פרסום מצליח של תקשורת בריאות הציבור כדי להבטיח הפצה רחבה של מידע רלוונטי. כריית טקסטים של אזכורי שפעת ב- WSM מוכיחה כי היא מזהה מגמות במודעות שפעת המתאימות לנתוני דיווח חולי ILI בעולם האמיתי. יתר על כן, כריית נתונים מבוססת גרפים מסוגלת לזהות חריגות משמעותיות בבלוגים של שפעת שלא זוהו באמצעות ניתוח טקסטים וניתן לסמן אותם להמשך בדיקה על ידי אנליסט.

הבעת תודה

מקורות

Text and Structural Data Mining of Influenza Mentions in Web and Social Media

1. Introduction

Influenza diagnosis based solely on the presentation of symptoms is limited as these symptoms may be associated with other diseases. Many cases of influenza remain undiagnosed. While the presence of influenza in an individual can be confirmed through specific diagnostic tests, the influenza prevalence in the population at any given time is unknown and can only be estimated. In the past, such estimates have relied solely on the extrapolation of diagnosed cases, making it difficult to identify the various phases of seasonal influenza or to identify a more serious manifestation of a flu epidemic.

Web and social media (WSM) provide a resource to detect increases in ILI (influenza-like illness). This paper evaluates blog posts, a type of WSM, that discuss influenza and the analyses show a significant correlation with patient reporting of ILI during the US 2008−2009 influenza season. We briefly discuss a history of infectious disease outbreaks and recent approaches in online public health surveillance of influenza. We discuss the value of social community with regard to outbreak. We present comprehensive analysis, covering 24 months of data. We suggest a possible response that identifies WSM influenza-related communities that share flu-related postings. Strongly connected communities are evaluated and influential bloggers identified that should be part of a WSM outbreak response. We leverage graph-based data mining to identify structural anomalies in the flu blogosphere that correspond to increases in ILI. We envision several applications that leverage automatic open source document analytics for biosurveillance: provide lagging indicators of a disease outbreak to a component of a US port and border’s biosurveillance system.

2. Data and Methods

Spinn3r is a WSM indexing service that conducts real-time indexing of all blogs, with a throughput of 100,000 new blogs indexed per hour. Metadata of this data set includes the following: blog title, blog URL, post title, post URL, date posted, description, full HTML encoded content, subject tags annotated by author, and language. Data were selected from a period of 24 weeks, from 5 October to 21 March 2009. A majority of the articles we analyzed were weblogs; mainstream media accounts for 20% of the data and the remaining types include forums and classified ads. Indexing, parsing, and link extraction code was written in Python. This compute resource is housed at the University of North Texas Center for Computational Epidemiology and Response Analysis.

Influenza WSM item trends can be monitored using the social media mining methodology. This methodology facilitates identification of outbreaks and increases of influenza infection in the population. We posit a strong correlation exists between the frequency of FC (flu-content) posts per week and CDC (Centers for Disease Control and Prevention) ILI surveillance data. Qualitative assessment of category tags, prevalence of FC-posts on a blog site, and persistent posting of flu-related posts also suggest ILI trends. We hypothesize that the frequency of blog-world flu posts correlate with a patient reporting ILI and the US flu season. To verify this hypothesis, we compare our data to CDC surveillance reports from sentinel healthcare providers.

WSM communities will play a vital role in any public health response to an outbreak. The influential bloggers could be first responders to a disease outbreak. The readers will trigger an information cascade, spreading public health communications (to vaccinate, quarantine). A WSM targeted response must be cost-effective and optimized to achieve maximum strategy penetration. Closeness and betweenness centrality measures and Google’s PageRank (eigenvector centrality) will rank influenza community blog sites in order to target key actors. The Girvan-Newman community finding algorithm will identify communities of interest.

Graph-based algorithms can be leveraged to identify communities and facilitate bio-event detection by searching for anomalies in the link-structure of WSM. We introduce a method for discovering substructures in structural databases implemented in Subdue. Subdue is devised for general-purpose automated discovery, concept learning, and hierarchical clustering. The method can be applied to many structural domains. Subdue is leveraged in our analysis to identify non-obvious patterns in blog posts that may serve as lagging-indicators of an influenza outbreak.

Formal study is needed to verify the accuracy of self-reported diagnoses and behaviors in WSM.

3. Results and Discussion

The CDC ILINet (Influenza-like-illness Surveillance Network) surveillance and FC-post per week data are plotted in. To prove our hypothesis that a correlation exists between CDC ILINet reports and mined WSM FC-post frequency, Pearson’s correlation statistic is evaluated between the two data series. After close inspection of the data provided by Spinn3r, we identified a significant increase in blog coverage resulting from the success of their service and subsequent expansion of web crawlers. Graph-base data mining discovered substantial presence of MySpace blogs in the last three weeks of data. We manually inspected the blogs and discovered many of the MySpace blogs were discussing the health of American Idol contestants, several of whom were sick with the flu. A link graph constructed from the blogger source URL and out-links from the influenza posts, removing self-references and parallel out-links and the largest weak component producing an aggregate graph of 694,388 nodes (bloggers) and 3,529,362 directed edges (unique blogger to blogger links). To advance our approach, we target strongly connected components within our flu link graph community identification. We cluster the second largest strongly connect component, which consists of 2,306 blogs, 26,768 edges, and an average degree of 23. The Girvan-Newman community finding algorithm (recursively removes the node with the highest betweenness centrality) identifies 11 communities. Detecting anomalies in various data sets is an important endeavor. We define an anomaly as a surprising or unusual occurrence. Using statistical approaches has led to various successes such as detecting computer and network intrusions.

4. Methods and Materials

State closeness can be productive in communicating information to other actors. It is defined in Equation 1. Betweenness centrality measures interpersonal influence (Equation 2). Page Rank is an example of eigenvector centrality and measures the importance of a node by assuming links from more central nodes contribute more to its ranking than less central nodes (Equation 3). We take an intuitive and simple definition of WSM community and identify possible first responder bloggers by link analysis. Blog ranking enhances the idea that these communities can disseminate information as part of a broader public health response triggered by anomalies in ILINet and WSM surveillance. The general form of this community structure finding algorithm is enumerated. Subdue’s discovery algorithm and an example are described.

5. Future Work

Future work will quantify the impact and validate the use of WSM to monitor seasonal influenza epidemics and global pandemics. Geo-location tagging is now implemented in blog, social network, and micro-blogging platforms and future research will leverage this new data in the next-generation WSM biosurveillance system. Identifying the perspective of influenza keyword posts facilitates determining its contribution to disease surveillance.

6. Conclusions

A framework of complementary data-mining methods is suggested. We evaluate blog posts containing influenza topic keywords through text, link, and structural data mining. Results from analysis show strong co-occurrence of flu blog posts during the US 2008−2009 flu season. Frequency of flu posts per blogger follows a heavy-tailed distribution. We show through graph metrics that the most prolific bloggers are not the most influential. The Girvan-Newman algorithm is leveraged to identify clusters of similar sites as potential target communities for online health information campaigns. The results show distinct WSM communities clustered by publisher and content type. We apply a graph-based data mining technique, Subdue, to detect anomalies and informative substructures among flu blogs connected by publisher type, links, and user-tags. Graph-based data mining can identify significant anomalies in flu blogs that were not identified through text analysis and can be further investigated by an analyst.

העדכון אחרון:	פברואר 7, 2025
שוחרר:	נובמבר 22, 2020

כניסת מפרסמים

(20/06/2026) עלו היום לאתר 9 סמינריונים 2 תזות 2 מאמרים

חיפוש חדש

Specification

Learning vocabulary in another language (הצעה לתרגום חלק מתוך ספר)

‎ The Development of Writing Skills in Individuals with Learning Difficulties

New Technology and Health Care Costs the case of Robot-Assisted Surgery

Academic optimism, hope and zest for work as predictors of teacher self-efficacy and perceived success

Evaluators and Evaluation consultants

A VAR MODEL AS RISK MANAGEMENT TOOL AND RISK ADJUSTED PERFORMANCE MEASURES

סיוע בכתיבת עבודה מקורית ללא סיכונים מיותרים!