Survey of Machine Learning Algorithms for

Disease Diagnostic

תקציר

בהדמיה רפואית, אבחון ממוחשב (CAD) הוא תחום מחקר דינמי ההולך וגדל במהירות. בשנים האחרונות נעשים ניסיונות משמעותיים להעלאת יישומי אבחון ממוחשבים, משום ששגיאות במערכות אבחון רפואיות עלולות לגרום להטעיה רצינית של טיפול רפואי. למידת מכונה חשובה באבחון בעזרת מחשב. לאחר יצירת משוואה קלה, לא ניתן לציין במדויק אובייקטים כגון איברים. לכן, זיהוי תבניות כולל באופן יסודי למידה מדוגמאות. בתחום הביו-רפואי, זיהוי תבניות ומכונות למידה מבטיחים את הדיוק המשופר של תפיסה ואבחון של מחלות. הם גם מקדמים את האובייקטיביות של תהליך קבלת ההחלטות. לניתוח נתונים ביו-רפואיים ביו-ממדיים ומולטימודליים, הלמידה של מכונה מציעה גישה ראויה ליצירת אלגוריתמים קלאסיים ואוטומטיים. מסמך סקר זה מספק ניתוח השוואתי של אלגוריתמים שונים של למידה במחשב לאבחון מחלות שונות כגון מחלת לב, מחלת סוכרת, מחלת כבד, מחלת דנגי ומחלת הפטיטיס. הוא מביא את תשומת הלב לסוג של אלגוריתמים למידה של מכונה וכלים המשמשים לניתוח של מחלות ושל תהליך קבלת ההחלטות בהתאם.

1. הקדמה

בינה מלאכותית יכולה לאפשר למחשב לחשוב. המחשב נעשה הרבה יותר אינטליגנטי על ידי בינה מלאכותית. למידת מכונה היא תת שדה של מחקר בבינה מלאכותית. חוקרים שונים סבורים שללא למידה, לא ניתן לפתח אינטליגנציה. ישנם סוגים רבים של טכניקות למידת מכונה המוצגות באיור 1. מפוקח, ללא פיקוח, פיקוח למחצה, חיזוק, למידה אבולוציונית ולמידה עמוקה הם סוגים של טכניקות למידת מכונה. טכניקות אלה משמשות לסיווג קבוצת הנתונים.

תרשים 1 טכניקות של לימוד מכונה

1) למידה בפיקוח: מוצע מערך הדרכה של דוגמאות עם מטרות מתאימות ועל בסיס מערך הדרכה זה, אלגוריתמים מגיבים כראוי לכל התשומות האפשריות. הלמידה מהדוגמאות היא שם אחר של למידה מבוקרת. סיווג ורגרסיה הם סוגים של למידה מבוקרת.

סיווג: זה נותן את התחזית של כן או לא, למשל, “האם זה גידול סרטני?”, “האם העוגייה עומדת בסטנדרטים של האיכות שלנו?”

רגרסיה: זה נותן את התשובה של “כמה” ו “כמה”.

2) למידה ללא השגחה: לא נמסרו תשובות או מטרות נכונות. טכניקת למידה ללא פיקוח מנסה למצוא את קווי הדמיון בין נתוני הקלט על סמך קווי הדמיון הללו, טכניקת למידה ללא פיקוח מסווגת את הנתונים. זה ידוע גם כאמידת צפיפות. למידה ללא פיקוח כוללת אשכולות [1].

קיבוץ באשכולות: נעשים אשכולות על בסיס של דמיון.

3) למידה בפיקוח למחצה: טכניקת למידה ממוחשבת למחצה היא סוג של טכניקות למידה מבוקרות. למידה זו השתמשה גם בנתונים ללא תווית למטרות הכשרה (בדרך כלל כמות מינימאלית של נתונים שכותרתם עם כמות עצומה של נתונים ללא תווית). למידה ממוחשבת למחצה נמצאת בין למידה ללא פיקוח (נתונים ללא תווית) לבין למידה מבוקרת (נתונים מסומנים).

4) למידה עם חיזוקים: למידה זו מעודדת פסיכולוגיה התנהגותית. מיידעים את אלגוריתם כאשר התשובה היא לא נכונה, אבל לא ליידע את זה איך לתקן את זה. הוא צריך לבחון ולבדוק אפשרויות שונות עד שהוא מוצא את התשובה הנכונה. זה ידוע גם כללמוד עם מבקר. הוא אינו ממליץ על שיפורים. למידה מחזקת שונה מזו של למידה מבוקרת, במובן זה שלא מוצעים ערכות קלט ותפוקה מדויקות, ולא פעולות ברורות יותר. יתר על כן, הוא מתמקד בביצועים מקוונים.

5) למידה אבולוציונית: למידה ביולוגית אבולוציונית זו יכולה להיחשב כתהליך למידה: אורגניזמים ביולוגיים מותאמים על מנת להתקדם בשיעורי ההישרדות שלהם ובסיכוי לצאצאים. באמצעות הרעיון של התאמה, כדי לבדוק עד כמה מדויק הפתרון, אנו יכולים להשתמש בדגם זה במחשב [1].

6) למידה עמוקה: ענף זה של למידה ממוחשבת מבוסס על קבוצת אלגוריתמים. בנתונים אלה, אלגוריתמי למידה אלה מדגימים הפשטה ברמה גבוהה. הוא משתמש בגרף עמוק עם שכבות עיבוד שונות, המורכב משינויים ליניאריים ולא ליניאריים רבים.

תהליך זיהוי תבניות וסיווג נתונים הם בעלי ערך במשך זמן רב. לבני אדם יש יכולת חזקה מאוד לחוש את הסביבה. הם פועלים נגד מה שהם תופסים מהסביבה [2]. נתונים גדולים הופכים לגושים בשל מאמץ משולב רב-תחומי של לימוד מכונה, מאגרי מידע וסטטיסטיקות. היום, במדעי הרפואה אבחון המחלה היא משימה רצינית. חשוב מאוד להבין את האבחנה המדויקת של החולים על ידי בדיקה קלינית והערכה. עבור אבחון יעיל וניהול חסכוני, מערכות תומכות החלטה המבוססות על המחשב עשויות לשחק תפקיד חיוני. תחום הבריאות מייצר נתונים גדולים על הערכה קלינית, דו”ח על המטופל, תרופה, מעקב, תרופות וכו ‘. זה מורכב כדי לארגן בצורה מתאימה. איכות ארגון הנתונים הושפעה עקב ניהול לא מתאים של הנתונים. לשיפור כמות הנתונים צריך כמה אמצעים נאותים כדי לחלץ ולעבד נתונים באפקטיביות וביעילות [3]. אחד מהרבה יישומים של מכונת למידה מועסקים בלבנות מסווג כזה שיכול לחלק את הנתונים על בסיס המאפיינים שלהם. מערך הנתונים מחולק לשניים או יותר משתי קבוצות. מסווגים אלה משמשים לניתוח נתונים רפואיים ולזיהוי מחלות.

בתחילה, אלגוריתמים של מכונות למידה תוכננו ומועסקים על מנת לבחון את ערכות הנתונים הרפואיים. כיום, עבור ניתוח יעיל של נתונים, מכונות למידה מומלצות מכלים שונים. במיוחד בשנים האחרונות, המהפכה הדיגיטלית הציעה מחיר נמוך יחסית והשיגה אמצעים עבור איסוף ואחסון של נתונים. מכונות לאיסוף נתונים ובדיקה ממוקמות בבתי חולים חדשים ומודרניים כדי להפוך אותם למסוגלים לאסוף נתונים ושיתוף במערכות מידע גדולות. טכנולוגיות של מכונת למידה הם יעילות מאוד לניתוח של נתונים רפואיים ועבודה גדולה נעשית לגבי בעיות אבחון. נתוני אבחון נכונים מוצגים ברשומות רפואיות או בבדיקות בבתי חולים מודרניים או במקטע הנתונים המסוים שלהם. כדי להפעיל אלגוריתם, רשומה נכונה של חולי אבחון מוזנת במחשב כקלט. תוצאות ניתן לקבל באופן אוטומטי מן המקרים שנפתרו קודם. רופאים לוקחים סיוע מסווג נגזר זה, תוך אבחון המטופל החדש במהירות גבוהה ודיוק משופר. מסווגים אלה יכולים לשמש להכשרת מומחים או סטודנטים כדי לאבחן את הבעיה [4].

בעבר, מכונת למידה הציעו מכוניות נהיגה עצמית, זיהוי דיבור, חיפוש יעיל באינטרנט, ותפיסה משופרת של הדור האנושי. היום מכונת למידה קיימת בכל מקום, כך שבלי לדעת זאת, אפשר להשתמש בה פעמים רבות ביום. הרבה חוקרים רואים בכך את הדרך המצוינת לנוע לעבר רמת האדם. טכניקות הלמידה של המכונה מגלות תיעוד בריאותי אלקטרוני שמכיל בדרך כלל תבניות ממדיות גבוהות ומספר רב של נתונים. זיהוי תבניות הוא הנושא של טכניקות לימוד מכונה המציע תמיכה כדי לחזות ולקבל החלטות לאבחון ולתכנן טיפול. אלגוריתמים של למידה ממוחשבת מסוגלים לנהל מספר עצום של נתונים, כדי לשלב נתונים ממשאבים שונים, ולשלב את מידע הרקע במחקר [3].

2. אבחון מחלות באמצעות אלגוריתמים שונים של מכונת למידה

חוקרים רבים עבדו על אלגוריתמים שונים של לימוד מכונה לאבחון מחלות. החוקרים קבעו כי אלגוריתמים של לימוד מכונה פועלים היטב באבחון מחלות שונות. גישה פיגורטיבית של מחלות שאובחנו על ידי טכניקות לימוד מכונה מוצג באיור 2. בסקר זה מחלות נייר שאובחנו על ידי טכניקות לימוד מכונה הם הלב, סוכרת, כבד, דנגי וצהבת.

2.1. מחלת לב

Otoom et al. [5] הציגה מערכת לצורך ניתוח ומעקב. מחלת העורקים הכליליים מזוהה ומנוטרת על ידי מערכת מוצעת זו. נתוני הלב של קליבלנד נלקחו מ UCI. סט נתונים זה מורכב מ -303 מקרים ו 76 מאפיינים / אפיונים. 13 מאפיינים השתמשו החוצה מתוך 76 מאפיינים. שתי בדיקות עם שלושה אלגוריתמים Bayes Net, תמיכה במכונה וקטורית ועצים פונקציונליים FT מבוצעים לצורך איתור.

תרשים 2 ניתוח מחלות ע”י טכניקות לימוד מכונה

כלי WEKA משמש לזיהוי. לאחר ניסוי מבחן Holdout,מושג דיוק של 88.3% באמצעות טכניקת SVM. בבדיקת אימות צולבת, הן SVM והן רשת Bayes מספקים דיוק של 83.8%. 81.5% דיוק מושג לאחר שימוש FT. 7 המאפיינים הטובים ביותר נאספו באמצעות אלגוריתם הבחירה הטובה ביותר. לאימות נעשה שימוש בבדיקת אימות צולבת. על ידי יישום הבדיקה על 7 המאפיינים הטובים ביותר שנבחרו, Bayes Net השיגה 84.5% של נכונות, SVM מספק 85.1% דיוק FT מסווג 84.5% כראוי.

Vembandasamy et al. [6] ביצעו עבודה, כדי לאבחן מחלת לב באמצעות אלגוריתם Bayes נאיבי. משפט Bayes משמש ב Bayes נאיבי. לכן, ל Bayes נאיבי יש הנחה עצמאית חזקה. הנתונים המועסקים מתקבלים מאחד ממכוני המחקר המובילים לחולי סוכרת בצ’נאי. מערך הנתונים מורכב מ -500 חולים. Weka משמש ככלי ומבצע סיווג באמצעות 70% פיצול אחוזים. Bayes נאיבי מציע 86.419% דיוק.

השימוש בגישות כריית נתונים הוצע על ידי Chaurasia [7] ו- Pal על גילוי מחלות לב. WEKA כלי עבור כריית נתונים מכיל קבוצה של אלגוריתמים ללימוד מכונה למטרת הכרייה. Bayes, J48 נאיבי ו bagging משמשים פרספקטיבה זו. מעבדת הלמידה של UCI מספקת מידע על מחלת לב הכולל 76 מאפיינים. רק 11 מאפיינים משמשות לחיזוי. Bayes מספק דיוק 82.31%. J48 נותן 84.35% של דיוק. 85.03% הדיוק מושגת על ידי Bagging. Bagging מציע שיעור סיווג טוב יותר על סט נתונים זה.

Parthiban[8] ו- Srivatsa העמידו את מאמציהם לאבחון מחלת לב אצל חולי סוכרת על ידי שימוש בשיטות של לימוד מכונה. אלגוריתמים של Bayes נאיבי ו- SVM מוחלים באמצעות WEKA. משתמשים בקבוצת נתונים של 500 חולים שנאספו במכון המחקר של צ ‘נאי. חולים שיש להם את המחלה הם 142 וחולים שאין להם את המחלה הם 358 חולים. באמצעות אלגוריתם נאיבי מתקבל Bayes 74% הדיוק. SVM מספק את הדיוק הגבוה ביותר של 94.60.

Tan et al. [9] הציע טכניקה היברידית שבה שני אלגוריתמים של לימוד מכונה, המכונים, אלגוריתם גנטי (G.A) ותמיכת מכונת וקטור (SVM) מצטרפים ביעילות על ידי שימוש בגישת עטיפה משמשים בניתוח זה בכלי כריית נתונים LIBSVMו WEKA. חמש ערכות נתונים (איריס, מחלת הסוכרת, מחלת סרטן השד, מחלת לב הפטיטיס) נאספו מן ממאגר ממכונת למידה UC Irvine עבור הניסוי הזה. לאחר החלת GA ו- SVM גישה היברידית, 84.07% דיוק מושג עבור מחלת לב. עבור נתונים של סוכרת מושג דיוק של 78.26%. הדיוק של סרטן השד הוא 76.20%. נכונות של 86.12% מושגת עבור מחלת הפטיטיס. ייצוג גרפי של דיוק על פי הזמן עבור זיהוי של מחלת לב מוצג באיור 3.

ניתוח:

בספרות הקיימת, SVM מציעה את הדיוק הגבוה ביותר של 94.60% בשנת 2012, כמו בטבלה 1. באזורים רבים של היישומים, SVM מציג תוצאות ביצועים טובות. מאפיין או מאפיינים בשימוש על ידי Parthiban ו Srivatsa בשנת 2012 מגיבים כראוי על ידי SVM. בשנת 2015, Otoom et al. גרסת SVM בשימוש בשם SMO. הוא גם משתמש בטכניקת FS כדי למצוא את המאפיינים הטובות ביותר. SVM מגיב על מאפיינים אלה ומציע דיוק של 85.1% אבל זה נמוך יחסית כמו בשנת 2012. הדרכה ובדיקת נתונים של שתי קבוצות נתונים שונות, כמו גם, סוגי נתונים שונים.

תרשים 3 דיוק של אלגוריתמים לימוד מכונה עבור זיהוי מחלת לב.

טבלה 1 מבט מקיף של טכניקות לימוד מכונה עבור זיהוי מחלת לב

יתרונות וחסרונות של SVM:

יתרונות: בונה מסווגים נכון ופחות על התאמה, עמיד לרעש.

חסרונות: זהו מסווג בינארי. לסיווג רב שכבתי, זה יכול להשתמש בסיווג זוגי חכם. העלות החישובית שלו גבוהה, ולכן הוא פועל לאט [10].

2.2. מחלת הסוכרת

Iyer et al [11]. ביצע עבודה לחזוי מחלת הסוכרת באמצעות עץ החלטות ו Bayes נאיבי. מחלות מתרחשות כאשר הייצור של אינסולין אינו מספיק או שיש שימוש לא תקין של אינסולין. סט הנתונים המשמשים בעבודה זו הוא סט נתונים מסכרת אינדיאנית פימה. בדיקות שונות בוצעו באמצעות כלי כריית נתונים WEKA. בסט נתונים זה אחוז הפיצול (70:30) חזה טוב יותר מאשר אימות צולב. J48 מציג 74.8698% ו 76.9565% דיוק באמצעות אימות צולב ואחוז פיצול בהתאמה. Bayes נאיבי מציג 79.5652% נכונות באמצעות PS. אלגוריתמים מראה את הדיוק הגבוה ביותר על ידי ניצול אחוז פיצול הבדיקה.

אלגוריתמים מטא למידה לזיהוי מחלת הסוכרת נדונו על ידי Sen and Dash [12]. סט הנתונים המועסקים הוא סוכרת אינדיאנית Pima ,התקבל מ UCI מעבדת לימוד מכונה. WEKA משמש לניתוח. CART, Adaboost, Logiboost ו לדירוג אלגוריתמים למידה משמשים לחזות אם לחולה יש סוכרת או לא. תוצאות ניסוייות מושוות בשם סיווג נכון או שגוי. CART מציע 78.646% דיוק. Adaboost מקבל 77.864% דיוק. Logiboost מציעה את התקינות של 77.479%. לדירוג יש שיעור סיווג נכון של 66.406%. CART מציעה את הדיוק הגבוה ביותר של 78.646% ושיעור סיווג של 21.354%, שהוא קטן יותר לעומת טכניקות אחרות.

עבודה ניסיונית לחזות מחלת הסוכרת נעשית על ידי [Kumari andChitra [13. טכניקת לימוד מכונה המשמשת את המדען בניסוי זה היא SVM. ליבה(kernel) RBF משמש ב SVM לצורך סיווג. סט נתונים של סכרת אינדיאנית פימה מסופק על ידי מעבדה ללימוד מכונה באוניברסיטת קליפורניה, אירווין. MATLAB 2010a משמשים לביצוע הניסוי. SVM מציע דיוק של 78%.

Sarwar and Sharma[14] הציעו את העבודה על Bayes נאיבי עבור חיזוי של סוכרת סוג -2. למחלת הסוכרת יש 3 סוגים. סוג ראשון הוא סוכרת מסוג 1, סוכרת מסוג 2 היא הסוג השני וסוג שלישי הוא סוכרת הריונית. סוכרת מסוג 2 מגיעה מגידול ההתנגדות לאינסולין. מערך הנתונים כולל 415 מקרים ולמטרה של מגוון; הנתונים נאספים ממגזרים שונים של החברה בהודו. MATLAB עם שרת SQL משמש לפיתוח המודל. 95% חיזוי נכון מושגת על ידי Bayes נאיבי.

Ephzibah[15] הקים מודל לאבחון סוכרת. המודל המוצע מצטרף ל- GA וללוגיקה מטושטשת. הוא משמש לבחירה של סט מאפיינים הטובות ביותר וגם לשיפור דיוק הסיווג. עבור הניסוי, הנתונים נאספו ממעבדה למידה המכונה UCI שיש לה 8 מאפיינים ו 769 מקרים. MATLAB משמש ליישום. באמצעות אלגוריתם גנטי נבחרו רק שלוש מאפיינים / מאפיינים מיטביות. שלוש מאפיינים אלה משמשות על ידי מסווג לוגי מטושטש ומספק 87% דיוק. בסביבות עלות של 50% פחות מהעלות המקורית. טבלה 2 מספקת את המבט מקיף של טכניקות למידה של מכונות לאבחון מחלות סוכרת.

ניתוח:

מערכת Bayes נאיבית מבוססת על אבחון של מחלת הסוכרת. Bayes נאיבי מציע את הדיוק הגבוה ביותר של 95% בשנת 2012. התוצאות מראות כי מערכת זו יכולה לעשות חיזוי טוב עם שגיאה מינימלית וגם טכניקה זו חשובה לאבחון מחלת הסוכרת. אבל בשנת 2015, הדיוק המוצע על ידי Bayes נאיבי הוא נמוך. זה מציג 79.5652% או 79.57% דיוק. מודל זה המוצע לאיתור מחלת הסוכרת ידרוש יותר מידע על אימון ליצירה ולבדיקות. איור 4 מציג את גרף הדיוק של אלגוריתמים לאבחון מחלת הסוכרת על פי הזמן.

יתרונות וחסרונות של bayes נאיבי:

יתרונות: זה משפר את ביצועי הסיווג על ידי ביטול מאפיינים שאינן קשורים. הביצועים שלו טובים. זה לוקח פחות זמן חישובי.

טבלה 2 מספקת את המבט מקיף של טכניקות למידה של מכונות לאבחון מחלות סוכרת.

איור 4 מציג את גרף הדיוק של אלגוריתמים לאבחון מחלת הסוכרת על פי הזמן.

חסרונות: אלגוריתם זה צריך כמות גדולה של נתונים כדי להשיג תוצאות טובות. זהו אלגוריתם עצלן משום שהוא מאחסן את כל דוגמאות הכשרה [16].

2.3. מחלת כבד

Vijayarani[17] ו Dhayanand חוזים את מחלת הכבד באמצעות אלגוריתמים מסווגים, תמיכה במכונת וקטור ו bayes נאיבי. קבוצת הנתונים ILPD מתקבלת מ- UCI. מערך הנתונים כולל 560 מקרים ו -10 מאפיינים. ההשוואה נעשית על בסיס דיוק וביצוע זמן. Bays נאיבי מראה 61.28% נכונות ב 1670.00 ms. 79.66% דיוק מושגת ב 3210.00 ms על ידי SVM.ליישום, MATLAB משמש. SVM מראה את הדיוק הגבוה ביותר בהשוואה ל Bays נאיבי עבור חיזוי מחלות כבד. במונחים של ביצוע זמן, bayes נאיבי לוקח פחות זמן לעומת SVM.

מחקר על טכניקות חכמות לסיווג חולי הכבד מבוצע על ידי [Gulia et al. [18. קבוצת נתונים משומשים נאספת מ- WEKA. UCI כלי כריית נתונים וחמש טכניקות חכמות J48, MLP, אקראי יער, SVM ומסווג רשת בייסיאני משמשים עבור ניסוי זה. בשלב הראשון, כל האלגוריתמים מוחלים על מערך הנתונים המקורי ומקבלים את אחוז הנכונות. בשלב השני, שיטת בחירת המאפיין מוחלת על כל מערך הנתונים כדי לקבל את קבוצת המשנה המשמעותית של חולי הכבד וכל האלגוריתמים משמשים כדי לבדוק את המשנה של מערך הנתונים כולו. בשלב השלישי הם לוקחים השוואה של התוצאות לפני ואחרי בחירת המאפיין. לאחר FS, האלגוריתמים מספקים דיוק גבוה ככל ש- J48 מציג דיוק של 70.669%, 70.8405% מדויקת על ידי אלגוריתם MLP, SVM מספק 71.3551% דיוק, 71.8696% דיוק מוצע על ידי יער אקראי ו- Bayes Net מראה 69.1252% דיוק.

Rajeswari and Reena[19] השתמשו באלגוריתמים של כריית נתונים של כוכב Bayes, K נאיבי, ועץ FT כדי לנתח את מחלת הכבד. מערך הנתונים נלקח מתוך UCI הכולל 345 מקרים ו 7 מאפיינים. 10 מבחני אימות צולבים מוחלים באמצעות כליBayes .WEKA נאיבי מספק 96.52% נכונות ב 0 שניות. 97.10% דיוק מושגת באמצעות עץ FT ב 0.2 שניות. אלגוריתם כוכב K מסווג את המופעים על 83.47% במדויק ב 0 שניות. על בסיס התוצאות, דיוק הסיווג הגבוה ביותר מוצע על ידי עץ FT על מערכי מחלות כבד בהשוואה לאלגוריתמים אחרים של כריית נתונים. טבלה 3 מציגה את המבט הכולל על אלגוריתמים לאיתור מחלת כבד.

ניתוח:

כדי לאבחן מחלת כבד, אלגוריתם עץ FT מספק את התוצאה הגבוהה ביותר בהשוואה לאלגוריתמים אחרים. כאשר אלגוריתם עץ FT מוחל על מערך הנתונים של מחלת כבד, הזמן שנלקח לתוצאה או בניית המודל הוא מהיר בהשוואה לאלגוריתמים אחרים. על פי המאפיין שלו, זה מראה את הביצועים המשופרים.

אלגוריתם זה מסווג באופן מלא את המאפיינים ומציע 97.10% נכונות. מהתוצאות, אלגוריתם זה ממלא תפקיד חשוב בקביעת דיוק סיווג משופר של קבוצת נתונים. גרף דיוק של אלגוריתמים מוצגים באיור 5.

יתרונות וחסרונות של FT:

יתרון: קל לפרש ולהבין; חיזוי מהיר.

חסרון: החישובים מורכבים בעיקר אם הערכים אינם בטוחים או אם מספר תוצאות מקושרות.

2.4. מחלת דנגי

Tarmizi et al[20]. ביצע עבודה עבור גילוי התפרצות מלזיה דנגי באמצעות מודלים של כריית נתונים.

טבלה 3 מספקת את המבט מקיף של טכניקות למידה של מכונות לאבחון מחלות כבד.

תרשים 5 דיוק של אלגוריתמים לימוד מכונה עבור זיהוי מחלת כבד.

דנגי הופכת למחלה מידבקת קשה. זה יוצר צרות באותן מדינות שבהן מזג האוויר לח למשל תאילנד, אינדונזיה ומלזיה. עץ החלטה (DT), רשת עצבית מלאכותית (ANN), ותאוריית Rough Set (RS) הם אלגוריתמי הסיווג המשמשים במחקר זה לחיזוי מחלת דנגי. מערך הנתונים נלקח מתוך מחלקת בריאות הציבור של מדינת סלנגור. WEKA כלי כריית נתונים, משתמשים בשתי בדיקות (10 אימות חוצה ואחוז פיצול). באמצעות 10- אימות חוצה, עץ החלטות מציע 99.95% דיוק, רשת עצבית מלאכותית מציג 99.98% של נכונות ותאוריית RS מראה 100% דיוק. לאחר שימוש PS, עץ החלטה ורשת עצבית מלאכותית, שניהם נותנים 99.92% של נכונות. ותאוריית RS משיגה 99.72% דיוק.

Fathima[21] ו Manimeglai ביצעו עבודה לחיזוי מחלת וירוס דנגי. אלגוריתם לכריית נתונים המשמשים את החוקרים האלה הם תמיכת וקטור מכונה. נתונים שנקבעו לניתוח התקבלו ממכון המלך לרפואה מונעת וסקרים של בתי חולים ומעבדות רבות של צ’נאי וטירונלווי מהודו. המידע מכיל 29 איפיונים ו 5000 דגימות. הנתונים הם על ידי פרוייקט R אלגוריתם גרסה 2.12.2. הדיוק שהושג על ידי SVM הוא 0.9042.

Ibrahim et al[22]. הציעו מערכת שבה רשת עצבית מלאכותית משמשת לחיזוי קדחת החום בחולי דנגה. רק סימנים ותסמינים קליניים משמשים את המערכת המוצעת לאיתור. הנתונים נאספו מ -252 חולים המאושפזים, בהם 4 חולים סובלים מ- DF (קדחת דנגה) ו -248 חולים סובלים מ- DHF (קדחת דמגית). השתמשו בארגז כלים של רשת עצבית של MATLAB. השתמשו בניסוי זה באלגוריתם רב שכבתי שמזין קדימה – רשתות עצביות (MFNN). MFNN ב DF ו DHF ניבאו עם 90% נכונות, קדחת של חום.

איור 6 מציג את גרף הדיוק של כל האלגוריתמים לאבחון מחלת דנגי.

ניתוח:

טכניקות שונות ללימוד מכונה משמשות לאבחון מחלת דנגי.

מחלת הדנגי היא אחת ממחלות מדבקות קשות. כמו בטבלה 4, לאיתור מחלת דנגה, תורת ה- RS מציגה את התוצאה הגבוהה ביותר בהשוואה לאלגוריתמים אחרים.

תרשים 6 דיוק של אלגוריתמים לימוד מכונה עבור זיהוי מחלת דנגי.

טבלה 4 מספקת את המבט מקיף של טכניקות למידה של מכונות לאבחון מחלות דנגי.

בשנים 2005 ו -2012, החוקרים השתמשו באלגוריתמים שונים אך לא השיגו תוצאה ושיפורים גבוהים. בשנת 2013, הדיוק השתפר באמצעות RS. הוא מסוגל לנהל חוסר ודאות, רעש ונתונים חסרים. לצורך סיווג, מסווג RS שפותח מבוסס על תיאורית קבוצה קשוחה. בחירת המאפיין מעצימה את המסווג כדי לעלות על הדגמים האחרים. RS היא שיטה מבוססת כלל מבטיח המציע מידע משמעותי. RS הוא גם הטוב ביותר מרשת עצבית בטווח הזמן. NN לוקח הרבה זמן לבנות מודל. DT הוא אלגוריתם מורכב ויקר. RS לא צריך שום מידע ראשוני נוסף על נתונים, אבל עץ ההחלטה צריך מידע.

יתרונות וחסרונות של RS:

יתרונות: קל מאוד להבין ומספק הבנה ישירה של התוצאה שהושגה. הוא מעריך את משמעות הנתונים. זה מתאים גם עבור נתונים איכותיים וכמותיים. הוא מגלה את הדפוסים הנסתרים. הוא גם מוצא קבוצה מינימאלית של נתונים. זה יכול למצוא מערכת יחסים שלא ניתן לזהות על ידי שיטות סטטיסטיות.

חסרונות: אין לה כל כך הרבה מגבלות עדיין לא בשימוש נרחב.

2.5. מחלת הפטיטיס

Ba-Alwi[23] ו- Hintaya הציעו ניתוח השוואתי. אלגוריתמים לכריית נתונים המשמשים לאבחון מחלות צהבת הם Bayes נאיבי, Bayes נאיבי מעודכן, עץ FT , K כוכב, J48, LMT, ו NN. נתונים על מחלת הפטיטיס נלקחו ממאגרי הלמידה של מכונת למידה UCI. סיווג התוצאות הנמדדות במונחים של דיוק וזמן. ניתוח השוואתי נלקח באמצעות קשרים עצביים ו WEKA: כלי כריית נתונים. התוצאות הננקטות באמצעות חיבור עצבי נמוכות יותר מהאלגוריתמים המשמשים ב- WEKA. בניתוח זה של אבחון המחלה הפטיטיס, הטכניקה השנייה המשמשת היא תיאורית RS,באמצעות WEKA. ביצועים של הליך RS עדיפים מ NN במיוחד במקרה של ניתוח נתונים רפואיים. Bayes נאיבי נותן את הדיוק של 96.52% ב 0 שניות. 84% דיוק מושגת על ידי אלגוריתם Bayes נאיבי מעודכן ב 0 שניות. ב 0.2 שניות FT עץ מציג את הדיוק של 87.10%. K כוכב מציע 83.47% נכונות. הזמן שנלקח עבור אלגוריתם כוכב K הוא 0 שניות. נכונות של 83% מושגת על ידי J48 והזמן ש J48 לוקח לסיווג הוא 0.03 שניות. LMT מספק 83.6% דיוק 0.6 שניות. רשת עצבית מראה 70.41% של נכונות. אלגוריתם הסיווג הטוב ביותר הוא Bayes נאיבי הוא בשימוש בטכניקת RS. הוא מציע דיוק גבוה בזמן מינימלי.

Karlik [24] מציג ניתוח השוואתי של Bayes נאיבי ומפיצי סיווג אחוריים כדי לאבחן מחלת הפטיטיס. היתרון העיקרי של שימוש במסווגים אלו הוא שהם דורשים כמות קטנה של נתונים עבור סיווג. סוגי הפטיטיס הם “A, B, C, D ו- E”. אלה נוצרים על ידי וירוסים שונים של הפטיטיס. קוד תוכנה פתוח “כורה מהיר” משמש בניתוח זה. קבוצת נתוני הפטיטיס נלקחת מ- UCI. מערך הנתונים כולל 20 מאפיינים ו 155 מקרים. 15 מאפיינים משמשים בניסוי זה. מסווג Bayes נאיבי נותן 97% דיוק. שלוש שכבות הזנה קדימה NN משמשים מאומנים עם אלגוריתם התפשטות חזרה 155 מקרים משמשים לאימון. נכונות של 98% מושגת.

Sathyadevi [25] העסיק אלגוריתמים C4.5, ID3 ו- CART לאבחון המחלה של הפטיטיס. מחקר זה משתמש בנתוני המטופלים של הפטיטיס מ .UCI WEKA, כלי המשמש בניתוח זה. CART הציע ביצועים מעולים של ערכים חסרים. אז, אלגוריתם CART מראה דיוק הסיווג הגבוה ביותר של 83.2%. אלגוריתם ID3 מציע 64.8% דיוק. 71.4% מושג על ידי אלגוריתם C4.5. עץ החלטה בינארי (DT) שנוצר על ידי אלגוריתם CART יש רק שניים או לא ילדים. DT שנוצר על ידי C4.5 ו ID3 יכול להיות שני ילדים או יותר. CART אלגוריתם מבצע היטב במונחים של דיוק ומורכבות הזמן.

ניתוח:

אלגוריתמים רבים שימשו לאבחון מחלות שונות. טבלה 5 נותנת מבט כולל. עבור זיהוי של מחלת הפטיטיס, הזנה קדימה של רשת עצבית עם התפשטות חזרה מראה דיוק הגבוה ביותר של 98%. כי במודל זה, שלוש שכבות הזנה קדימה של רשת עצבית מאומנות עם אלגוריתם התפשטות שגיאה בחזרה. אימון התפשטות חזרה, יחד עם הכלל של מרווח למידה הוא אלגוריתם שיפוע איטרטיבי המתוכנן להפחית את RMSE “שורש ממוצע מרובע השגיאה” בין הפלט האמיתי של רשתות הזנה קדימה רב שכבתיות הפלט הרצוי שלהן. כל שכבה מחוברת לשכבה הקודמת ואין לה חיבור אחר. התוצאה הטובה ביותר השנייה מוצעת על ידי Bayesנאיבי. אבל במונחים של זמן לבניית מודל, Bayes נאיבי פועל מהר בהשוואה לרשת העצבית. גישה פיגורטיבית לזיהוי הפטיטיס מוצגת באיור 7.

יתרונות וחסרונות של NN:

יתרונות: למידה מסתגלת, ארגון עצמי, ביצוע סובלנות תקלה בזמן אמת באמצעות קידוד מידע יתירים.

חסרונות: פחות התאמה צריך מאמץ חישובי גדול. גודל המדגם חייב להיות גדול. זה צורך זמן רב. שיפוט ההנדסה אינו מפתח את היחסים בין משתני קלט ותשומה, כך שהמודל מתנהג כמו קופסה שחורה [26].

3. דיונים וניתוח של טכניקות למידת מכונה

עבור אבחון של מחלות לב, סוכרת, כבד, דנגי הפטיטיס, כמה אלגוריתמים של מכונת למידה הינם בעלי ביצועים טובי מאוד. מן הספרות הקיימת, מצוין כי אלגוריתם Bayes נאיבי ו SVM נמצאים בשימוש נרחב אלגוריתמים עבור איתור מחלות.

טבלה 5 מספקת את המבט מקיף של טכניקות למידה של מכונות לאבחון מחלות היפטיטיס.

תרשים 7 דיוק של אלגוריתמים לימוד מכונה עבור זיהוי מחלת היפטיטיס.

שני האלגוריתמים מציעים דיוק טוב יותר בהשוואה לאלגוריתמים אחרים. רשת עצבית מלאכותית היא גם שימושית מאוד לחיזוי. זה גם מראה את התפוקה המקסימאלית אבל זה לוקח יותר זמן לעומת אלגוריתמים אחרים. אלגוריתמי עצים משמשים גם הם אך לא השיגו הסכמה רחבה בשל המורכבות שלהם. הם גם מראה דיוק משופר כאשר הוא הגיב כראוי למאפיינים של קבוצת הנתונים. תאורית RS אינה בשימוש נרחב, אך היא מציגה פלט מרבי.

4. מסקנה

מודלים סטטיסטיים לאמידה שאינם מסוגלים לייצר תוצאות ביצועים טובות הציפו את מרחב ההערכה. מודלים סטטיסטיים אינם מצליחים להחזיק נתונים קטגוריים, להתמודד עם ערכים חסרים ונקודות נתונים גדולות. כל הסיבות הללו העלו את החשיבות של טכניקות לימוד מכונה. לימוד מכונה משחק תפקיד חיוני ביישומים רבים, למשל זיהוי תמונות, כריית נתונים, עיבוד שפה טבעית ואבחון מחלות. בכל התחומים הללו, לימוד מכונה מציעה פתרונות אפשריים. מאמר זה מספק את הסקר של טכניקות למידה שונות של מכונות לאבחון של מחלות שונות כגון מחלות לב, מחלת הסוכרת, מחלות כבד, דנגי ומחלת הפטיטיס. אלגוריתמים רבים הראו תוצאות טובות משום שהם מזהים את המאפיין במדויק. ממחקר קודם, מצוין כי עבור גילוי של מחלת לב, SVM מספק דיוק משופר של 94.60%. מחלת סוכרת מאובחנת במדויק על ידי Bayes נאיבי. הוא מציע את דיוק הסיווג הגבוה ביותר של 95%. FT מספק 97.10% של נכונות לאבחון מחלות כבד. עבור זיהוי מחלת דנגי, דיוק 100% מושג על ידי תאוריית RS. ההזנה של מערכת העצבים קדימה מסווגת נכונה את מחלת הפטיטיס, שכן היא מספקת דיוק של 98%. הסקר מדגיש את היתרונות והחסרונות של אלגוריתמים אלה. תרשימי שיפור של אלגוריתמי למידה של מכונה לחיזוי מחלות מוצגים בפירוט. מניתוח, ניתן לראות בבירור כי אלגוריתמים אלה מספקים דיוק משופר על מחלות שונות. מאמר זה גם מספק חבילות כלים שפותחו בקהילה של בינה מלאכותית. כלים אלו הם מאוד שימושים לניתוח של בעיות כאלו וגם מספקים הזדמנות לשיפור תהליך קבלת ההחלטות.

העדכון אחרון:	פברואר 7, 2025
שוחרר:	נובמבר 25, 2020

כניסת מפרסמים

(26/05/2026) עלו היום לאתר 9 סמינריונים 2 תזות 2 מאמרים

חיפוש חדש

Specification

Immune recognition of somatic mutations leading to complete durable regression in metastatic breast cancer

Learning vocabulary in another language (הצעה לתרגום חלק מתוך ספר)

Vocabulary in Language Teaching (הצעה לתרגום חלק מספר)

New Technology and Health Care Costs the case of Robot-Assisted Surgery

חלמנו והשואה

סיוע בכתיבת עבודה מקורית ללא סיכונים מיותרים!

כניסת מפרסמים

Specification

מוצרים דומים

Immune recognition of somatic mutations leading to complete durable regression in metastatic breast cancer

Learning vocabulary in another language (הצעה לתרגום חלק מתוך ספר)

Vocabulary in Language Teaching (הצעה לתרגום חלק מספר)

New Technology and Health Care Costs the case of Robot-Assisted Surgery

חלמנו והשואה

סיוע בכתיבת עבודה מקורית ללא סיכונים מיותרים!