לורה פאולנר
אוניברסיטת טקסס, אוסטין, טקסס
ההנחה הרווחת היא כי 5 משתתפים מתאימים לבדיקת שימושיות. במחקר זה נבדקו 60 משתמשים וקבוצות אקראיות של 5 או יותר נדגמו מכל, כדי להדגים את הסיכונים בשימוש של רק 5 משתתפים ואת היתרונות של שימוש ביותר. בחלק מהקבוצות שנבחרו באקראי של 5 משתתפים נמצאו 99% מהבעיות; בקבוצות אחרות נמצאו רק 55%. עם 10 משתמשים, האחוז הנמוך ביותר של בעיות שהוגדרו על ידי קבוצה אחת הוגדל ל -80%, ועם 20 משתמשים ל -95%.
מומחי שימושיות רבים המתמודדים עם תקציבים מוגבלים והכרה משתמשים רק ב -5 משתתפים לבדיקת יכולת, ולא בדגימות גדולות יותר, שנדרשות בדרך כלל למחקר אמפירי. מספר רב של מבחני (מפגשי) מבחן מצריכים משאבים שאינם זמינים בקלות למתרגלי שימושיות, שהם לעתים קרובות משתתפים עצמאיים בתוך קבוצת פיתוח או חברה. למרות מאמצי המשיכה של אנשי מקצוע בתחום השימושיות, על מנת להשיג את עניינם ואת מנהגיהם, עבדו מתרגלים אחרים על השאלה אם מה שהמחבר הזה כינה את ההנחה של 5 משתמשים היה מתאים ומייצג את שיטות העבודה המומלצות עבור השדה. מאמרים עם כותרות כגון למה חמישה משתמשים אינם מספיק (Woolrych & Cockton, 2001) ו-8 לא מספיק (Perfetti & Landesman, 2002) מבקרים את ההנחה, מדגישים את בעיות האמינות עם קבוצות משתמשים קטנות, ומביעים חשש לגבי ההשפעה של בעיות שימושיות שעשויות להיות מוחמצות כאשר רק 5 משתמשים נבדקים.
מחקרים מוקדמים התומכים בהנחה טענו שרק 5 משתתפים יכלו לגלות כ 80% – מכל בעיות השימושיות הקיימות במוצר (Nielsen 1993; Virzi, 1992) . נתון זה מציין הסתברות של אחוז הבעיות שחסר; אין כיום אפשרות לקבוע בוודאות סבירה שכל סדרה של 5 בדיקות תואמת את האחוזים האלה, או אילו בעיות מסוימות נחשפו או החמיצו (Woolrych & Cockton, 2001) . יתר על כן, אם, לדוגמה, רק משתמשים מתחילים (טירונים) נבדקו, ייתכן שמספר גדול של בעיות שימושיות התגלו, אך הבדיקה לא תציג את החומרה ביותר ותגיע לתיקוני הקדם הגבוהים ביותר. תוצאות מומחים עשויות להדגיש בעיות חמורות או חריגות, אך להחמיץ בעיות שהן קטלניות עבור משתמשים מתחילים. לבסוף, הטענה המופשטת לטובת ההתייחסות תלויה בעצמאות הבעיות המתעוררות – כלומר, המפגש עם אחת מהן לא יגדיל או יקטין את הסבירות להיתקל בבעיה אחרת.
מחבר זה חוזה דרך לטפל בבעיות אלה: ביצוע בדיקות שמישות שבהן נאספים נתונים מדגמים גדולים יותר של משתמשים מדורגים. אם ניתן יהיה להציג את הנתונים המתקבלים בצורה נגישה עבור אנשי מקצוע בעלי יכולת, שאינם בקיאים במכלול הנתונים הסטטיסטיים, המתרגלים יכולים לבוא ולהבין את הסיכונים של ההנחה של 5 משתמשים ואת היתרונות של משתמשים נוספים.
רקע כללי
ההנחה של 5 משתמשים נובעת משני מקורות:
הממצא החיוני של Virzi (1992) היה 5 משתמשים יחשפו בערך כ 80% של בעיות השימושיות במוצר. במקרים של טעויות חמורות ביותר, הוא ציין כי רק 3 משתמשים יגלו את רוב הבעיות. הוא חישב את גדלי המדגם השונים כנגד מספר השגיאות שגילו 12 משתמשים במחקר הראשון ו -20 במחקר השני והשלישי.
במשך זמן מה, נילסן כבר כתב כתמיכה ברעיון כי 5 משתמשי מבחן מספיקים בבדיקות שימושיות (Landauer & Nielsen, 1993, Nielsen, 1993) וממשיכים להיות תומכים חזקים בהנחה (Nielsen, 2000) . הוא ביסס את החישובים הראשוניים של שיעורי השגיאות של המשתמש על נתונים מ -13 מחקרים. בחישוב רווחי הסמך הוא השתמש בהתפלגות z , המתאימה לגודל מדגם גדול, ולא לפי התפלגות t , המתאימה לגודל מדגם קטן. שימוש ב- z משפיע על כוח התחזיות שלו; למשל, מה שהוא מחשיב כמרווח ביטחון של ± 24% יהיה בפועל ± 32% (Grosvenor, 1999) . Woolrych and Cockton (2001) בדקונסטרוקציה (פירוק) המפורט של הנוסחה של לנדאוור ושל נילסן (1993), אישרו את הפוטנציאל להערכת יתר מהימנותם של תוצאות בדיקות השימושיות במדגם קטן, והדגימו את הערך הקבוע המנופח שהונפק על ידי לנדאוור ונילסן על ההסתברות כי כל משתמש ימצא כל בעיה.
נילסן (1993) ו- (1992) Virziעשו ניסיונות לתאר את המגבלות של המלצותיהם ל- 5 משתמשים. וירזי הצביע על כך שיש “להריץ נבחנים עד אשר מספר הבעיות החדשות שנחשפו הינן ברמה מקובלת” (עמ’ 467), ומשאיר את המתרגל להגדיר מהי “רמה מקובלת”. נילסן (1993) כלל הסברים על “מרווח ביטחון” ומה בעצם החישובים מצביעים; עם זאת, מתרגלים נוטים לאמץ מספר מינימלי של משתמשי בדיקה, בפרט, 5. מתרגלים אסירי תודה השקיפו על הצהרת ההתאמה בטקסט של נילסן (1993), שמציין כי 5 משתמשים “עשויים להספיק לפרויקטים רבים” (עמ’ 169). לאחר מכן הם שיתפו את המידע באמצעות קשרי הדרכה, ובכך הפיצו את ההנחה של 5 משתמשים (Grosvenor, 1999).
ההנחה נבדקה על ידי נילסן (1993) באמצעות נתונים מבדיקות השימושיות של אנשי מקצוע אחרים, על-ידי Virzi (1992) במבחנים ישירים, אך על ידי ניבוי תוצאות ממספר קטן של משתמשים, על ידי Woolrych ו- Cockton (2001) בניתוח משני של נתונים ממחקר הערכה היוריסטי, ועל ידי Spool ו- Schroder (2001) במבחן מונחה מטרה בלתי מובנית.
המחקר הנוכחי נועד לבחון את ההנחה של 5 משתמשים באופן ישיר ומובנה. הנתונים שהורכבו על ידי 60 המשתמשים במבחן אפשרו את הדגימה של התוצאות בקבוצות של 5 או יותר, תוך השוואת הבעיות שזוהו על ידי כל קבוצה כנגד סך הבעיות שזוהו על ידי הקבוצה כולה. תהליך זה שימש כדי לקבוע את ההשפעה של קבוצות בגדלים שונים על מספר בעיות שימושיות שיימצאו, אמינות נתונים, ביטחון.
שיטה
המחקר היה מבחן שמישות מובנה של יישום גיליון זמן מבוסס אינטרנט. שישים משתמשים המשתתפים קיבלו משימה אחת של השלמת גיליון זמן שבועי וכן סופקו להם נתונים הספציפיים שאמורים להיכנס. במקום להתמקד רק על טירונים (מתחילים) או מומחים, מחקר זה נועד ללכוד מגוון רחב של נתוני משתמש במבחן שימושיות יחיד. 60 המשתתפים, אם כן, נדגמו משלוש רמות של חוויית המשתמש וקיבלו את הכינויים הבאים:
(1) טירון / טירון (משתמשי מחשב לא מנוסים שמעולם לא השתמשו ביישום); (2) מומחה / טירון (משתמשי מחשב מנוסים שמעולם לא השתמשו ביישום); ו (3) מומחה / מומחה (משתמשי המחשב מנוסים שהיו גם מנוסים עם היישום).
כל הפעלות הבדיקה נערכו במקום אחד באותו מחשב כדי לשלוט על ביצועי המחשב ועל וריאציה סביבתית. שני סוגי נתונים נאספו: (1) זמן, שנמדד בדקות על מנת להשלים את משימת הבדיקה ו-(2) סטיות משתמשים, הנמדדות על גבי גיליון איסוף נתונים טבלאי, אשר תוכנן על מנת להבטיח כי אותם סוגי נתונים נאספו מכל מפגש. המאפיין העיקרי של גיליון הנתונים היה רשימה מפורטת של פעולות המשתמש ואת שמות החלונות והאלמנטים הספציפיים שבהם המשתמשים יפעלו כדי לבצע כל פעולה. רשימת הפעולות נוצרה על ידי קביעת הנתיב האופטימלי להשלמת המשימה – במיוחד, סדרה של צעדים שיאפשרו למשתמש להשלים את המשימה הנתונה עם המערך הפשוט והמהיר ביותר של פעולות. התנהגות המשתמש בפועל נרשמה על ידי סימני סימון פשוטים לצד כל צעד נתיב אופטימלי בכל פעם שהמשתתף סטה מאותו שלב. סטיות מרובות על צעד אחד צוינו בסימני סימני מרובים. המדד הבסיסי שנכלל במחקר זה היה מספר החריגות של כל משתמש על כל האלמנטים.
תוצאות וניתוח
התוצאות העיקריות היו ברורות וצפויות (ברות חיזוי), כאשר סטיית התקן והזמן לסיום היו גבוהים יותר עבור אלו עם פחות ניסיון ונמוך יותר עבור בעלי ניסיון רב יותר, כפי שמוצג בטבלה 1. סטיות תקן (SD) היו גדולות, כפי שמקובל במחקרי שמישויות (Nielsen, 1993), עם קבוצת טירון / טירון שבה היתה הגדולה ביותר בשתי המדידות. ההבדלים בין הקבוצות היו קטנים יותר ברמות החוויה הגבוהות. בדיקות פוסט-הוק הראו שכל אחת משלוש הקבוצות נבדלה באופן משמעותי מהאחרות בסטיות משתמשים [F (2,57) = 70.213, p <.01] והזמן להשלים [F (2,57) = 63.739, p<.01].
כדי לתאר דוגמאות אקראיות של נתוני משתמש ממערך הנתונים, המחבר כתב תוכנית ב- MATLAB שאפשרה תיאור של כל גודל מדגם מתוך 60 משתמשים. התוכנית הריצה 100 ניסויים כל אחד, דגימה של 5, 10, 20, 30, 40, 50 וכל ה-60 משתמשים. הקבוצה המלאה של 60 משתמשים זיהתה 45 בעיות. בהסכם עם התצפיות של נילסן (1993) ו- Virzi (1992), האחוז הממוצע של האזורים הבעייתיים שנמצאו ב -100 ניסויים של 5 משתמשים היה 85%, עם SD של 9.3 ומרווח סמך של 95% של ± 18.5%. אחוז האזורים הבעייתיים שנמצאו על ידי קבוצה אחת של 5 משתמשים נע בין 55% לכמעט 100%. לכן, היה וריאציה גדולה בין ניסויים של דגימות קטנות.
הוספת משתמשים הגדילה את האחוז המינימלי של בעיות שזוהו. קבוצות של 10 נמצאו 95% מהבעיות (SD = 3.2, רווח סמך 95% = 6.4). טבלה מס’ 2 מראה כי קבוצות של 5 נמצאו כ – 55% מהבעיות, ואין קבוצה של 20 שמצאו פחות מ 95%. אפילו דרמטית מזה היתה ירידה בשונות כאשר משתמשים נוספו. איור 1 ממחיש את האמינות המוגברת של התוצאות כאשר 5, 10 ו -15 משתמשים נוספו למערכות המקוריות של 5.
לסיכום, הסיכון להסתמך על כל קבוצה אחת של 5 משתמשים הוא שכמעט כמחצית הבעיות המזוהות היו יכולים להתפספס; עם זאת, כל תוספת של משתמשים הגדילו במידה ניכרת את הסיכויים למצוא את הבעיות.
דִיוּן
מחקר זה תומך בטענות הבסיסיות של נילסן (1993) ו- (1992) Virzi, אך לא בהנחה שמפעילי השימושיות בנו סביב הטענות הללו – בעיקר, ש-5 משתמשים הם מדגם מספק עבור כל בדיקת שימושיות. רק במקרה, מתרגל יכול להיתקל במדגם של 5 משתמשים שיחשוף רק 55% מהבעיות או אולי פחות, אך על סמך ההנחה של 5 משתמשים, עדיין מאמינים שהמשתמשים מצאו 85%. יתר על כן, מחקר זה סיפק התייחסות ויזואלית עבור מתרגלים ליישם את המושג של השתנות כדי להבין בקלות את האמינות הגוברת של נתונים עם כל קבוצה של משתתפים המוספת למבחן השימושיות.
Hudson(2001) מצביע על כך שמספר קטן של משתתפים עשוי לשמש ב”בדיקות מפורטות וממוקדות היטב”. ה- SD הגבוה במחקר הנוכחי התרחש גם בתוך ביקורת המוגדרת היטב והטבע המובנה של הניסוי. ההשתנות הפכה לבעיה שכיחה יותר, כאשר בדיקות השימושיות הרחיבו לבדיקות לא מובנות של אתרי אינטרנט (Spool & Schroeder, 2001). יתרה מזו, היעדר הבקרות בבדיקות השימושיות בעולם האמיתי מספק הזדמנויות רבות יותר ל – ns לא שוויונית בין קבוצות משתמשים שונות, ובכך יוצרים סיכון גדול יותר להפר את ההנחה של הומוגניות של שונות.
בעיה בהסתמכות על תיאוריות הסתברותיות ועל מודלים לחיזוי לבדיקת שימושיות, כפי שהוצע על ידי נילסן (1993) ו- Virzi (1992), היא שבמצב יישומי קשה לחשב במדויק את ההסתברות למצוא בעיית שימושיות מסוימת (Woolrych & Cockton, 2001). לכל בעיית שימושיות יש את ההסתברות שלה להימצא, בשל גורמים כגון חומרה, תכונות משתמש, סוג המוצר, רמת המבנה במבחן ומספר המשתמשים שנבדקו (Grosvenor, 1999; Woolrych & Cockton, 2001). במונחים של חומרה, למשל, לבעיה בולטת יש סבירות גבוהה להימצא, אבל לבעיה מתוחכמת יש סבירות נמוכה יותר; נדרשים יותר משתמשים לבדיקות על מנת למצוא בעיות בחומרה נמוכה יותר מבעיות בחומרה גבוהה (Virzi, 1992). לרוע המזל, לבעיה העדינה יש השלכות חמורות יותר, כפי שקרה בהתרסקות של מטוס אמריקן איירליינס ב-1995, טיסה 965 ליד Cali, קולומביה, התאונה של שלושת המייל באיסלנד ב -1979, ואירועים דומים, שבהם שימוש אחד או יותר מתוחכם בעיות תרמו באופן משמעותי לאסונות (Reason, 1997; Wentworth, 1996). הבעיות המתוחכמות באותם מקרים התפספסו ע”י מספר רב של משתמשים קודמים במערכת, ולפיכך היו מתפספסים ע”י קבוצות שימושיות קטנות.
מסקנות (סיכום)
אולי ההיבט המטריד ביותר בהנחה של 5 משתמשים הוא שהמתרגלים אימצו זאת בקלות ובאינטגרציה רבה, מבלי להבין את מקורותיה ואת ההשלכות (למשל, במחקר זה, שכל קבוצה של 5 משתמשים עשויה לחשוף רק 55% בעיות שימושיות). הסתמכות על שיעור דיוק של 80% למציאת טעויות שימושיות מדגימה את האמונה שהפעולות של 5 המשתמשים יהיו תמיד בתוך הממוצע ו -80% מבעיות השימושיות אכן התגלו.
גם נילסן (1993) וגם Virzi (1992) כתבו באווירה שבה מושגים של שמישות רק הוצגו לתוך תחום פיתוח התוכנה, כפי שהם עדיין בארגונים רבים. הם חתרו להבהיר את הדרישות של בדיקות שמישות על מנת להפוך את שיטות השימושיות לאטרקטיביות יותר לאלה שעובדים עם תקציבים מוגבלים ובסביבת המפתחים של תעשיית התוכנה. נילסן עצמו נחשב כממציא של “שימושיות בהנחה”. עם זאת, ככל שמדובר בשימושיות רבה יותר כמאמצי הפיתוח, ייתכן שארגוני התוכנה ייאלצו לחשוב מחדש על מידת הסיכוי של 70% למצוא 80% בעיות השימושיות במוצר נתון (Nielsen, 1993).
למרות אהבת המתרגלים להשערה של 5 משתמשים, התשובה לשאלה “כמה משתמשים נדרשים לבדיקת השימושיות בממשק?” נותרת מעורפלת, “תלוי”. משתנים שעליהם יש למתרגלים רמות משתנות של שליטה, כגון סוגי משתמשים לבדיקות זמינות או נגישים למתרגלים, קריטיות המשימות של המערכת, או ההשלכות האפשריות של כל בעיית שימושיות מסוימת, יכולה להשפיע באופן מעמיק על מספר המשתמשים הבדיקות הנדרשים כדי לקבל מידע מדויק ותוקף תוצאות. ההנחות הטמונות בנוסחאות ובמודלים המתמטיים שניסו על ידי נילסן (1993, 2000) ואחרים, והמידע הנדרש לשימוש בנוסחאות אלה, כגון ההסתברויות, הופכות אותן לבלתי מעשיות ומטעות עבור מתרגלי שמישות רגילים. למרות שהמתרגלים אוהבים תשובות פשוטות להנחיה, כגון ההשערה של 5 משתמשים, התשובה הברורה היחידה לבדיקות השימושיות התקפות היא שמשתמשי הבדיקה חייבים לייצג את אוכלוסיית היעד. הסוגיה החשובה והמורכבת, אם כן, הופכת את אוכלוסיית היעד. ישנן אסטרטגיות שבודק יכול להעסיק כדי להגיע לשיעור דיוק גבוה יותר בבדיקת שימושיות. אחד מהן זה למקד את הבדיקות על המשתמשים עם מטרות ויכולות המייצגים את אוכלוסיית המשתמשים הצפויה. בעת השמת מוצר לאוכלוסייה כללית, יש צורך להפעיל משתמשים רבים, בעלי רמות ניסיון שונות ובעלי יכולות שונות, ככל האפשר. תכנון עבור אוכלוסיית משתמשים מגוונת ובדיקות שימושיות הן משימות מורכבות. רצוי להפעיל את המספר המרבי של משתתפים שלוחות הזמנים, התקציבים והזמינות מאפשרים. יש לצוטט את היתרונות המתמטיים של הוספת מבחני משתמשים. יותר מבחני משתמשים משמעו סיכוי רב יותר, כי הבעיות שיש לתקן יימצאו/ ייחשפו; כפי שמוצג בניתוח עבור מחקר זה, הגדלת המספר מ-5 ל-10 יכול לגרום לשיפור דרמטי באבטחת הנתונים. הגדלת מספר הנבדקים ל -20 יכול לאפשר למתרגל להתקרב לרמות מוגברות של ודאות כי אחוז גבוה של בעיות שימושיות קיימות יימצאו בבדיקה. במערכת קריטית למשימה, יש לבחון קבוצות משתמשים גדולים בכל רמות החוויה. אסטרטגיות שימושיות מרובות צריכות להיות מיושמות לבדיקות משלימה ותוספות.
תוצאות בדיקות שמישות הופכות לטיעונים חזקים עם צוותי תכנון, ויכולות להיות בעלות השפעות משמעותיות על מוצרים בתחום. לדוגמה, במכלול המערכות המורכבות, ובנוהג המקובל של שילוב מוצרי תוכנה מסחריים מהמדף למערכות חדשות, לא תמיד ניתן לצפות את ההשלכות של בעיות שימושיות בתוכנה, גם בתוכניות פשוטות לכאורה. הטענה החזקה יותר ליישום בדיקות שימושיות בתוכנה, אם כן, היא שלא ניתן לעשות זאת בזול, למשל, עם 5 משתמשי בדיקה, אך ההשלכות של פספוס בעיות השימושיות הן חמורות דיין כדי להצדיק השקעה בשיטות בדיקה תקפות.
לורה פאולנר
אוניברסיטת טקסס, אוסטין, טקסס
ההנחה הרווחת היא כי 5 משתתפים מתאימים לבדיקת שימושיות. במחקר זה נבדקו 60 משתמשים וקבוצות אקראיות של 5 או יותר נדגמו מכל, כדי להדגים את הסיכונים בשימוש של רק 5 משתתפים ואת היתרונות של שימוש ביותר. בחלק מהקבוצות שנבחרו באקראי של 5 משתתפים נמצאו 99% מהבעיות; בקבוצות אחרות נמצאו רק 55%. עם 10 משתמשים, האחוז הנמוך ביותר של בעיות שהוגדרו על ידי קבוצה אחת הוגדל ל -80%, ועם 20 משתמשים ל -95%. מומחי שימושיות רבים המתמודדים עם תקציבים מוגבלים והכרה משתמשים רק ב -5 משתתפים לבדיקת יכולת, ולא בדגימות גדולות יותר, שנדרשות בדרך כלל למחקר אמפירי. מספר רב של מבחני (מפגשי) מבחן מצריכים משאבים שאינם זמינים בקלות למתרגלי שימושיות, שהם לעתים קרובות משתתפים עצמאיים בתוך קבוצת פיתוח או חברה. למרות מאמצי המשיכה של אנשי מקצוע בתחום השימושיות, על מנת להשיג את עניינם ואת מנהגיהם, עבדו מתרגלים אחרים על השאלה אם מה שהמחבר הזה כינה את ההנחה של 5 משתמשים היה מתאים ומייצג את שיטות העבודה המומלצות עבור השדה. מאמרים עם כותרות כגון למה חמישה משתמשים אינם מספיק (Woolrych & Cockton, 2001) ו-8 לא מספיק (Perfetti & Landesman, 2002) מבקרים את ההנחה, מדגישים את בעיות האמינות עם קבוצות משתמשים קטנות, ומביעים חשש לגבי ההשפעה של בעיות שימושיות שעשויות להיות מוחמצות כאשר רק 5 משתמשים נבדקים. מחקרים מוקדמים התומכים בהנחה טענו שרק 5 משתתפים יכלו לגלות כ 80% - מכל בעיות השימושיות הקיימות במוצר (Nielsen 1993; Virzi, 1992) . נתון זה מציין הסתברות של אחוז הבעיות שחסר; אין כיום אפשרות לקבוע בוודאות סבירה שכל סדרה של 5 בדיקות תואמת את האחוזים האלה, או אילו בעיות מסוימות נחשפו או החמיצו (Woolrych & Cockton, 2001) . יתר על כן, אם, לדוגמה, רק משתמשים מתחילים (טירונים) נבדקו, ייתכן שמספר גדול של בעיות שימושיות התגלו, אך הבדיקה לא תציג את החומרה ביותר ותגיע לתיקוני הקדם הגבוהים ביותר. תוצאות מומחים עשויות להדגיש בעיות חמורות או חריגות, אך להחמיץ בעיות שהן קטלניות עבור משתמשים מתחילים. לבסוף, הטענה המופשטת לטובת ההתייחסות תלויה בעצמאות הבעיות המתעוררות - כלומר, המפגש עם אחת מהן לא יגדיל או יקטין את...295.00 ₪
295.00 ₪