ביג דאטה: סקירה
כללי
ביג דאטה הוא מונח המתאר מערכי נתונים מאסיביים, שהם בעלי מבנה גדול, מורכב ומגוון, המקשה על אחסון, ניתוח והדמיה עבור התקדמות עתידית או הפקת תוצאות. תהליך החקר של כמות עצומה של נתונים לצורך גילוי של דפוסים נסתרים וקורלציות נחבאות נקרא ניתוח ביג דאטה (Big Data Analytics). מידע זה מועיל במיוחד עבור חברות או ארגונים, ומסייע להם להגיע לתובנות עשירות ומעמיקות יותר ולהשיג יתרון על המתחרים שלהם. מסיבה זו, הטמעה של ביג דאטה דורשת ניתוח ויישום מדויקים ככל האפשר. מאמר זה מציג סקירה כללית לגבי התוכן, ההיקף, הדגימות, השיטות, היתרונות והאתגרים של ביג דאטה, ודן בשאלות העולות לגבי פרטיות הנובעות מנושא זה.
1. הקדמה
ביג דאטה (Big Data, נתוני עתק) ואופן הניתוח שלו ניצבים במרכז העולם העסקי והמדעי של ימינו. נתונים אלו נאספים מפעילות מקוונת, אי-מיילים, קבצי וידאו, קבצי קול, תמונות, נתוני הקלקות (clickstream), רישומים, פוסטים, חיפושים, תיקים רפואיים, אינטראקציות ברשתות החברתיות, נתונים מדעיים, סנסורים ופעילות של סמארטפונים והאפליקציות שלהם. אלו מאוחסנים במערכי נתונים מאסיביים והיכולת לגשת, ליצור, לאחסן, לנהל, לחלוק, לנתח ולדמות אותם באמצעות תוכנות עיבוד נתונים רגילות הופכת קשה במיוחד.
5 אקסהבייט (1018 בייט) של נתונים נוצרו על ידי בני האדם עד 2003. כיום, כמות כזו של מידע נוצרת במשך יומיים. ב-2012, עולם הנתונים הדיגיטלי התרחב ל-2.72 זטהבייט (1021 בייט). הציפייה היא כי כמות זו תוכפל כל שנתיים, ותגיע בערך לשמונה זטהבייט של מידע עד 2015. חברת IBM טוענת כי כל יום, 2.5 אקסהבייט של מידע מהווים כ-90% מהנתונים שנוצרו בשנתיים לפני כן. מחשב אישי מכיל בערך 500 ג’יגהבייט של נתונים (109 בייט) כך שנדרשים בערך 20 מיליארד מחשבים אישיים לאחסן את כל הנתונים בעולם. בעבר, התהליך של פיצוח הגנום האנושי לקח בערך 10 שנים, כיום תהליך כזה ידרוש לא יותר משבוע. נתוני מולטימדיה מרכיבים חלק עיקרי של התנועה ברשת וצפוי כי הם יגדלו בכ-70% עד 2013. גוגל לבדה מחזיקה במעל מיליון שרתים ברחבי העולם. עד היום נרשמו כ-6 מיליארד לקוחות של סמארטפונים, ובכל יום נשלחות 10 מיליארד הודעות טקסט. עד 2020, 50 מיליארד מכשירים יהיו מחוברים לרשתות ולאינטרנט.
ב-2012, פרויקט “הפנים האנושיות של ביג דאטה” הכלל עולמי התמקד באיסוף, הדמיה וניתוח בזמן-אמת של כמויות גדולות של נתונים. חלק גדול מהסטטיסטיקות נאספו תודות לפרויקט זה. לפייסבוק יש 955 מיליון חשבונות חודשיים פעילים בכ-70 שפות שונות, 140 מיליארד תמונות שהועלו, 125 מיליארד קשרי חברות, ובכל יום כ-30 מיליארד פיסות תוכן ו-2.7 מיליארד לייקים ותגובות מתפרסמים באתר. בכל דקה מועלות 48 שעות של וידאו ובכל יום מתרחשות 4 מיליארד צפיות באתר יוטיוב. גוגל תומכת במגוון שירותים המנטרים 7.2 מיליארד דפים בכל יום ומעבדים 20 פטהבייט (1015 בייט) של נתונים יומיים, המתורגמים בנוסף לכ-66 שפות שונות. באתר טוויטר נרשמים כמיליארד ציוצים כל 72 שעות, של למעלה מ- 140 מיליון משתמשים פעילים. בכל דקה של כל יום נוצרים 571 אתרים חדשים. בעשור הקרוב, כמות הנתונים תגדל בכ-50%, אך המספר של המומחים העוסקים בטכנולוגיית מידע יגדל רק פי 1.5.
המאמר בנוי באופן הבא: החלק השני מציג את הסוגיות העיקריות, היתרונות, האתגרים, תוצאות סקרים, מדגמים, שיטות וגילוי מידע בתחום הביג דאטה. בחלק השלישי, נסקור את הסוגיות העיקריות בתחום האבטחה. החלק הרביעי מציג יתרונות, מחסומים פוטנציאליים, אתגרים ומכשולים בתחום הביג דאטה. החלק החמישי יעסוק בסיכום.
2. ביג דאטה
חלק זה סוקר את הסוגיות העיקריות תחת תת-נושאים.
א. הסוגיות העיקריות
ביג דאטה דורש צעדים משמעותיים ביחס לניתוח נתונים מסורתי, המאופיינים על ידי שלושה מרכיבים עיקריים: מגוון, מהירות ונפח, כפי שמוצג באיור 1.
איור 1: שלושת ה-V של ביג דאטה. פינה שמאלית: מגוון (בלתי מובנה, מובנה למחצה, מובנה). פינה ימנית: מהירות (סטרים, זמן-אמת, זמן אמת בקירוב, אצווה). למטה: נפח (מלמעלה למטה – טרהבייט, פטהבייט, אקסהבייט, זטהבייט).
כל אחד מהמרכיבים באיור 1 יתוארו בקצרה כאן:
המגוון (variety) מעניק לביג דאטה את גודלו הקיצוני. ביג דאטה נובע ממספר גדול של מקורות המתחלקים באופן כללי לשלושה סוגים: מובנים (structured), מובנים למחצה ובלתי מובנים. נתונים מובנים פירושם מחסן נתונים מתויגים וקלים למיון, ונתונים בלתי מובנים הם אקראיים וקשים לניתוח. נתונים מובנים למחצה נכללים בשתי קטגוריות אלו, אך כוללים תגים המפרידים בין יסודות הנתונים.
נפח (volume) פירושו גודל הנתונים, שכיום הוא עולה על טרהבייטים ופטהבייטים. הנפח העולה של הנתונים מותיר את השיטות המסורתיות של אחסון וניתוח מאחור.
מהירות (velocity) הינה מרכיב הדרוש לא רק בביג דאטה, אלא עבור כל התהליכים. כאשר מדובר בתהליכים מוגבלים בזמן, יש להשתמש בביג דאטה מפני שהוא מאפשר סטרימינג בתוך הארגון וכך מביא לניצול מקסימאלי של הערך שלו.
כחלק מאינטנסיביות מידע זו, מרכיב משמעותי נוסף הוא האימות של זרם הנתונים. קיים קושי רב בשליטה בנתונים רבים כך שנדרשת בנוסף אבטחת מידע. בנוסף, לאחר ההפקה והעיבוד של ביג דאטה, הוא אמור ליצור ערך חיובי עבור הארגון.
לאחר סקר TDWI שנערך בקרב אנשי מקצוע העוסקים בניהול נתונים, עלו מספר שאלות ותשובות חשובות:
* לאחר שהארגון עסק בניתוח ביג דאטה, עלו היתרונות הבאים: שיווק מדויק יותר, תובנות עסקיות ישירות, התפלגות על בסיס לקוחות, זיהוי מכירות והזדמנויות שוק.
* בזמן ההטמעה של ניתוח ביג דאטה, סוגיות אלו מהוות מחסומים פוטנציאליים: צוות עובדים בלתי מיומן, עלות, מחסור בחסות עסקית, מערכות ניתוח בעלות תכנון מסובך, מחסור בתוכנות ניתוח נתונים עדכניות.
* בעוד שהקהל הרחב המגדיר את הביג דאטה כיום ובעתיד מהווה הזדמנות בשל האפשרות לניתוח מקיף, רבים מהמשתתפים רואים בביג דאטה כבעיה בגלל הקושי בניהולו.
* סוגי ביג דאטה שכיום מאוחסנים ומשתמשים בטכניקות מתקדמות הם: נתונים מובנים, מובנים למחצה, מורכבים, ארעיים ובלתי מובנים.
* בזמן ההחלפה של פלטפורמות ניתוח, עלו הבעיות הבאות: חוסר יכולת לאחסן את נפח הנתונים הגדול, חוסר יכולת לתמוך במודלי הניתוח הדרושים, טעינת הנתונים איטית מדי, דרישה של פלטפורמות ניתוח מתקדמות, צוות טכנולוגיית המידע (IT) אינו מסוגל לעמוד בדרישות.
כפי שעולה מהסקר, ניתוח ביג דאטה עדיין דורש תשומת לב רבה. ניתוח ביג דאטה עלול לדרוש מאות שרתים המריצים תוכנות מאסיביות במקביל. המאפיין העיקרי של ביג דאטה, מלבד המגוון, הנפח והמהירות, הוא פוטנציאל הניתוח המאפשר גילוי תובנות חדשות שיביאו לקבלת החלטות אופטימאלית.
ב. דגימות ביג דאטה
קיים ידע ספרותי רב בתחומי האסטרונומיה, מדע אטמוספרי, גנומיקה, ביו-גיאוכימיקלים, מדע ומחקרים ביולוגיים, מדעי החיים, תיקים רפואיים, מחקר מדעי, ממשל, אסונות טבע וניהול משאבים, המגזר הפרטי, ריגול צבאי, שירותים כלכליים, קמעונאות, רשתות חברתיות, לוגים ברשת, הודעות טקסט, מסמכים, תצלומים, קבצי וידאו וקול, נתוני הקלקות, נתוני חיפוש, תיעוד שיחות, מידע POS, RFID, טלפונים ניידים, רשתות סנסורים וטלקומוניקאציה. כל ארגון, בכל תעשייה שהיא, המחזיק בביג דאטה, יכול להרוויח מאפשרויות הניתוח שלו על מנת להגיע לתובנות ולפתרון בעיות מהותיות.
מוסד מקינזי (McKinsey Global Institute) ציין חמישה מאפיינים עיקריים לתיאור הפוטנציאל של ביג דאטה:
* בריאות: מערכות תמיכה בקבלת החלטות קליניות, ניתוח אינדיבידואלי של כל מטופל, טיפול רפואי מותאם אישית, תמחור צוותים על בסיס תפקוד, ניתוח דפוסי מחלות, שיפור בריאות הציבור.
* הסקטור הציבורי: יצירת שקיפות על ידי תמיכה בנתונים נגישים, גילוי צרכים ציבוריים, שיפור השירות, פעולות מותאמות עבור מוצרים ושירותים הולמים, קבלת החלטות בעזרת מערכות אוטומטיות להפחתת סיכונים, מוצרים ושירותים חדשניים.
* קמעונאות: ניתוח התנהגות בזמן השהות בחנות, שיפור אופטימאלי של המגוון והמחיר, תכנון מיקום מוצרים, שיפור השירות, שיפור יכולת הקלט המגיע מהעובדים, שיפור התפוצה והלוגיסטיקה, יצירת שווקים מקוונים.
* תעשייה וייצור: שיפור יכולת חיזוי הביקוש, תכנון שרשרת האספקה, תמיכה במכירות, פיתוח יכולת התפוקה, יישום של חיפושים דרך האינטרנט.
* נתוני מיקום אישיים: תכנון דרך חכם, פרסום או מענה של שירותי חירום על בסיס גיאוגראפי, תכנון עירוני, מודלים עסקיים חדשים.
רשת האינטרנט גם היא מספקת הזדמנויות רבות עבור ביג דאטה. לדוגמא: ניתוח רשתות חברתיות עבור פרסום ישיר, קמפיינים שיווקיים ותכנון קיבולת, התנהגות צרכנים ודפוסי רכישה. לפי נתונים אלו, חברות יכולות ליצור התאמה אופטימאלית של התוכן ושל מנועי ההמלצה שלהן. חברות מסוימות, כמו גוגל ואמאזון, מפרסמות מאמרים הנוגעים לאופי העבודה שלהן. על בסיס מאמרים אלו, מפתחי תוכנה מפתחים טכנולוגיות הדומות לתוכנות קוד פתוח כמו Lucene, Solr, Hadoop ו-HBase. פייסבוק, טוויטר ולינקדאין לוקחות רעיון זה צעד נוסף קדימה ומפרסמות פרויקטים של קוד פתוח עבור ביג דאטה כמוcassandra , Hive, Pig, Voldemort, Stormו-IndexTank.
בנוסף, תחזיות אנליטיות לגבי זרימת תנועה או זיהוי איומים בקבצי וידאו, קול ונתונים מהווים יתרון נוסף עבור ביג דאטה.
ב-2012, ממשל אובאמה הכריז על יוזמות ביג דאטה בעלות של מעל 200 מיליון דולר במחקר ופיתוח, עבור הקרן הלאומית למדע, המכון הלאומי לבריאות, משרד ההגנה, משרד האנרגיה והסקר הגיאולוגי של ארצות הברית. השקעה זו נועדה לאפשר פיתוח של כלים ושיטות לאיסוף, נגישות וארגון של ממצאים הנובעים מכמויות עצומות של מידע דיגיטלי.
ג.שיטות
רוב היוזמות ניצבות בפני כמות גדולה של נתונים חדשים, המגיעים במגוון צורות. לביג דאטה יש את הפוטנציאל לספק תובנות היכולות ליצור שינוי חיובי בכל עסק או חברה. ביג דאטה הוביל ליצירת תעשייה חדשה לחלוטין של אדריכלות תמיכה כמו MapReduce. זוהי מסגרת תכנונית עבור הפצת חישובים שנוצרה על ידי גוגל באמצעות שיטת “הפרד ומשול”, על מנת להתמודד עם בעיות ביג דאטה מורכבות דרך חלוקה שלהן ליחידות עבודה קטנות ועיבודן במקביל. ניתן לחלק MapReduce לשני שלבים:
* שלב המיפוי: צמתי הנתונים הראשיים מפורקים לתת-בעיות קטנות יותר. צומת העבודה מעבד חלק כלשהו של הבעיות הקטנות יותר תחת השליטה של צומת ה-JobTracker , ומאחסן את התוצאות במערכת התיוק המקומית, שם היא נגישה עבור הווסת (reducer).
* שלב הוויסות: שלב זה מנתח ומשלב את נתוני הקלט של שלב המיפוי. ייתכנו מספר משימות ויסות מקבילות על מנת להתמודד עם העומס, כשמשימות אלו מתבצעות בצומת העבודה תחת הפיקוח של JobTracker.
Hadoop נוצרה בהשראת BigTable, שהיא מערכת אחסון הנתונים של גוגל, על בסיס google File System ו-MapReduce. Hadoop היא מסגרת על בסיס Java ופלטפורמת קוד פתוח הטרוגנית. היא אינה מהווה תחליף לאסטרטגיות של הקמת מסד נתונים, מחסן נתונים או ETL (Extract, Transform, Load, חילוץ, שינוי וטעינה(. Hadoop כוללת מערכת קבצים, פלטפורמות ניתוח ואחסון נתונים, ושכבה המאפשרת חישובים מקבילים, תזרים עבודה (workflow) וניהול קונפיגורציות. היא אינה מיועדת לעיבוד אירועי זמן אמת מורכבים כמו סטרימינג. מערכת ה-HDFS (Hadoop distributed File System) פועלת על פני הצמתים באשכול Hadoop ומחברת את מערכות הקבצים במספר רב של צמתי קלט ופלט והופכת אותם למערכת קבצים אחת גדולה.
כפי שניתן לראות באיור 1 ו-2, Hadoop מציעה:
* HDFS: מערכת קבצים מבוזרת בעלת סבילות גבוהה לכשלים שאחראית לאחסון קבצים באשכולות.
* MapReduce: שיטת תכנות מקבילה בעלת עוצמה רבה עבור עיבוד מבוזר באשכולות.
* HBase: מסד נתונים מדרגי ומבוזר עבור גישת read/write אקראית.
* Pig: מערכת עיבוד נתונים ברמה גבוהה לניתוח מערכי נתונים שמתרחשים בשפה ברמה גבוהה.
* Hive: יישום מחסן נתונים המספק ממשק דמוי-SQL ומודל יחסי.
* Sqoop: פרויקט העברת מידע בין מסדי נתונים יחסיים ו-Hadoop.
* Avro: מערכת לסריאליזציה של נתונים.
* Oozie: תזרים עבודה לעבודות התלויות ב-Hadoop.
* Chukwa: תת-פרויקט של Hadoop העוסק בצבירת נתונים לשם פיקוח על מערכות מבוזרות.
* Flume: אוסף אמין ומבוזר של לוגי סטירימינג.
* ZooKeeper: שירות מכרזי המספק סינכרוניזציה מבוזרת ושירותי קבוצה.
מערכות HPCC (High Performance Computing Cluster) מבזרות פלטפורמות חישוב נתונים אינטנסיביות בקוד פתוח ומספקות שירותי ניהול תזרים עבודה של ביג דאטה. בניגוד ל-Hadoop, מודל הנתונים של HPCC מוגדר על ידי המשתמש. המפתח לבעיות מורכבות ניתן להגדרה פשוטה באמצעות ECL ברמה גבוהה. מערכת HPCC מבטיחה כי ה-ECL יפעל בזמן חולף מקסימאלי והצמתים יעובדו באופן מקביל. בנוסף, פלטפורמת ה-HPCC אינו דורשת תמיכת צד שלישי כמו GreenPlum, Cassandra, RDMBS, Oozie וכן הלאה.
שלושת המרכיבים העיקריים של HPCC הם:
* זיקוק נתונים (Thor): מנוע ETL מקבילי שמאפשר אינטגרציית נתונים מדורגת ומספק מניפולציית נתונים באוריינטציית אצווה.
* מנוע מסירת נתונים (Roxie): מנוע מקבילי מאסיבי, בעל הספק גבוה, אולטרא-מהיר, בעל אחזור (latency) נמוך, המאפשר נגישות יעילה ורבת משתמשים לנתונים ותגובות ייבוא (query) מובנות.
* ECL (enterprise control language): מבזרת את עומס העבודה בין הצמתים באופן אוטומטי, כוללת סינכרוניזציה אוטומטית של אלגוריתמים, מפתחת ספריית למידת מכונה נרחבת, נעזרת בשפת תכנות פשוטה לשימוש המותאמת לפעולות ביג דאטה וחילופי ייבוא נתונים.
איור 2 מציג השוואה בין מערכות HPCC ל-Hadoop בנוגע לארכיטקטורה ומקבצים (stacks). ישנם מספר הבדלים בין מערכות אלו:
* ניתן לאמן אצוות HPCC ב-Thor ו-Roxie. אצוות Hadoop פועלות עם עיבוד MapReduce.
* בסביבת HPCC, ECL היא שפת התכנות העיקרית. לעומתה, תהליכי MapReduce של Hadoop מבוססים על Java.
* פלטפורמת HPCC בונה אינדקסי multikey רבי-משתנים על גבי מערכות קבצים מבוזרות. יישום ה- HBase של Hadoop מסתמך על מסדי נתונים טוריים.
* יכולות אחסון הנתונים של Roxie משמשות עבור יבוא נתונים מובנים ויישומי ניתוח, בעוד שמחסן הנתונים של Hive מאפשר טעינת נתונים על גבי HDFS.
* על בסיס אותה קונפיגורציית תוכנה של מערכת 400 צמתים, הזמן של HPCC הוא 6 דקות ו-27 שניות, בעוד שהזמן של Hadoop הוא 25 דקות ו-28 שניות. בהשוואה זו, הזמן של HCPP היה עדיף.
איור 2: השוואה בין פלטפורמת מערכות HPCC לבין הארכיטקטורה של Hadoop.
ד. גילוי מידע מביג דאטה
גילוי מידע מביג דאטה (KDD) פירושו פעולות שנועדו לשאוב מידע ממערכי מידע מורכבים. תהליך זה מורכב מתשעה שלבים:
1) השגת הדומיין לפני חילוץ המידע והגדרת מטרת התהליך לפי רצון הלקוח.
2) יצירת נקודות-משנה עבור הנתונים לצורך גילוי המידע.
3) הסרת רעש, טיפול בקבצי נתונים חסרים, איסוף המידע הנדרש עבור המודל וחישוב זמן המידע ושינויים צפויים.
4) מציאת תכונות מועילות עבור הצגת המידע, בהתחשב במטרת העבודה.
5) מיפוי המטרות לפי שיטות כריית מידע ספציפיות.
6) בחירת אלגוריתמים של כריית נתונים ואת שיטת החיפוש אחר דפוסי נתונים.
7) חקר דפוסים בצורת expression.
8) חזרה על שלבים 1-7, שלב זה יכול לכלול גם הדמיה של הדפוסים.
9) שימוש ישיר במידע, שילוב המידע במערכות אחרות או פשוט איסופו ודיווח עליו.
גילוי מידע מביג דאטה באמצעות Hadoop כולל שלושה עקרונות:
1) KDD כולל מגוון של שיטות ניתוח כמו תכנות מבוזר, זיהוי דפוסים, כריית נתונים, עיבוד שפה טבעית, ניתוח סנטימנטלי, ניתוח סטטיסטי וויזואלי ואינטראקציות אדם-מחשב. לפיכך, הארכיטקטורה צריכה לתמוך במגוון שיטות וטכניקות ניתוח.
* ניתוח סטטיסטי המתמקד בסיכום של מערכי נתונים מאסיביים, הבנת הנתונים והגדרת מודלים לחיזוי.
* כריית הנתונים צריכה להיות מותאמת עם גילוי מודלים מועילים במערכי נתונים מאסיביים בפני עצמה, למידת מכונה צריכה להיות משולבת עם כריית הנתונים והשיטות הסטטיסטיות צריכות לאפשר למכונות להבין את מערכי הנתונים.
* ניתוח ויזואלי הוא תחום מתפתח, שבו מערכי נתונים גדולים מסייעים למשתמשים במגוון דרכים להבין מערכות יחסים.
2) ארכיטקטורת ה-KDD חייבת להיות כוללנית, ולשמור ולתפעל את קו העיבוד.
* הכנה של ניתוח נתונים ואצוות על מנת לתקן בעיות, ערכים חסרים ופורמטים בלתי שמישים.
* עיבוד של נתונים מובנים ומובנים למחצה.
3) חיוני כי התוצאות יהיו נגישות וחסינות בפני שימוש לא נאות (foolproof). ישנן מספר גישות כדי להתמודד עם בעיה זו:
* שימוש בקוד פתוח וסטנדרטים פופולאריים.
* שימוש בארכיטקטורת WEB.
* תוצאות נגישות לציבור.
3. סוגיות אבטחה ופרטיות
במאי 2012, מרכז ה-IT של אינטל ערך סקר בקרב 200 מנהלי IT בחברות גדולות, על מנת לבדוק כיצד הם מתמודדים עם ניתוחי ביג דאטה. המנהלים נשאלו אילו סטנדרטים הם מעוניינים לראות בתחום זה, והתשובות כללו: אבטחת נתונים, טכנולוגיה לשמירה על פרטיות נתוני הלקוחות, שקיפות נתונים, מידוד (benchmarking) של ביצועים, תפעוליות בינית (interoperability) של נתונים ומערכות. חלק מהתשובות כללו דאגות לגבי שירותי “ענן” של צדדים שלישיים: אבטחת נתונים ופרטיות, מדיניות המונעת ייצוא של אחסון נתונים וניתוח, עלויות כלליות וניהול/ניתוח נתונים פנימי ללא כוונה לייצאם. לפי הסקר, אלו דאגות אופייניות העולות לגבי אבטחה.
הניהול של סביבות מוגנות באופן מסורתי, ביחד עם יכולתם של תוקפים להתגבר על השיטות המסורתיות, דורש כי הארגונים יאמצו מודל אבטחה מונחה מודיעין (intelligence driven security) בעל מודעות גבוהה יותר לסיכונים, גמישות ויכולת הקשר. אבטחה מונחית מודיעין מתבססת על ניתוחי ביג דאטה. ביג דאטה כולל גם את רוחב המקורות וגם את עומק המידע הדרוש לתכניות על מנת לזהות סיכונים באופן מדויק, להגן מפני פעילות בלתי חוקית ומפני איומי סייבר מתקדמים. מודל אבטחה מבוסס ביג דאטה כולל את המאפיינים הבאים:
* מקורות נתונים פנימיים וחיצוניים המכפילים את ערכם ויוצרים אפקט למידה סינרגטי.
* כלים אוטומטיים האוספים סוגי נתונים מגוונים ומנרמלים אותם.
* מנועי ניתוח המסוגלים לעבד כמויות מאסיביות של נתונים משתנים במהירות, בזמן אמת.
* מערכות פיקוח מתקדמות המנתחות באופן שוטף מערכות בעלות ערך גבוה ומשאבים, ושוקלות את הגורמים המעורבים על בסיס מודלים של התנהגות וסיכון.
* פיקוח אקטיבי, כמו דרישות זיהוי משתמש נוספות, חסימת העברות נתונים וקבלת החלטות פשוטה עבור הצוות.
* מחסן נתונים מרכזי, המאפשר נגישות ייבוא לכל נתוני האבטחה לשימוש הצוות.
* הדמיות סטנדרטיות של סיכונים הניתנות לקריאה על ידי מכונות, וניתנות לשיתוף בין גופים בעלי אמון.
* תשתיות N-tier היוצרות מדרג על פני הווקטורים ומסוגלות לעבד חיפושים מורכבים וייבוא בקנה מידה גדול.
* אינטגרציה ברמה גבוהה באמצעות כלי ניהול אבטחה וסיכונים, שתאפשר חקירות מפורטות לגבי בעיות אפשריות.
גישה הוליסטית ובטוחה כלפי ביג דאטה כוללת:
* על מנת להתחיל בפרויקט ניהולי, החברות צריכות להגדיר את מקורות הנתונים וליצור אישורי גישה לצוות הרלוונטי.
* ליצור קטגוריות לנתונים ולדרגם לפי סדר חשיבות.
* להבטיח כי הנתונים נשמרים ומאובטחים, בהתאם לסטנדרטים והתקנות הנהוגות.
* לנסח מדיניות הנוגעת לעיבוד מידע, כמו הגדרת סוגי הנתונים המאוחסנים, זמן האחסון, ורמות גישה.
העובדה כי הנתונים נשמרים במקום אחד מהווה מטרה עבור תוקפים המעוניינים להזיק לארגון. נובע מכך כי אחסנת ביג דאטה דורשת פיקוח מרבי. על מנת להבטיח כי הנתונים שמורים היטב, נדרש כי תוטמע בארגון מסגרת תקשורת מאובטחת באופן קריפטוגראפי. הפיקוח צריך להתנהל באופן ממודר, במיוחד כאשר מדובר בזכויות נגישות. הגישה לנתונים צריכה להישמר בידי מנהלי האבטחה. לשם ניהול אבטחה אפקטיבי, נדרש פיקוח תמידי המשתנה בתגובה להתחלפות עובדים בארגון, המבטיח כי העובדים לא ינצלו לרעה את זכויות הגישה שלהם. הליכי אבטחה נוספים הדרושים למען פיקוח על הרשתות כוללים metadata, ממשק packet capture, ומידע לוגים. על הארגונים להשקיע במוצרי אבטחה המיישמים טכנולוגיות גמישות מבוססות ניתוח, ולהימנע משיטות סטטיות. בעיה נוספת היא ציות לחוקי אבטחת מידע. הארגונים צריכים לשקול השלכות חוקיות כאשר הם מאחסנים מידע.
למרות כל זאת, לביג דאטה יש מספר יתרונות בנוגע לאבטחת מידע. כאשר ארגונים מקטלגים מידע, הם שולטים בנתונים בהתאם לתקנות מוגדרות, כמו זמן אחסון מוגדר. דבר זה מאפשר לארגונים לבחור נתונים שהם חסרי שימוש או תועלת ולהפטר מהם כך שלא יהוו סיכון. יתרון נוסף הוא בכך שנתונים מאסיביים מאפשרים כריית מידע לגבי איומים, כמו נוזקות (malware), אנומליות, או דיוג (phishing).
4. הערכה כללית
כמות הנתונים גדלה באופן תמידי, וניתוח מערכי הנתונים הפך תחרותי יותר. האתגר אינו רק איסוף וניהול של כמויות גדולות ומגוונות של נתונים, אלא גם לשאוב מהם תועלת משמעותית. נדרשים בנוסף מנהלים ואנליסטים בעלי ידע לגבי היישום הראוי של ביג דאטה. חברות צריכות ליצור תוכניות הכשרה מואצות של עובדיהן, ולהשקיע בחינוך ואימון של בעלי תפקידים בתחום זה.
לפי סקר ה-TDWI, היתרונות של ביג דאטה הם: שיווק מדויק יותר, תובנות עסקיות ישירות, פילוג לקוחות, זיהוי הזדמנויות שוק ומכירה, קבלת החלטות אוטומטית, הגדרת התנהגות צרכנים, תשואת השקעות גדולה יותר, כימות סיכונים ומגמות שוק, הבנת שינויים עסקיים, תכנון וחיזוי יעילים יותר, זיהוי התנהגות צרכנים באמצעות clickstream ותפוקה גבוהה יותר.
בנוסף, סקר ה-TDWI ציין מחסומים אפשריים להטמעת ניתוחי ביג דאטה כמו: צוות בלתי מיומן והעדר אנשי מקצוע בתחום, עלות, העדר חסות עסקית, מערכות ניתוח מסובכות להפעלה, מחסור בתוכנות עיבוד נתונים עדכניות ובזמן עיבוד מהיר, בעיות מדרוג, אי-יכולת להפוך את הביג דאטה לשמיש עבור משתמשי הקצה, זמן טעינת הנתונים אינו מהיר מספיק תחת התוכנות הקיימות כיום, העדר מודלים עסקיים מספקים.
לפי סקר מרכז ה-IT של אינטל, קיימים מספר אתגרים בתחום הביג דאטה: הגידול בנתונים, תשתית הנתונים, מדיניות וניהול לגבי נתונים, אינטגרציית הנתונים, מהירות הנתונים, מגוון הנתונים, תקנות ודרישות הנוגעות לנתונים והדמיית הנתונים. מכשולים נוספים שעלו בסקר כללו: בעיות אבטחה, עלויות תפעוליות, “צווארי בקבוק” ברשתות, מחסור באנשי מקצוע בתחום מדעי הדאטה, קצב נתונים בלתי ניתן לתפעול, יכולות שכפול נתונים, העדר אפשרויות דחיסה, latency גבוה יותר ברשת וכוח CPU בלתי מספיק.
למרות מחסומים ואתגרים אפשריים אלה, חשיבותו של תחום הביג דאטה כיום ובעתיד הינה משמעותית.
5. סיכום
מאמר זה כלל סקירה של התוכן, ההיקף, דגימות, שיטות, יתרונות ואתגרים בתחום הביג דאטה, ודן בדאגות הנוגעות לאבטחה ופרטיות. התוצאות מראות כי למרות הידע הרב, הנתונים, הכלים והטכניקות הזמינים בספרות המקצועית לגבי תחום זה, עדיין קיימות נקודות רבות אותן יש לבחון, לשפר, לפתח, לנתח וכן הלאה. הסוגיה הקריטית של פרטיות ואבטחה בתחום הביג דאטה דורשת במיוחד דיון ותשומת לב בעתיד. למרות שמאמר זה כמובן אינו פותר את כל הסוגיות הנוגעות לנושא זה, אנו מקווים כי הוא סיפק דיון מועיל ומסגרת עבור חוקרים בתחום.
ביג דאטה: סקירה
כללי
ביג דאטה הוא מונח המתאר מערכי נתונים מאסיביים, שהם בעלי מבנה גדול, מורכב ומגוון, המקשה על אחסון, ניתוח והדמיה עבור התקדמות עתידית או הפקת תוצאות. תהליך החקר של כמות עצומה של נתונים לצורך גילוי של דפוסים נסתרים וקורלציות נחבאות נקרא ניתוח ביג דאטה (Big Data Analytics). מידע זה מועיל במיוחד עבור חברות או ארגונים, ומסייע להם להגיע לתובנות עשירות ומעמיקות יותר ולהשיג יתרון על המתחרים שלהם. מסיבה זו, הטמעה של ביג דאטה דורשת ניתוח ויישום מדויקים ככל האפשר. מאמר זה מציג סקירה כללית לגבי התוכן, ההיקף, הדגימות, השיטות, היתרונות והאתגרים של ביג דאטה, ודן בשאלות העולות לגבי פרטיות הנובעות מנושא זה.
1. הקדמה
ביג דאטה (Big Data, נתוני עתק) ואופן הניתוח שלו ניצבים במרכז העולם העסקי והמדעי של ימינו. נתונים אלו נאספים מפעילות מקוונת, אי-מיילים, קבצי וידאו, קבצי קול, תמונות, נתוני הקלקות (clickstream), רישומים, פוסטים, חיפושים, תיקים רפואיים, אינטראקציות ברשתות החברתיות, נתונים מדעיים, סנסורים ופעילות של סמארטפונים והאפליקציות שלהם. אלו מאוחסנים במערכי נתונים מאסיביים והיכולת לגשת, ליצור, לאחסן, לנהל, לחלוק, לנתח ולדמות אותם באמצעות תוכנות עיבוד נתונים רגילות הופכת קשה במיוחד.
5 אקסהבייט (1018 בייט) של נתונים נוצרו על ידי בני האדם עד 2003. כיום, כמות כזו של מידע נוצרת במשך יומיים. ב-2012, עולם הנתונים הדיגיטלי התרחב ל-2.72 זטהבייט (1021 בייט). הציפייה היא כי כמות זו תוכפל כל שנתיים, ותגיע בערך לשמונה זטהבייט של מידע עד 2015. חברת IBM טוענת כי כל יום, 2.5 אקסהבייט של מידע מהווים כ-90% מהנתונים שנוצרו בשנתיים לפני כן. מחשב אישי מכיל בערך 500 ג'יגהבייט של נתונים (109 בייט) כך שנדרשים בערך 20 מיליארד מחשבים אישיים לאחסן את כל הנתונים בעולם. בעבר, התהליך של פיצוח הגנום האנושי לקח בערך 10 שנים, כיום תהליך כזה ידרוש לא יותר משבוע. נתוני מולטימדיה מרכיבים חלק עיקרי של התנועה ברשת וצפוי כי הם יגדלו בכ-70% עד 2013. גוגל לבדה מחזיקה במעל מיליון שרתים ברחבי העולם. עד היום נרשמו כ-6 מיליארד לקוחות של סמארטפונים, ובכל יום נשלחות 10 מיליארד הודעות טקסט. עד 2020, 50 מיליארד מכשירים יהיו מחוברים לרשתות ולאינטרנט.
ב-2012, פרויקט "הפנים האנושיות של ביג דאטה" הכלל עולמי התמקד באיסוף, הדמיה וניתוח בזמן-אמת של כמויות גדולות של נתונים. חלק גדול מהסטטיסטיקות נאספו תודות לפרויקט זה. לפייסבוק...
295.00 ₪
295.00 ₪
מוגן בזכויות יוצרים ©2012-2023 אוצר אקדמי – מבית Right4U כל הזכויות שמורות.