טכנולוגיית Hadoop מציינת בימים אלה 10 שנים. ספר עליה בבקשה?
"חבילת הטכנולוגיה Hadoop היא המנוע שמאחורי מהפכת ה-Big Data, שחוללה שינויים עצומים בענפים רבים בעשור האחרון. Hadoop נולדה ביאהו (Yahoo) לפני 10 שנים כפרויקט קוד פתוח, ועד מהרה צמחה וחרגה מגבולות החברה והפכה לאמצעי המניע אלפי עסקים – מחברות קטנות ועד ענקיות אינטרנט".
מה הניע את יאהו ליזום את הפרויקט?
"לפני 10 שנים נוצר בחברה, כמו גם בשוק, צורך להתמודד עם כמויות דטה עצומות, שרק הלכו וגדלו. באותה התקופה, מתחרותיה של יאהו פיתחו, למטרה זו, טכנולוגיות פרטיות לשימושן הפנימי. לעומתן, יאהו שחררה את הטכנולוגיה שפיתחה, כפרויקט קוד פתוח, לשימוש התעשייה כולה".
מדוע בחרה יאהו לשתף את הקהילה?
"החברה הבינה שבזכות תמיכת קהילת המפתחים בתעשייה ניתן יהיה להרחיב את הפרויקט ובנוסף, היא עצמה תוכל לפתח יותר מהר את הטכנולוגיות שלה. ואכן, החזון של יאהו הוביל לכך שפרויקט פנימי של החברה התפתח לתעשייה גלובלית חשובה, עם עשרות חברות שתורמות לקוד ואלפי חברות שמשתמשות בטכנולוגיה".
מה תרומתה של Hadoop לתעשייה?
"מדובר ב-'פרויקט על' שבמסגרתו פותחה מסגרת תוכנה שמאפשרת אחסון ועיבוד נתונים בכמויות גדולות, שלא התאפשרו באמצעות טכנולוגיות שהיו קיימות בשוק בשנות ה-90. היא מאפשרת לנתח כמויות אדירות של מידע היסטורי במגוון צורות, כמו גם מידע שמגיע בזמן אמת. כל אלה – עבור מגוון צרכים, ביניהם שיפור חוויית המשתמש במוצרי חיפוש, פרסונליזציה של תוכן, מסחר אלקטרוני ופרסום. באחרונה הטכנולוגיה הזאת אומצה, מעבר לתעשיית האינטרנט, על ידי תחומים רבים בתעשייה".
האם יש ל-Hadoop מתחרים?
"קיימות בשוק טכנולוגיות פרטיות מקבילות, שפותחו על ידי חברות לשימושן הפנימי בלבד. לעומתן, Hadoop היא הטכנולוגיה היחידה בתחום שפתוחה לשימוש הקהל הרחב. ישנם פרויקטים צעירים יותר, כגון Spark, שמתחרות בהצלחה בחלק מטכנולוגיית Hadoop אך משתמשות בחלקים אחרים בה".
מה הלאה?
"ישנו מאמץ מתמשך להוריד את רף הכניסה לשימוש ב-Hadoop ולפשט את ניהול המערכות תחתיו כמה שיותר, לרבות בסביבת ענן. כיוון נוסף הוא הנגשת אלגוריתמי בינה מלאכותית (AI), למשל כלים לפיתוח מודלים לחיזוי אוטומטי של העדפות המשתמש".
באיזה אופן מתבטא השימוש של יאהו ב-Hadoop?
"יאהו היא בין המאמצות הגדולות של הטכנולוגיה הזאת, בקנה מידה עולמי. אנחנו מריצים כ-36 אלף שרתים, הפרוסים על פני 17 מערכות מבוזרות (קלאסטרים). מהנדסי ומדעני החברה תורמים לפרויקטים מבוססים, כמו גם לכאלה שנמצאים עדיין בחממות. אנחנ מאפשרים לנסות דברים חדשים בשדה ניסויים אדיר מימדים".
מהי נקודת המבט הישראלית בסיפור?
"במרכז המחקר של יאהו בחיפה הובלנו מספר יוזמות חדשניות, שהועילו למוצרים של יאהו, כמו גם לכל קהילת Hadoop. למשל, תרמנו תרומה מכרעת לפרויקט Omid – טכנולוגיית עיבוד טרנזקציות למסד הנתונים HBase. היא משמשת את פלטפורמת הניהול הדינמי של תוכן ביאהו, שאחראית על הטיפול בזמן אמת באירועי חדשות, שערי מניות ועוד. ב-HBase עצמו, טכנולוגיה מבוססת שמשמשת עשרות פרויקטים ביאהו, עשינו שינויים מרחיקי לכת, שהאיצו את המערכת באופן משמעותי. כמו כן, תרמנו חידושים בטכנולוגיות HDFS ו-Zookeeper.
הצוות שלנו הוקם לפני שלוש שנים בערך ויחדיו, יש לנו הרבה שנות ניסיון לתרום ליאהו ולקהילת ה-Hadoop במחקר ופיתוח של מחשוב מבוזר. אנחנו מתמחים בסקלביליות ובזמינות גבוהה, שנחשבים לאתגרים הגדולים ביותר הניצבים בפני פלטפורמות ה-Big Data. אנחנו אוהבים לזהות בעיות קשות במערכות גדולות, לתכנן אלגוריתמים שיפתרו אותן, לפתח את הקוד, לערוך בו ניסיונות ובסופו של דבר לתרום לחברה ולקהילה. הצוות כולל חוקרים עם רקע תיאורטי מעמיק, שבמקביל יש להם את ההכשרה ההנדסית הדרושה להתמודדות עם קוד מורכב. החוקרים שלנו מציגים את החידושים שלהם באופן קבוע בכנסים של התעשייה, כמו גם בכנסים אקדמיים חשובים.
הצוות שלנו, על החוקרים שבו, יוצר תמהיל מגוון של ניסיון – מהתיאוריה של חישוב מבוזר ועד מערכות גדולות, כמו מערכות קבצים ומסדי נתונים. רובנו בעלי תואר דוקטור בתחומים אלה. אנחנו גאים במיוחד להוות צוות חלוצי הפיתוח של Hadoop בישראל. למיטב ידיעתנו, אנחנו הצוות הכחול לבן היחיד שתורם קוד למערכת זו.
בנוסף, אנחנו מעבירים קורסים על טכנולוגיות Big Data, מארגנים מפגשים טכניים ומשתפים פעולה עם עמיתים אקדמיים. יחד עם זאת, אנחנו שמחים תמיד לחלוק את הידע והפעילות שלנו עם הקהילה הגדולה והצומחת של משתמשי Hadoop בענף ההיי-טק המקומי".