מה זה מדע הנתונים (Data Science) ואיך הוא יכול לשרת אתכם בעסק?

מדע הנתונים, או בשמו הלועזי והמוכר Data Science, הוא תחום שהחל להתפתח בעשור האחרון, והוא מהווה עירוב של מספר תחומים, בעיקר: סטטיסטיקה, מדעי המחשב, ומתמטיקה. מדע הנתונים עוסק בעיבוד וניתוח נתונים (בדומה לסטטיסטיקה), תוך שימוש באלגוריתמים שונים ושפות תכנות מתקדמות (כמו R, ו-Python), ולרוב בעבודה על מאגרי נתונים גדולים (Big Data).

תהליך העבודה של מדען הנתונים כולל קליטת נתונים, סידור פורמט הנתונים, טרנספורמציות של הנתונים, המחשות ויזואליות, מידול של הנתונים, ולבסוף תקשור הנתונים למקבלי החלטות.

סדר בעולם המונחים

המאמר הזה מסביר לעומק על Data Science, אבל ראשית נבאר מספר מונחים ונעמוד על הקשר שלהם ל-Data Science:

  • Big Data – מתייחס לנתונים בהיקף גדול (גודל המאגר). אין הגדרה חד משמעית של מתי נתונים נחשבים Big Data (אבל ככלל אצבע, מעל מאות אלפי רשומות). לעיתים נפוצות Data Science יתבסס על נתונים בהיקפים של Big Data.

  • כריית נתונים Data Mining – שם המשמש לתיאור פעילות מחקרית ללמידה מתוך נתונים. בפועל זה בעיקר Buzz word, ולא כל כך בשימוש בקרב אנשי המקצוע.

  • Machine Learning – בעברית "למידת מכונה", בעיקר מכוון לפיתוח ושימוש באלגוריתמים ללמידה סטטיסטית, כלומר פיתוח ושימוש בתוכנות ו/או פונקציות שיכולות ללמוד ממאגרי מידע. תפקידו של Data Scientist הוא בין היתר לבחון את התאמתם של מודלים שונים, תוך שהוא מתבסס על אלגוריתמים של Machine Learning.

  • Deep Learning – "למידה עמוקה". אלגוריתמים מסוג מסוים של למידת מכונה (נקראים גם רשתות נוירונים), המשתמשים בנתונים קיימים על מנת להתאים מודל לתוצאות חזויות.

  • Artificial Intelligence – AI – בעברית בינה מלאכותית. התוצר של תהליך או מוצר שבבסיסו פועלים אלגוריתמים של למידת מכונה (לדוגמה: "למכונית אוטונומית יש אינטליגנציה מלאכותית").

  • Data Science – מדע העוסק בעיבוד וניתוח נתונים. מדע הנתונים מבוסס על עקרונות של סטטיסטיקה ומדעי המחשב. לפרטים נוספים המשיכו לקרוא את המאמר.

ניתן לבחון את מועד הופעת מושגים שונים באמצעות חיפוש Google Ngrams, המראה עד כמה צירופי מילים נפוצים בספרות. התרשים הבא משווה בין שלושה מושגים מאלו שהוזכרו מעלה: Big Data, Machine Learning, Data Science.

שיעור הופעת צמדי המילים Big Data, Machine Learning, Data Science בספרים על פי נתוני google books בין השנים 1980-2019

מקור: google Ngram Viewer

ניתן לראות שהמונח Machine Learning הוא מונח "ותיק" יחסית, כנראה משום שהוא מגיע מכיוון של אלגוריתמיקה ומדעי המחשב, תחום אשר קיים מאמצע המאה הקודמת. לעומתו Big Data הוא תחום אשר החל להתפתח לקראת שנת 2010, ו-Data Science מספר שנים מאוחר יותר (ועדיין משמעותית פחות נפוץ מהשניים האחרים, אך במגמת עליה). כעת אחר שעשינו סדר במושגים שונים, נסביר כיצד מדע הנתונים יכול לסייע בעסקים, מה ההכשרה הנדרשת של מדען נתונים (מאיזה רקע יגיע), ובאיזה כלים משתמש מדען הנתונים.

איך מדע הנתונים יכול לעזור לי בעסק?

כיום כמעט כל הפעולות העסקיות מתועדות בצורה ממוחשבת, דברים כמו "פתיחות דיוור" (מי מהלקוחות קרא newsletter ששלחנו), תנועות לוגיסטיות (ביקוש וצריכת מוצרים, שילוח, עיכובים לוגיסטיים), תורים (כיצד מתנהג תור של לקוחות: קצבי ההגעה, משך זמן ההמתנה וזמני השירות), רכישות של לקוחות, ועוד. 

מדען נתונים מסוגל להתחבר למסדי הנתונים הללו ויכול לתמוך את ההחלטות העסקיות באמצעות ניתוח הנתונים ובניית מודלי חיזוי.

גישה זו עוזרת לצמצם את אי-הודאות, ואת הסיכון הכרוך בהחלטות. שאלות שונות שאנחנו שואלים את עצמנו במסגרת פעילות העסק כמו איך לייעל את העבודה שלנו, איזה מוצרים להציע, או מיהם הלקוחות שהכי סביר שירכשו מוצר חדש יכולות לקבל מענה מדויק יותר. אם בעבר מנהלים היו צריכים "ניחוש מלומד", כיום אפשר לתמוך את ההחלטות בניתוח שיטתי של מדע הנתונים.

במובן מסוים אפשר להקביל את זה למקצועות אחרים "מסורתיים" יותר. כמו לדוגמה עריכת דין. כפי שעורך דין הוא איש מקצוע המלווה את העסק ומייעץ לו בנושאי משפט, מדען נתונים הוא איש אמון שלומד את העסק ומלווה אותו. כפי שעורך דין מתבסס על ספר החוקים על תקדימים משפטיים, ועל כללי המשפט, כך מדען הנתונים מתבסס על עקרונות ושיטות סדורות של ניתוח נתונים, השואבות מתוך עולמות המתמטיקה, סטטיסטיקה ומדעי המחשב.

מה ההכשרה של מדען נתונים?

לרוב מדען נתונים יהיה בעל רקע אקדמי של מתמטיקה, סטטיסטיקה, או מדעי המחשב. כיום ישנן מספר תוכניות לתואר ראשון במדעי הנתונים, אך בדרך כלל הבשלות המחקרית הנדרשת ממדען נתונים מגיע לאחר תואר שני או שלישי (שבו רוכשים מיומנויות מחקר הנדרשות בתפקידי מפתח במדעי הנתונים).

באיזה כלים משתמש מדען נתונים?

במסגרת סל הכלים העומד לרשותו של מדען הנתונים נמצאים כלים תכנותיים, הכלים הנפוצים היום הם שפת Python ושפת R. אליהם מצטרפים כלים נוספים כתלות בצורך.

איך ניתן לשלב Data Science בחברה שלך?

מאוד פשוט. אם אתם חושבים שהגיע הזמן לשפר את האופן שבו אתם מקבלים החלטות, ולהתבסס על נתונים במקום על ניחושים, צרו איתנו קשר, ונפעל ביחד אתכם על מנת להטמיע פתרונות Data Science אצלכם בעסק.

דילוג לתוכן