מה זה לעזאזל Data Scientists

S h a r k 1 8

New member
מה זה לעזאזל Data Scientists


בתקופה האחרונה Data Scientist הפך להיות המקצוע החם בהייטק. הביקושים הולכים וגדלים וכך גם המשכורות. ממה שאני קורא עוד לא הבנתי למה מתכוונים שאומרים Data Scientist. האם הכוונה למתכנת עם ידע בפריימוורקים שמעבדים נתונים (כמו Spark)? האם הכוונה לאלגוריתמאי/סטטיסטיקאי? איזה השכלה או ניסיון אמור להביא איתו מישהו שמועמד לתפקיד כזה?
 

שרעבי100

New member
הפרופיל הטיפוסי זה מישהו עם תואר מתקדם במדעים

כאשר נדרש ידע בסטטיסטיקה וב-ml.
ידע ב deep learning יהווה לרוב יתרון.
ההבדל העיקרי מאלגוריתמאי הוא שלא חייבים כישורי תיכנות ברמה גבוהה, לפעמים מספיק לדעת רק R.
 

S h a r k 1 8

New member
וחוץ מפרופיל

איך נראית עבודה של data scientist ?
זה נשמע יותר תיאורטי מאלגוריתמאי? data scientist בעצם ממציא שיטות או אלגוריתמים לניתוח מידע? זה הרעיון?
&nbsp
 

שרעבי100

New member
ההגדרה היא קצת פאזי

למיטב הבנתי data scientist לרוב ייקח דאטה ויוציא ממנו מסקנות/מודלים בכלים של ml. לרוב הוא לא יכתוב קוד פרודקשן.
אלגוריתמאי לעומת זאת יידרש לפתור בעיה אלגוריתמית כלשהי (קשורה או לא קשורה לדאטה שנאגר בחברה) והרבה פעמים גם לממש את האלגוריתם בעצמו.

כדי לחדד:
1. משימה קלאסית למדען מידע - יש לנו דאטה על יוזרים, תבנה לנו מודל שחוזה כמה כסף כל יוזר יוציא על משחק המחשב המיותר שהמצאנו.
2. משימה קלאסית לאלגוריתמאי - למוצר שאנחנו מפתחים אנחנו צריכים רכיב שבוחן תמונה ואומר האם יש בה איש שמחזיק כינור - תבנה לי בבקשה את הרכיב הזה.

יש כמובן הרבה אפור, הרבה חפיפה והגדרות מעורפלות ואפשר גם לעבור בין התפקידים.
 

the lone gunmen

New member
העבודה עצמה היא פחות או יותר כזאת:

אתה מקבל המון דאטה, לא מסודר, לא מאורגן, דפוק, חסר ומעוות, ומטרה: "לחזות x מתוך הדאטה שקיבלת".

אם אתה עובד מול צוות של data engineers, אז הם אמורים לסדר לך אותו - אבל אתה אף פעם לא באמת תסמוך עליהם...

אחרי זה, אתה מנסה לראות אם בכלל יש אפשרות לחזות את מה שאתה רוצה ואתה צריך לקבל החלטה האם יש טעם להמשיך בכיוון הזה או לנסות להציע כיוון אחר.
אתה צריך לחשוב על איזה סוג של אלגוריתם להשתמש, באיזה אלגוריתם ספציפי, אולי לשלב אותו עם אלגוריתמים אחרים או להעביר את הדאטה איזשהו עיבוד מקדים כדי להקל על האלגוריתם ולקצר את זמן ההמתנה לתוצאות, לחקור את ההיפר-פרמטרים והקשר ביניהם עבור כל קונסטלציה, לעקוב אחרי התוצאות בזמן אמת, לוודא שהקוד כתוב בצורה מספיק יעילה ולבסוף לחקור את התוצאות ולראות מה השגת.

זה בגדול.
 

S h a r k 1 8

New member
ML ו deep learning הם נושאים חדשים יחסית באקדמיה

אין בנושאים האלה הרבה קורסים וגם אני לא מאמין שיש הרבה מנחים בתחומים האלה לתזה.
&nbsp
קשה לי להאמין שלרוב אנשי ה data יש תזה בתחומים האלה. תואר שני מחקרי עם תזה בתחום אחר גם רלוונטי?
 

שרעבי100

New member
לא תחומים חדשים

Deep learning קיים באופן תיאורטי משנות ה50. הוא נהיה רלוונטי לתעשיה רק לאחרונה בגלל השיפורים במחשוב וכמויות המידע העצומות שהפכו אותו לפיזיבילי.
Ml באופן כללי מלומד באקדמיה כבר כמה שנים טובות.
עם זאת, אתה צודק שכמות המנחים שעוסקים בתחום מוגבלת.

בתשובה לשאלתך, עם תואר מתקדם מחקרי במדעים + קורסים בml וdl מקורסרה + פרויקט עצמאי אחד או שניים בנושא - יש סיכוי סביר שתוכל למצוא עבודה. יש הרבה מאוד ביקוש.
 

S h a r k 1 8

New member
מדוע דווקא בתחום הזה יש חשיבות לתואר שני מחקרי

גם אם הוא לא בתחום שקשור ל DS?
איך למשל תואר שני בפיסיקה מקדם אנשים לתפקיד data science?
&nbsp
 

שרעבי100

New member
כמה גורמים

1. אתה לא נדרש ליכולות תכנות מאוד גבוהות אז לא חייב להיות ממדעי המחשב.
2. אתה נדרש לבצע סוג של מחקר על הדאטה ולכן יש חשיבות לנסיון המחקרי מהאוניברסיטה.
3. לפעמים לאנשים מדיסציפלינות אחרות יכול להיות ידע רלוונטי שחסר לבוגר מדעי המחשב כמו ידע בsignal processing אם מתעסקים עם מידע שהוא time series.
4. מסכים לחלוטין עם הבחור השני שענה, פיזיקאים הם אנשים חכמים עם ידע במתמטיקה וידע מסויים באלגוריתמים ובתוספת קורסים מתאימים זה לרוב מספיק.
 

יבגניי34

New member
יש מיסקונספציה בציבור שפיסיקה זה "קשה" ומי שלמד את זה "חכם".

זה מה שקוראים "signal".
 

the lone gunmen

New member
התחום אכן לא חדש - אבל יש אלגוריתמים חדשים יחסית

למשל, LSTM שהוצג לראשונה לפני פחות מ-20 שנים ומאז עבר כמה גלגולים.
גם CNN אולי קיים כבר כמה עשרות שנים, אבל שיפרו אותו ושידרגו אותו לא מעט בשנים האחרונות (למשל, VGG net).
גם שילובים של 2 האלגוריתמים הנ"ל הם דבר יחסית חדש.
כנ"ל לגבי אלגורתמים מבוססי RBM.

אז כן, הרעיון לא חדש - אבל יש המון דברים חדשים ללמוד. גם מנחים\חוקרים צריכים כל הזמן לעקוב ולהיות מעודכנים.

אני חושב שאמנם יש מיעוט של מנחים באקדמיה לתחום, אבל אני חושב שיש עוד פחות סטודנטים שממשיכים לדוקטורט אחרי שהם מבינים כמה הם יכולים להרוויח בחוץ עם מאסטר... (אני שומע על מנחים שמחפשים סטודנטים לדוקטורט בתחום ולא מוצאים).
השילוב של שני הדברים בהחלט יוצר מחסור במועמדים. (אנחנו מחפשים כבר לא מעט זמן, ועד שמגיע מישהו שרוצים אותו, אנחנו צריכים "לנצח" חברות אחרות במלחמה על ליבו...).
 

שרעבי100

New member
מסכים

DL של שנות החמישים רחוק מהDL של היום. התחום בפריחה מטורפת.
לגבי המועמדים, באופן כללי תואר מתקדם במדעי המחשב נחשב עד לפני כמה שנים כתואר די מיותר ומטופש מבחינה פיננסית אז יש מחסור.
אולי הביקוש הנוכחי ישנה את זה קצת.
בהצלחה במציאת מועמדים!
 

rachelushka

New member
ML זה הפרדיגמה השולטת במדעי המחשב בעשר השנים האחרונות

deep באמת יותר צעיר (כלומר בצורה שהוא אשכרה מביא תוצאות... תיאורטית הוא היה קיים מאז שאז ML), אבל הוא כבר שולט בתזות שנכתבו שנה-שנתיים האחרונות.
אבל מעבר לזה, dara scientist זה מישהו עם יכולת לחקור. הוא לא חייב להיות עם יכולות מוכחות ואפילו הכשרה בשני הנ"ל. תואר מתקדם במתמטיקה או פיזיקה פלוס ידע בסיסי בפייתון או מאטלאב מספיקים לדעתי כדי להגיע למשרת דאטה סיינס בהרבה מקומות.
 

S h a r k 1 8

New member
זה נשמע שרמת התכנות בתפקידים האלה היא די בסיסית

ובכלל אם ML הפך לפרדיגמה שלטת, לא עדיף שכל מתכנת יכיר את היסודות שלה?
&nbsp
 

the lone gunmen

New member
בגדול, זה אלגוריתמאי עם התמחות בתחום של ML בדגש על

Deep Learning. עד לפני כמה שנים, התפקיד היה פשוט אלגוריתמאי.

מאוד כדאי לדעת לעבוד עם spark - כיוון שבד"כ יהיה המון דאטה לעבוד אתו. (יש מקומות שבהם יש אנשים שמכינים את הדאטה ואנשים שכותבים את האלגוריתמים ויש מקומות שבהם אותם אנשים עושים את שני הדברים - וגם אם יש מישהו שמכין את הדאטה, עדיין, לא שווה כל פעם לעשות פינג-פונג עם צוות אחר בשביל כמה שורות קוד) וראיתי שיש גם דרישה ל-Tensorflow בהרבה מקומות.

בהרבה מאוד מקומות משתמשים ב-Python כיוון שזו שפה מאוד פשוטה יחסית שאפשר לעבוד איתה עם עם spark וגם עם tensorflow.

התפקיד גם מחייב הבנה וידע בסטטיסטיקה והסתברות - בעיקר לצורך השוואת התוצאות של האלגוריתם מול מסקנות שאפשר לקבל באמצעות סטטיסטקה. (זה בעצם המדד לטיב התוצאות).

ההשכלה למיטב היכרותי כוללת הרבה מאוד אנשים שעשו תואר מתקדם בפיסיקה והבינו שאין מה לעשות אתו בתעשיה, אז או שלמדו לבד או שהלכו ל-boot camp והצליחו למצוא משרה ראשונית (כמוני, למשל וכמו עוד חלק מחבריי ללימודים)... אבל בגדול, ההשכלה הכי רלבנטית היא (לדעתי) מדעי המחשב בדגש על קורסים של ML (גם מהנדסי חשמל ומחשבים עושים קורסים כאלה אבל לרוב יש להם פחות ידע באלגוריתמים אחרים - ולפעמים משתמשים בעוד דברים חוץ מברשתות נוירונים).
 

S h a r k 1 8

New member
תואר שני בפיסיקה אני לא מבין איך קשור ל data science

אם כבר תואר שני במתמטיקה/סטטיסטיקה וכמובן מדעי המחשב
&nbsp
 

the lone gunmen

New member
אין הרבה קשר

בפיסיקה לומדים טיפה תכנות ואולי במחקר גם כותבים קצת אלגוריתמים (בעיקר אצל תיאורטיקנים), כמו שאני עשיתי.
אצל האחרים יש הרבה התעסקות עם דאטה וסטטיסטיקה. (אבל פחות עם אלגוריתמים.

לרוב, אנשים עם תואר מתקדם בפיסיקה הם חכמים ומסוגלים ללמוד ובגלל הביקוש הרב שיש ובגלל שתואר שני בפיסיקה נראה מרשים בקורות החיים - יש להם הזדמנות להיכנס לתחום חם ומעניין, אז הם מנצלים אותו.

אני מניח שברגע שיהיו מספיק אנשים שממש למדו את התחום - אז לפיסיקאים יהיה יותר קשה להיכנס לזה.
 

antreprize

New member
זה קשור לחשיבה אנליטית, עבודה עם נתונים

(בעיקר למי שמגיע מתחום ניסויי), היכרות עם כלים מתמטיים וסטטיסטיים רלוונטיים.
 

יבגניי34

New member
אל דאגה גם המגייסים לא הבינו. בגדול זה מתרגם ל

"קראתי במדיום שאפשר לעשות ממידע כסף. יש לנו המון מידע. אני רוצה תוך שבוע לראות פה שני דוקטורים לפיסיקה יושבים עם ספארק וג'ופיטר ומדברים על פנדות"
 
למעלה