أخر الاخبار

المفاهيم الأساسية لعلم البيانات التي يجب أن يعرفها جميع محترفي تكنولوجيا المعلومات

 أن تصبح عالم بيانات: ما تحتاج إلى معرفته

أصبح علم البيانات اليوم في قلب كل الأعمال والمؤسسات تقريبًا. مع استمرار تدفق البيانات في النمو، هناك حاجة أكبر من أي وقت مضى ليس فقط لجمعها، ولكن لغربلتها وتحليلها لتوجيه القرارات. وبالتالي، فهم بحاجة إلى مهارات وخبرة عالم البيانات ، ويقوم الكثير منهم ببناء فرق كاملة لعلم البيانات.



ولا يزال هذا الطلب على علماء البيانات يفوق العرض بشكل عام، وهو ما يمثل العدد الكبير من الوظائف الشاغرة والرواتب الأعلى من المتوسط. وفقًا لأرقام Glassdoor ، فإن متوسط ​​الراتب الأساسي لعالم البيانات هو 108000 دولار. لا يقتصر الأمر على الأجر المرتفع فقط للتعويض عن وظيفة لا يستمتع بها الناس. في الواقع، إنها تُصنف كأفضل وظيفة في أمريكا حيث تبلغ نسبة الرضا الوظيفي 4.3 من 5.


تحديد دور عالم البيانات

أكثر من مجرد عالم كمي، عالم البيانات الناجح هو مفكر مبدع وحل المشكلات مع فهم المجال. في ضوء حقيقة أن استخلاص القيمة من البيانات لا يتطلب مهارة فحسب، بل فنًا أيضًا، اقترح Venture Beat منذ عدة سنوات أن "فنان البيانات" قد يكون أكثر دقة: "ربما هؤلاء العلماء ليسوا آينشتاين وإديسون، بل فان جوخ وبيكاسوس". لثورة البيانات الضخمة."


لا يقوم علماء البيانات بالمراقبة والقياس فحسب، بل يتوصلون إلى أساليب إبداعية لاستخلاص المعرفة والقيمة من البيانات. إن عالم البيانات الناجح ليس مجرد شخص قام بفحص قائمة المهارات الصعبة. يجب أن يكون لديه القدرة على التفكير في كيفية التعامل مع المشكلة بطريقة جديدة تفتح الطريق للحل ومن ثم توصيل ما نجح ولماذا.


والسؤال هو: ما الذي يجب على المرء فعله حتى يسير على الطريق الصحيح لبدء مهنة في علم البيانات؟ هناك مهارات أساسية أساسية يتفق عليها معظم الناس، ولكن هناك أيضًا مسألة القدرات التي يجب أن يمتلكها عالم البيانات للقيام بأكثر من مجرد معالجة الأرقام ونماذج البرامج. في الأقسام القادمة من هذا البرنامج التعليمي، يقدم بعض الخبراء رؤيتهم حول ما يلزم للتحضير للعمل في مجال علم البيانات.


الاستعداد للتأهل كعالم بيانات: كن مستعدًا للتغيير

كيف يمكن للمرء أن يتدرب ليصبح عالم بيانات ؟

أحد المصادر الأكثر استشهادًا بالتوجيه العملي في متابعة مهنة في علم البيانات هو مقال KDnuggets الذي تم نشره في الأصل في عام 2014 ولكن تم تحديثه وتوسيعه بانتظام حتى عام 2018، على الرغم من احتفاظه برقم العنوان الأصلي. لذا فإن 9 مهارات يجب أن تمتلكها لتصبح عالم بيانات ، في الواقع، تسرد 13 مهارة، على الرغم من أن ما إذا كان ينبغي اعتبارها جميعًا "مهارات" أم لا هو أمر قابل للنقاش.


تبدأ مهارات KDnuggets الأساسية بالتعليم الرسمي من حيث الشهادات الجامعية. يشير المقال إلى أن غالبية علماء البيانات يمتلكون درجات علمية متقدمة: 46% منهم يحملون درجة الدكتوراه، و88% يحملون درجة الماجستير على الأقل. كما يقومون أيضًا ببناء مهاراتهم الأساسية على المستوى الجامعي. الخيار الأكثر شعبية لهذا المسار الوظيفي هو البكالوريوس في الرياضيات والإحصاء، والذي يشكل حوالي الثلث. والدرجة التالية الأكثر شعبية هي درجة علوم الكمبيوتر ، والتي تحصل عليها بنسبة 19٪. الخيار الثالث والذي يشكل 16% هو الهندسة.


ومن شأن أي من هذه الاختيارات أن يساهم في اكتساب المهارات المطلوبة لهذا المجال، على الرغم من أن البعض يتحول إليه من العلوم الصعبة أو حتى من الفنون. من المؤكد أن عددًا من الطلاب في أكاديمية علوم البيانات في مدينة نيويورك يدخلون البرنامج حاصلين على درجة علمية في مجال آخر ويكتسبون السرعة في البرمجة والرياضيات قبل الانغماس في التركيز على علوم البيانات. ويدرك هؤلاء الطلاب بالفعل ضرورة تعلم مهارات جديدة للتكيف مع احتياجات مكان العمل.


نظرًا لأن الترميز والمهارات التقنية الأخرى التي يحتاج علماء البيانات إلى معرفتها يمكن أن تختلف بمرور الوقت - وهو أمر سننظر فيه بمزيد من التفصيل - يجب على عالم البيانات قبل كل شيء أن يحتفظ بالحافز والقدرة على التكيف لاكتساب مهارات ولغات جديدة. ونظرًا للوتيرة السريعة للتكنولوجيا، فإن التقنيات المستخدمة في علم البيانات بعد سبع سنوات ستبدو مختلفة تمامًا عن تلك المستخدمة حاليًا.


هذا النوع من التغيير أمر لا مفر منه، وفقًا لمقالة حديثة حول ما يتضمنه البقاء " مرتبطًا بمستقبل العمل ". وعلى النقيض من الوضع الطبيعي القديم الذي يتأهل فيه الأشخاص لمهنهم في بداية حياتهم المهنية ثم يستمرون في فعل الشيء نفسه، فإن الأشخاص الذين يرغبون في البقاء في اللعبة غدًا سيتعين عليهم الاستمرار في تعلم مهارات جديدة. ويوضح التقرير أن "نصف عمر المهارة انخفض من 30 عامًا إلى 6 سنوات في المتوسط".


ما يعنيه ذلك بالنسبة لأولئك الذين يسعون حاليًا للحصول على المؤهل هو أنه لا ينبغي عليهم أن يتوقعوا الانتهاء من تدريبهم بعد ذلك. إن الوضع الطبيعي القديم المتمثل في "التعلم في المدرسة والعمل في العمل" لم يعد مستداما في عالم الشركات. لا يتعلق الأمر فقط بالمضي قدمًا - ولكن مجرد البقاء على قيد الحياة - لتعلم التكنولوجيا والعمليات الجديدة من أجل مواكبة التغييرات في العمل.


نظرًا لواقع عالم اليوم، يجب أن يشمل تعليم عالم البيانات أكثر من مجرد الحصول على شهادة في علوم الكمبيوتر وشهادة في علوم البيانات أو الحصول على دورات للأدوات المختلفة المستخدمة في المهنة. إنها مسألة تعلم كيفية التعامل مع المشكلات مثل عالم البيانات ثم استخدام الأدوات المتنوعة المتاحة للحصول على أفضل الأفكار والنماذج التي تناسب أهداف المؤسسة. سيتطلب البقاء على رأس اللعبة مواكبة التقنيات الجديدة التي تظهر.

ولكن لا يزال عليك أن تبدأ بقائمة أساسية من المهارات، وسنتناول ذلك في القسم التالي.


المهارات التقنية التي يحتاجها عالم البيانات وكيفية اكتسابها

ما هي المهارات التقنية لعالم البيانات ؟ الإجابات على هذا السؤال تختلف. ومن أجل أخذ إشارات من الحياة الواقعية وليس فقط من المناهج الدراسية، سنلقي نظرة على المهارات الخمس عشرة التي حددها استطلاع Kaggle بأنها الأكثر استخدامًا في هذا المجال.


كما ترون من الرسم البياني لأفضل 15 خيارًا أدناه، تتقدم لغة Python بفارق كبير على المهارة العليا، حيث حصلت على أكثر من 76%. المركز الثاني يذهب إلى R بنسبة أقل بقليل من 60%. SQL متأخرة إلى حد ما عن ذلك، حيث تصل إلى أقل من 54%. هناك أيضًا عرض كبير للمركز الرابع، والذي ذهب إلى Jupyter Notebooks بنسبة تزيد قليلاً عن 40%.


ثم تنخفض أسهم TensorFlow إلى أقل من 29% ، تليها Amazon Web Services ، التي تتقدم قليلاً على Unix Shell، حيث تبلغ نسبة كل منهما 23%. الفئات التالية كلها تحوم تحت علامة 20%، والتي تشمل: Tableau و C / C++ و NoSQL . الاثنان التاليان المتقاربان جدًا هما MATLAB/Octave و Java ، وكلاهما بنسبة تزيد عن 18%. وبالمثل، فإن Hadoop / Hive / Pig يتقدم بالكاد على Spark ، مع ما يزيد قليلاً عن 17%. هناك مهارة أخرى تحسم الأمر، وهي أداة Excel Data Mining من Microsoft، وهي أداة يستخدمها ما يقل قليلاً عن 14%.

مخطط شريطي لأفضل 15 أداة مستخدمة في علم البياناتالصورة مجاملة من كاجل

بايثون هو رقم 1

لم يتم تأسيس مكانة بايثون الفخرية في علم البيانات من خلال Kaggle فحسب، بل من خلال استطلاعات الرأي الأخرى، كما يشهد على ذلك الاهتمام الذي حظيت به في وسائل الإعلام. في العام الماضي، على سبيل المثال، نشرت مجلة الإيكونوميست عنوانًا رئيسيًا مفاده أن " بايثون أصبحت لغة البرمجة الأكثر شعبية في العالم ". على الرغم من أن C++ شهدت نوعًا من الانتعاش، كما ذكرت Tech Republic ، إلا أن Python لا تزال تحتفظ بمكانة مرموقة في علم البيانات. في الواقع، ذكرت مقالة حديثة في Dice أن "بايثون على وشك أن تصبح لغة البرمجة لمعرفة ما إذا كنت تريد وظيفة هندسية جيدة الأجر في وول ستريت".

لذا من الواضح أن بايثون مهمة جدًا، وكما سنرى في القسم التالي حول ما تتضمنه دورة بايثون، فهي تشمل بعض المهارات الأخرى التي ظهرت في القائمة أيضًا.

اقرا ايضا:أفضل 10 أجهزة كمبيوتر محمولة للبرمجة مقارنة بعام 2024 من هنا

تعلم اللغات والمهارات

تعلم بايثون

الأشخاص الذين يريدون إتقان بايثون لديهم عدد من الخيارات. يمكن للأفراد الذين لديهم دوافع ذاتية أن يتعلموا بأنفسهم من خلال الرجوع إلى الكتب والبرامج التعليمية على YouTube والممارسات الموجهة ذاتيًا. يمكن لأولئك الذين يريدون المزيد من التعليمات والتوجيه الاشتراك في الدورات إما في الكليات أو في مدارس البرمجة المتخصصة. غالبًا ما يتضمن كلا الخيارين خيارًا عبر الإنترنت.


هناك بعض الدورات التدريبية المجانية لمستوى المبتدئين. ومع ذلك، عادة، هناك بعض الرسوم للدورات التدريبية الأكثر تقدمًا، بالإضافة إلى تلك التي تقدم شهادة يمكن إضافتها إلى السيرة الذاتية.


لن توفر الدورة التدريبية الشاملة تعليمات باللغة نفسها فحسب، بل في حزم تكميلية. وهذا يعني أن الأفراد الذين يكملون دورة علم بيانات بايثون لا ينبغي عليهم أن يتعلموا أساسيات ترميز بايثون فحسب، بل يجب عليهم أيضًا تعلم ما يلي:


فهم متعمق لعمليات علم البيانات، ومناقشة البيانات ، واستكشاف البيانات ، وتصور البيانات ، وبناء الفرضيات واختبارها، بما في ذلك المعرفة حول كيفية تثبيت بيئة بايثون وأدواتها ومكتباتها المساعدة.

فهم وتطبيق مفاهيم Python والحزم المرتبطة بها، بما في ذلك NumPy وSciPy وPandas وScikit-Learn ومكتبة matplotlib

خبرة في التعلم الآلي ومعالجة اللغات الطبيعية باستخدام Jupyter Notebooks مفتوح المصدر

معرفة كيفية استخدام تجريف الويب لاستخراج البيانات المفيدة من مواقع الويب

نظرة ثاقبة حول كيفية دمج Python مع Hadoop و Spark و MapReduce

على الرغم من أنه لم يتم إدراج كل ما سبق بشكل صريح ضمن المهارات العليا في استطلاع Kaggle، إلا أنها تعتبر بشكل عام جزءًا من مجموعة أدوات علم البيانات. هناك أيضًا بعض التداخل في غرض المهارات المحددة في Kaggle وتلك التي تم الحصول عليها في دورات Python. Tableau، على سبيل المثال، هي أداة لتصور البيانات يستخدمها بعض علماء البيانات ، على الرغم من أن العلماء المدربين جيدًا سيتقنون أيضًا أدوات أخرى لاستخدامها وفقًا لمتطلبات المشروع المحدد الذي يعملون عليه.


تعلم ر

سيقوم عدد من برامج علوم البيانات بتعليم لغة بايثون فقط بسبب شعبيتها الهائلة. هناك أيضًا بعض البرامج التي تقدم دورة دراسية تعتمد فقط على R . ولكن بالنسبة للشخص الذي يطمح إلى أن يكون مرتكزًا على أسس متينة قدر الإمكان، فإن إتقان كليهما هو الطريق الصحيح. كما لاحظ دراس زان، عالم البيانات في أكاديمية علوم البيانات في مدينة نيويورك، في 12 نصيحة أساسية لتعلم علوم البيانات ، "إن بايثون مثالية ولكن لغة R هي أداة تراجع رائعة. من الأفضل أن يكون لديك كلاهما في ترسانتك.


بالنسبة لأولئك الذين لم يسجلوا في إحدى الدورات الدراسية في إحدى الجامعات أو علوم البيانات، هناك خيارات إضافية موصى بها في الطرق الخمس الأكثر فعالية لتعلم R . وهي تشمل أخذ دورة تدريبية عبر الإنترنت، وقراءة الكتب، ومشاهدة مقاطع الفيديو التعليمية وقراءة المدونات. وتوصي بشكل خاص بما يلي:


الثورات (مدونة R من Microsoft)

إحصائي مدني

البيانات المتدفقة

مدونة داتازار

تعلم SQL

يعتبر Zhan أن لغة SQL "مهمة للغاية بالنسبة لمحلل البيانات ".

هناك عدد من الدورات التدريبية المجانية أو منخفضة التكلفة المتوفرة عبر الإنترنت حول هذا الموضوع. توصي Javarevisited بخمسة خيارات.


إحداها هي دورات من Udemy، على وجه الخصوص، Complete SQL Bootcamp . والثاني هو SQLZOO ، والذي يوصف بأنه "الموقع الأكثر شعبية لتعلم SQL عبر الإنترنت". والثالثة هي دورة SQL مجانية مقدمة من جامعة ستانفورد. الرابع هو " مقدمة إلى SQL: الاستعلام عن قواعد البيانات وإدارتها " من أكاديمية خان. الخامس هو SQL Bolt ، والذي يتم تقديمه كرهان جيد جدًا حتى لأولئك الذين ليس لديهم خلفية في البرمجة. إنه يقدم "20 درسًا بدءًا من استعلام SQL الأساسي إلى استعلامات الانضمام الأكثر تقدمًا وإرباكًا والتجميع والتصفية والتعامل مع القيم الخالية."


تقريب المهارات الفنية

وأضاف زان أن مهارات الرياضيات تدخل في الفهم الشامل لتقنيات علم البيانات الشائعة، بما في ذلك "النماذج الخطية المعممة، وشجرة القرار ، والوسائل K ، والاختبارات الإحصائية".


يتم تضمين معظم مهارات Kaggle المتبقية ذات التصنيف الأعلى في بيانات التطبيقات التي يتعلمها العلماء أثناء إتقان لغة Python أو R أو اللغات الخاصة بهم والتي يمكن دراستها رسميًا في المدرسة أو عبر الإنترنت أو من خلال وسائل الدراسة الذاتية التي تمت مناقشتها من أجل R. الأمر نفسه ينطبق على برنامج Excel، على الرغم من أنه ليس لغة ولكنه أحد مكونات مجموعة Microsoft Office. على الرغم من أنها لا تعتبر أداة حقيقية لعلم البيانات، فمن المحتمل أن يتم استخدامها من قبل الشركات لأنها مألوفة للأشخاص الذين يعملون هناك وتحتوي على بعض أدوات التصورات المضمنة. يتعلم العديد من الأشخاص برنامج Excel في الكلية أو فقط من خلال العمل معه في الوظيفة والتحقق من البرامج التعليمية حول التقنيات.

ولكن هذا ليس كل شيء

ومع ذلك، لا تزال هناك مهارات أخرى يستلزمها كونك عالم بيانات. سوف نستكشف تلك الموجودة في القسم الأخير.


الحصول على المزيج الصحيح: علم البيانات يتطلب أكثر من الرياضيات والبرمجة

كما ذكرنا في البداية، على الرغم من أن المهارات الصعبة تشكل جوهر علم البيانات ، إلا أن هناك أيضًا بعض المهارات الشخصية التي تشارك في سد الفجوة بين البيانات ومعناها، والمعلومات المقدمة والرؤية القابلة للتنفيذ . ولهذا السبب هناك حاجة إلى مزيج من المهارات، بما في ذلك التقنية والإبداعية، لتحقيق النجاح في هذا المجال.


مزيج من المهارات اللازمة لعالم البيانات المحترف هو ما ينبثق من القائمة التي يقدمها روجر هوانغ في كل مقابلة لعلم البيانات تتلخص في خمسة أسئلة أساسية . تمثل هذه الأسئلة الخمسة 60% من المهارات الصعبة، و20% من المهارات الناعمة، و20% من القدرة على تطبيق المعرفة على الموقف. تتكون المهارات الصعبة من ثلاثة أسئلة: واحد في الرياضيات، وواحد في البرمجة ، وواحد في الإحصاء.


تلعب المهارات الشخصية دورًا في تقديم الإجابة على ما يسميه هوانج "الأسئلة السلوكية" التي تقيم مدى ملاءمة مقدم الطلب لثقافة الشركة. ثم هناك ما يسميه "سؤال السيناريو"، وهو السؤال الذي يتحدى المتقدمين لإثبات قدرتهم على تطبيق ما تعلموه على موقف معين وتحديد النهج الذي يمكن أن ينجح. إن إتقان أسئلة السيناريو يستمد قوة الخيال أو الإبداع، بالإضافة إلى مهارات الاتصال والفطنة التجارية، وهي المهارات الناعمة التي تدرجها KDnuggets في قائمة المهارات الإلزامية لعالم البيانات.


ما علاقة الإبداع به؟

أوضح بيل باردي سبب أهمية الإبداع لنجاح علم البيانات في مقال على موقع Medium . وأوضح كالآتي: «ما أعنيه بالإبداع في هذا السياق هو عملية طرح الأسئلة والتجربة. يسمح لنا الإبداع بأخذ البيانات التي لدينا، والتشكيك في افتراضاتنا الأولية حول ما تخبرنا به البيانات، والتجربة حتى نخرج منها بشيء مفيد.


قدم باردي تشبيهًا للطاهي الذي يتمتع بالرؤية والمهارة اللازمة لأخذ الطعام النيئ وتحويله إلى طبق مذهل. بدون مهارات الطاهي في الطبخ، لن تصل المكونات إلى إمكاناتها. البيانات في حد ذاتها هي عنصر خام، وليست المنتج النهائي لعلم البيانات، وهو البصيرة.


"لكي تدعم البيانات نتائج إبداعية أو مبتكرة حقًا، يجب أن نسمح لها بإبلاغنا بالحقائق حتى نتمكن من طرح الأسئلة وتجربة "الممكن المجاور" لاكتشاف الرؤى والإمكانات التي لا توفرها البيانات الأولية " جوهر حجتها.


استخدام جانبي الدماغ للنجاح في علوم البيانات

يتفق موقف باردي بشأن الحاجة إلى الإبداع مع الرؤية التي شاركتها أوليفيا بار رود في 12 نصيحة أساسية لتعلم علوم البيانات . وأصرت على أن علماء البيانات بحاجة إلى استخدام "الفن بقدر ما يستخدم العلم". وأضافت أنه من الخطأ اعتبار "علم البيانات مهنة تستخدم النصف الأيسر من الدماغ في المقام الأول" بينما في الواقع، "يجب على علماء البيانات استخدام دماغهم بالكامل".

وأوضحت أن دمج كلا الجزأين من الدماغ هو ما يجعل من الممكن القيام بأكثر من مجرد مراقبة الأنماط:

يمكن تنفيذ معظم المهام الخطية/الجزء الأيسر من الدماغ تلقائيًا أو الاستعانة بمصادر خارجية. لتقديم ميزة تنافسية كعلماء بيانات، يجب أن نكون قادرين على التعرف على الأنماط وتجميع كميات كبيرة من المعلومات باستخدام كلا جانبي دماغنا. ويجب أن نكون مفكرين مبتكرين.

الحديث عن الأعمال

لا يقتصر الأمر على التفكير الإبداعي فحسب، بل يتعلق أيضًا بنقل الأفكار بطريقة منطقية للجمهور المستهدف. وهذا يعني أن علماء البيانات يجب أن يكونوا قادرين على وضع أنفسهم مكان صناع القرار لرؤية الأشياء من وجهة نظرهم وشرح أهمية التحليلات من حيث مصطلحاتهم.


وكما قال بار رود: "معظم المديرين التنفيذيين لا يفهمون ما نقوم به أو كيف نفعل ذلك. لذلك نحن بحاجة إلى التفكير مثل القادة وإيصال نتائجنا وتوصياتنا باللغة التي يفهمها أصحاب المصلحة لدينا ويثقون بها.


هذا هو المكان الذي يحتاج فيه عالم البيانات إلى الاعتماد على ثلاث من المهارات الشخصية الأربع التي حددتها KDnuggets: العمل الجماعي ومهارات الاتصال والفطنة التجارية. بعض الخبرة في المجال البديل للفطنة التجارية. يشير ذلك إلى فهم السياق المحدد للبيانات وأهداف التحليلات.


بدون خبرة عميقة في هذا المجال، لاحظ دين أبوت، المؤسس المشارك وكبير علماء البيانات في SmarterHQ ، في إحدى المقابلات : "أنت لا تعرف ما الذي تبحث عنه". يتعين على علماء البيانات التواصل بوضوح مع الأشخاص في الشركة الذين يعرفون خصوصيات وعموميات عملياتها لمعرفة "المقاييس المهمة".


ما هو كل شيء

ماذا عن المهارة الناعمة الرابعة التي تتضمنها KDnuggets؟ هذا هو الفضول الفكري، الذي يكمن وراء كل الدوافع لصياغة الأسئلة وإعداد عملية العثور على الإجابات.


وهذا ما يقودنا إلى جوهر العلم كما وصفه أينشتاين : “إن مجرد صياغة مشكلة ما هو أكثر أهمية بكثير من حلها، والذي قد يكون مجرد مسألة مهارات رياضية أو تجريبية. إن إثارة أسئلة جديدة وإمكانيات جديدة والنظر إلى المشكلات القديمة من زاوية جديدة يتطلب خيالًا إبداعيًا ويمثل تقدمًا حقيقيًا في العلوم.


تعليقات



    حجم الخط
    +
    16
    -
    تباعد السطور
    +
    2
    -