“البيانات هي النفط الجديد”.
(مقولة شهيرة لعالم الرياضيات البريطاني كلايف هامبي في عام 2006)
الجملة السابقة بسيطة للغاية، لكنها بليغة جدا كما ترى، وهذا لسببين: أولهما هو لفتها إلى أهمية البيانات في عالمنا الحالي، وثانيهما الإشارة إلى تلك البيانات أنها كالنفط، أي ليست مفيدة في حالتها الخام، إذ يلزم تنقيحها ومعالجتها وتحويلها إلى معلومات مفيدة، وهنا تكمن قيمتها الحقيقية.
شركات التقنية الكبرى، مثل غوغل وميتا وأمازون، تتسابق دائما لتملك كميات ضخمة من البيانات، وعملية جمع البيانات نفسها حاليا أصبحت أرخص وأسهل بكثير؛ كما أن ارتفاع الطلب على تلك البيانات زاد من قيمتها جدا في عصرنا الحالي. لكنها، كما ذكرنا، ليست مفيدة بمفردها، وفي حالتها الأولية الخام، لذا تأتي الحاجة إلى فهم تلك البيانات، وهو ما يقدمه لنا علم البيانات (Data Science).
ما علم البيانات؟
علم البيانات، في أبسط تعريف له، هو استخراج قيمة أو معلومة مفيدة من مجموعة ضخمة من البيانات المبعثرة هنا وهناك، وهو منهج يشمل عدّة تخصصات وعلوم مثل الرياضيات والتحليل الإحصائي والبرمجة وتعلم الآلة والتعلم العميق.
لا يتوقف هذا المنهج على مجرد معرفة مجموعة من الأدوات والتقنيات فقط، التي يمكن عبرها لأي شخص وضع مجموعة من البيانات داخل خوارزميات تعلم الآلة والوصول إلى بعض النتائج، لكن ما يقدمه علم البيانات هو رؤية ومعرفة واضحة وضرورية حول ما تعنيه تلك الأرقام والإحصائيات تحديدا، وكيفية جمعها وإدارتها، بجانب كيفية تطبيق التحليل بأفضل أسلوب ممكن للإجابة عن الأسئلة المطروحة منذ البداية.
علم البيانات، مثل أي نوع من العلوم، لا ينطوي على خدع سحرية، فهو يشبه أن تُلقي نظرة سريعة خلف كواليس لغز معقد لتعرف كيف ترتبط تلك الإحصائيات والأرقام لتُشكِّل هذه الأنماط التي تظهر أمامك معا. يمكنك تخيل الأمر على أنه محاولة لحل هذا اللغز؛ عليك أن تبدأ بطرح الأسئلة الصحيحة حول البيانات التي تملكها، لكي تصل إلى أفضل طريقة ممكنة لحل اللغز، لهذا فإن الخبرة في مجال عملك مهمة للغاية، لأنها ستساعدك على طرح تلك الأسئلة، والاستفادة من تلك البيانات بالصورة الأمثل.
هناك خمس مراحل أساسية تحدث داخل أي مشروع لعلم البيانات، دعنا نعرفها سريعا لنأخذ فكرة عما يحدث في كل مرحلة، وكيف يتناسب كل شيء معا لخلق قيمة حقيقية ومعلومات مفيدة في النهاية. (1)
خمس مراحل أساسية
المرحلة الأولى هي البدء بطرح السؤال الصحيح؛ ربما يبدو هذا أمرا بديهيا، ولكنه ضروري جدا للوصول إلى نتائج عملية ومفيدة فعلا. على سبيل المثال، إن بدأت عملك في إحدى الشركات وطُلب منك الإجابة عن سؤال فضفاض جدا مثل: كيف يمكن لشركتنا توفير الأموال؟ أو سؤال غامض جدا مثل: ما أفضل فئة من العملاء يمكننا التعامل معها؟
غالبا مع هذا النوع من الأسئلة لن تحصل على إجابة مناسبة من البيانات. لهذا، إن كنت تعمل بمجال علم البيانات فستكون أولى مهامك هي مساعدة الشركة على صياغة الأسئلة بالصورة الأفضل والأكثر تحديدا، حتى تحصل على إجابات وتوجهات واضحة، مثلا ما الأوقات الأكثر كفاءة من حيث استهلاك الطاقة لتشغيل المعدات الثقيلة؟ أو ما فئات العملاء التي توفر أعلى قيمة ممكنة لعروض خدماتنا؟
مثال آخر هنا هو تقلبات العملاء؛ كثير من الشركات ترغب في امتلاك القدرة على التنبؤ بالوقت الذي سينقطع فيه العملاء ويتركون خدماتها، ولكن مجرد معرفة الوقت لن يكون مفيدا في حد ذاته. الأمر المفيد أن تصوغ السؤال بطريقة يمكن الإجابة عنها وأن توفر قيمة حقيقية، فعليك حينها أن تسأل: “ما نسبة الخصم التي يجب أن تقدمها الشركة للعملاء، قبل تركهم لخدماتها، حتى يقرروا البقاء معها، مع الاحتفاظ بأفضل نسبة أرباح للشركة؟”.
بعد طرح السؤال الصحيح، سيأتي الدور على المرحلة التالية وهي كيف ومن أين تجمع البيانات الضرورية للتحليل. في بعض الحالات، قد تملك تلك البيانات فعلا أو ربما تكون بصدد جمعها حاليا. عموما، هذا السيناريو هو الأكثر شيوعا الآن، مع انتشار التقنيات الرقمية أكثر في مختلف الصناعات وقطاعات الأعمال، لهذا في الغالب ستملك شركتك فعلا البيانات اللازمة للإجابة عن كثير من الأسئلة المحورية لأعمالها. بينما مع بعض الحالات الأخرى قد تحتاج إلى البحث عن مصادر جديدة للبيانات، أو ربما تفكر في طريقة تدمج بها عملية جمع البيانات داخل عمليات الشركة المعتادة، لتتمكن من بناء قاعدة بيانات تحتوي على معلومات مهمة لأعمال الشركة ويمكن استخدامها في التحليل.
نظرا لأن مجموعات البيانات لن تكون مثالية بشكلها الأوّلي، فهنا تأتي المرحلة الثالثة وهي تنقيح وترتيب تلك البيانات؛ الخطوة التي تجهز فيها تلك المجموعات لعملية التحليل عبر تعديل أو إزالة بعض النقاط المرجعية للبيانات، أو بعض فئاتها، التي قد لا تكون دقيقة أو مكتملة أو ربما تكون مكررة أو لا تصلح هنا، أو بتنسيق غير صحيح، أو ربما مضللة بأي شكل من الأشكال. عملية تنقيح وترتيب البيانات خطوة ضرورية ومهمة؛ مثلا تجاهل التخلص من أي قيم خارجية خاطئة أو فئات مضللة من البيانات قد يؤدي إلى نتائج لا يمكن الاعتماد عليها أو لا يمكن تحليلها وتفسيرها من الأساس.
بينما تأتي في المرحلة الرابعة عملية تحليل البيانات، التي يمكن اعتبارها جوهر علم البيانات، وهي فرصة للاستفادة من جميع تقنيات ومعرفة هذا المجال لاكتشاف معلومات مفيدة وتحمل قيمة حقيقية من البيانات. هناك أنواع مختلفة لعملية التحليل، منها التحليل الاستكشافي (Exploratory Analysis)، وهو ما يمنحك رؤية أفضل لمجموعات البيانات قبل بدء عملية التحليل. كذلك التحليل الوصفي (Descriptive Analysis) الذي يهدف إلى الإجابة عن سؤال “ماذا حدث؟”، وسيحدد ما الجيد وما الذي يحتاج إلى تحسين، كما أنه يضع الأساس لعمليات التحليل الأكثر تقدما. ثم هناك التحليل التشخيصي (Diagnostic Analysis) الذي يحاول الإجابة عن سؤال “لماذا حدث هذا؟”، كما يتضمن اكتشاف العلاقات والروابط بين المتغيرات المختلفة. بجانب التحليل التنبؤي (Predictive Analysis) الذي يسعى للإجابة عن سؤال “هل سيحدث هذا مرة أخرى في المستقبل؟” بناء على البيانات السابقة التي جمعتها. وأخيرا التحليل التوجيهي (Prescriptive Analysis) الذي يهدف إلى الإجابة عن سؤال “ماذا يجب أن نفعل؟”، إذ يحدد أفضل مسار يمكن التحرك فيه استنادا إلى التحليلات السابقة، والنتيجة ستكون إمكانية اتخاذ قرارات وفقا للتوجهات المستقبلية.
المرحلة الخامسة والأخيرة هي طريقة عرض تلك التحليلات في النهاية، التي يجب فيها أن تملك القدرة على شرح معنى التحليلات وكيفية تطبيقها، وهنا يأتي دور عرض البيانات بأسلوب بصري يسهّل فهمها. والآن بعدما عرفنا الخطوات الأساسية في علم البيانات، يظهر سؤال آخر: أين يمكن استخدامه تحديدا؟
أين يُطبق علم البيانات؟
يدخل علم البيانات حاليا في تطبيقات كثيرة، ومجالات وصناعات مختلفة، نذكر منها على سبيل المثال الإعلانات التي تراها على مواقع التواصل الاجتماعي باستمرار؛ يساعد علم البيانات على عرض الإعلانات للمستهلكين الذين قد يهتمون بمحتوى هذا الإعلان.
مثال آخر هو خوارزميات توصية المحتوى مثل خوارزميات نتفليكس، والتوصية بتفقد منتجات قد تعجبك في أمازون؛ تساعد تلك الخوارزميات في التنبؤ بما سيستمتع به العملاء، استنادا إلى المعلومات الحالية المتاحة عنهم. هناك أيضا خوارزميات التعرف على الصور والكلام، التي تطورت سريعا في السنوات الأخيرة بفضل تطور تقنيات تعلم الآلة والتعلم العميق. كما يدخل علم البيانات أيضا في اكتشاف عمليات الاحتيال؛ حيث تُعَدُّ خوارزميات تعلم الآلة جزءا أساسيا في الكشف عن عمليات الاحتيال حاليا.
كما يدخل علم البيانات أيضا في تطوير أنواع جديدة من الأدوية، بداية من الفحص الأوّلي للمركبات الدوائية إلى التنبؤ بمعدل نجاحها بناء على المتغيرات البيولوجية، تسهل الخوارزميات هذه العملية وتقصرها، مما يمنحنا الفرصة لاستكشاف وجهات نظر جديدة في كل مرحلة من تطويرها.
حتى في الألعاب، تستخدم شركات الألعاب تقنيات تعلم الآلة لتطوير ألعابها المختلفة، فمثلا عندما تتقدم إلى مستويات أعلى وأكثر تعقيدا داخل اللعبة، فإن الخوارزميات تحدث نفسها لكي يواجه اللاعب مزيدا من التعقيدات والصعوبة. (2)
النماذج السابقة كانت مجرد أمثلة بسيطة على تطبيقات علم البيانات، والآن جاء الدور إلى ترشيحات كتب ومساقات ستساعدك على بدء رحلتك في فهم علم البيانات من الصفر.
كتب لفهم علم البيانات
اخترنا ترشيح الكتب التالية لأنها تبدأ شرح علم البيانات من الصفر وتغطي المراحل الخمس التي تحدثنا عنها، وأولها هو كتاب “Data Science from Scratch”، وهو أحد المصادر القيمة لمَن يبحث عن فهم هذا المجال من البداية ويرغب في التعمق أكثر داخل علم البيانات وتعلم الآلة، إذ يحاول الكتاب شرح أساسيات علوم الجبر الخطي والإحصاء والاحتمالات، بجانب أساسيات تعلم الآلة، وفي الوقت نفسه يعرض مهارات مهمة وضرورية لتبدأ رحلتك في علم البيانات.
الكتاب الثاني هو “Data Science for Dummies”، الذي يقدم جولة شاملة ومكثفة داخل مجال علم البيانات، بمقدمة واضحة للمهارات الأساسية لهذا المجال، كما يقدم الكتاب منهجا شاملا مع تركيزه على تطبيقات العالم الحقيقي، بالإضافة إلى بساطة وسهولة لغته.
أما ترشيحنا الثالث فهو كتاب “Data Science for Beginners”، وهو ليس كتابا واحدا لكنه مجموعة من أربعة كتب، تستهدف شرح المفاهيم الأساسية لهذا المجال للمبتدئين، وتوفر المجموعة شرح لغة البرمجة بايثون (Python) وتحليل البيانات وتعلم الآلة. يقدم كل كتاب تعليمات ودروسا مفصلة خطوة بخطوة حول كيفية الاستفادة من لغة البرمجة بايثون، وهي من أشهر اللغات المستخدمة في علم البيانات، لتطوير الشبكات العصبية ومعالجة البيانات وإتقان الأساسيات في هذا المجال.
الكتاب الرابع هو “Storytelling with Data”، الذي يحاول تأكيد فكرة استخدام البيانات لسرد القصص عبر شرح أساسيات عرض البيانات وكيف تتواصل مع الآخرين باستخدامها بصورة فعّالة، كما يستكشف الكتاب قوة سرد القصص وأسلوب وضع البيانات بوصفها نقطة محورية داخل قصتك، لتتمكن من شرح وتوضيح معنى تحليلاتك بأمثلة عملية.
مساقات لبدء رحلتك في علم البيانات
أما بالنسبة للمساقات، فوقع اختيارنا على مسارات تشرح أساسيات علم البيانات للمبتدئين، وهي مساقات من شركات وجامعات شهيرة، وأولها هو مساق مقدم من شركة “آي بي إم” (IBM) بعنوان “أساسيات علم البيانات”، يقدمه مجموعة من أبرز علماء البيانات في شركة “آي بي إم”، ويقدم معرفة أساسية وعملية لأدوات وتقنيات مستخدمة في علم البيانات، بجانب كيفية استخدام لغة بايثون في هذا المجال، كما تتوفر الترجمة العربية لهذا المساق.
المساق الثاني من شركة غوغل، وهو “تحليلات البيانات من Google Professional Certificate”، وهو مساق باللغة العربية، ويتيح لك اكتساب فهم شامل للممارسات والعمليات التي يستخدمها محلل بيانات مبتدئ في وظيفته اليومية، كما يقدم أيضا تعلم المهارات التحليلية الأساسية، مثل عملية تنقيح وترتيب البيانات وتحليلها وطرق عرضها، وكذلك الأدوات المستخدمة مثل جداول البيانات، ولغة برمجة “SQL”، ولغة برمجة “R”.
المساق الثالث هو “علم البيانات والتعلّم الآلي”، وهو مساق باللغة العربية مقدم من منصة إدراك وبرنامج “دوائر المطورين” (Developer Circles) التابع لمنصة فيسبوك. يقدم هذا المساق شرحا لمفهوم علم البيانات وتأثيره الاجتماعي في العالم العربي، بجانب وظائف هذا المجال ومراحل تطور تحليلات البيانات وتطبيقات تعلم الآلة، وكذلك الفرق بين علم البيانات وتحليل البيانات وتعلم الآلة والذكاء الاصطناعي من أوجه تشابه واختلاف، بالإضافة إلى مسار ومراحل علم البيانات بما في ذلك جمع البيانات والاستكشاف والتصور والتحليلات التنبؤية وتعلم الآلة وتطبيقاتها.
وإذا كنت تخطط للدخول في مجال علم البيانات أو الذكاء الاصطناعي، فمن المؤكد أنك ستحتاج إلى تعلم لغة بايثون، لأنها شائعة الاستخدام في مجالات تعلم الآلة وتطبيقات التعلم العميق. كما تملك اللغة أيضا الكثير من مكتبات الأكواد البرمجية، وهي مجموعات من المهام المكتوبة مُسبقا يمكنك دمجها بالكود الخاص بك بدلا من كتابة المهام بنفسك من البداية. يمكنك التعلم من هذا المساق الموجه للمبتدئين، من جامعة بيركلي، لتعرف أكثر عن لغة بايثون.
وإن كنت تبحث عن ترشيحات لتعلم أسهل لغات البرمجة فيمكنك قراءة تقريرنا السابق “أسهل لغات البرمجة للمبتدئين.. كيف تبدأ رحلتك في عالم البرمجة؟”.
________________________________________________
المصادر:
- THE FIVE STAGES OF THE DATA ANALYSIS PROCESS
- 10 Data Science Applications in Real Life
اكتشاف المزيد من ينبوع المعرفة
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.