على الرغم من كونها واحدة من أحدث اتجاهات التكنولوجيا ومحط اهتمام كبير في عالم الأعمال، إلا أن البيانات الضخمة ليست حداثة حقيقية. لقد كانت موجودة دائمًا - ولكن الاختلاف الأكبر اليوم هو أن هذا المخزن الهائل من المعلومات المفيدة والرؤى القابلة للتنفيذ أصبح الآن متاحًا أخيرًا. أدت أحدث أساليب تحليل البيانات والتطورات في الحوسبة السحابية إلى خفض عتبة البيانات الضخمة التي يمكن للشركات استخدامها لدفع مصالحها إلى الأمام. ومن خلال "اختراق الخزنة"، مكنت التكنولوجيا من إحداث ثورة حقيقية في مجال الأعمال.
سراب حقيقي للمحللين الذين حاولوا الوصول إلى عدد لا يحصى من الأفكار الفريدة التي قد توفرها، تطورت مجموعة البيانات المتزايدة باستمرار الناتجة عن قواعد البيانات والمحفوظات والمصادر الداخلية إلى محيط مع إدخال الإنترنت ووسائل التواصل الاجتماعي. واليوم، يتم إنتاج كمية هائلة من البيانات عالية السرعة كل يوم، مما يفتح عالمًا من الإمكانيات وفرص العمل للشركات التي تستغلها لتحقيق ميزة تنافسية. ومع توقع أن تصل الإيرادات السنوية إلى 42 مليار دولار في عام 2018 وحجم متراكم يصل إلى 44 زيتابايت بحلول عام 2020، فإن البيانات الضخمة هي مستقبل التجارة.
إن الإمكانات الحقيقية للبيانات الضخمة تتجاوز مجرد حجم البيانات نفسها. وتكمن قيمته الهائلة في فرصة تحليل مجموعات البيانات الضخمة هذه لتمكين كل جانب من جوانب الأعمال تقريبًا، بدءًا من العمليات وحتى سلوك العملاء والإعلان وإجراءات سير العمل وإدارة سلسلة التوريد وما إلى ذلك. توفر البيانات الضخمة فهمًا أوضح للصورة العامة، وهي موثوقة إحصائيًا، وهي أداة لا يمكن الاستغناء عنها لتحليل الأداء السابق وتحسين العمليات الحالية وتحديد الأهداف المستقبلية.
تعريف البيانات الضخمة: ما هي وما هي خصائصها
يتم تعريف البيانات الضخمة بحجمها الهائل وتنوعها وسرعتها. وبالتالي، فإن العناصر الثلاثة التي تحدد البيانات على أنها "بيانات ضخمة" هي الحجم الكبير والسرعة العالية والتنوع العالي (ما يسمى بـ "العناصر الثلاثة" ). تمت أيضًا إضافة مجموعة فرعية أخرى من "V's" في شكل الصدق والصلاحية والتقلب لتحديد جودة البيانات ووضعها في سياقها.
مقدار
الحجم مرتفع لأنه كبير جدًا لدرجة أن التخزين المتخصص والمعالجة المتوازية ضروريان لتخزين البيانات الضخمة. ومن ثم فإن جهاز كمبيوتر واحد (المعروف باسم "العقدة") لا يكفي أبدا، وتتراوح أعداده عادة من 10 إلى 100. وتشمل البيانات الضخمة كل المعلومات من آلة إلى آلة وسجلات السجلات التي تصف بعض الأحداث مثل المعاملات التجارية، التعليقات على الشبكات الاجتماعية، والمشاركات والمواضيع في المنتدى، والنقرات ومرات الظهور على صفحة الويب، وما إلى ذلك. لا تتغير هذه الأحداث كما يحدث مع البيانات التقليدية (فكر في مخزون المتجر، على سبيل المثال)، ولكن حجمها كبير جدًا. التعريف، ضخمة.
سرعة
كما أن السرعة عالية حقًا لأن البيانات الضخمة محببة للغاية، حيث يتم إنتاجها في الوقت الفعلي بواسطة الأجهزة والبرامج المتصلة بشبكة الإنترنت العالمية، مثل أنظمة المعاملات واسعة النطاق وإنترنت الأشياء وأجهزة الاستشعار. تدفق البيانات لا يمكن وقفه، هائل ومستمر. يجب أن يتم تحليل البيانات الضخمة واستهلاكها من قبل المؤسسات في الوقت الفعلي تقريبًا لزيادة كفاءتها واتخاذ القرارات على الفور.
متنوع
يشير آخر حرف V "الأساسي" الثلاثة - التنوع - إلى نوع وطبيعة البيانات الضخمة شديدة التنوع. تأتي معظم البيانات الضخمة الآن من مصادر غير منظمة وغالبًا ما تُستخدم لإكمال الأجزاء المفقودة من خلال دمج البيانات . ولذلك، يجب على الخبراء والمحللين التعامل مع أشكال مختلفة من البيانات الواردة من مصادر مختلفة (المستندات والصور ومقاطع الفيديو وما إلى ذلك)، عادةً باستخدام شكل من أشكال النظام الآلي.
الصدق والصلاحية
يتطلب التحليل الدقيق بيانات عالية الجودة، ولكن جودة البيانات الملتقطة تختلف عادة بشكل كبير. قد تؤثر الضوضاء والتحيزات والتناقضات والتشوهات سلبًا على جودة البيانات، بالإضافة إلى أي شكل آخر من أشكال البيانات "القذرة" غير ذات الصلة التي يتم جمعها أو تخزينها والتي يجب بالتالي تصفيتها. تحدد الصدق مدى مصداقية البيانات نفسها وكذلك مصدرها ونوعها وطريقة معالجتها، بينما تعني الصحة مدى صحة هذه البيانات ودقتها للاستخدام المقصود.
التقلب
يشير التقلب إلى المدة التي تظل فيها البيانات صالحة. اعتمادًا على معدل التغير، يحدد التقلب المدة التي يجب تخزين البيانات فيها وعمرها الإجمالي. على سبيل المثال، تعد البيانات الواردة من وسائل التواصل الاجتماعي شديدة التقلب نظرًا لأن الموضوعات والآراء الشائعة تتغير في غمضة عين وسرعان ما تصبح غير ذات صلة بتحليل معين. كلما كانت مجموعة فرعية من المعلومات قابلة للتنبؤ بها وغير قابلة للتغيير، أو على الأقل متكررة (مثل اتجاهات الطقس، على سبيل المثال)، كانت البيانات أقل تقلبًا.
ما هي مزايا البيانات الضخمة مقارنة بالبيانات التقليدية؟
على الرغم من أن قواعد البيانات التقليدية يمكنها تخزين كميات صغيرة فقط من البيانات (عادةً بضعة تيرابايت)، فإن ما يحدد البيانات الضخمة حقًا ويميزها عن البيانات التقليدية ليس حجمها فقط. يتم تعريف البيانات الضخمة من خلال استخداماتها المختلفة بالإضافة إلى المزايا التي تتميز بها عن البيانات التقليدية والأهداف المحققة والاستراتيجيات المستخدمة عند التعامل معها. دعونا نلقي نظرة على بعض الأسباب التي تجعل العديد من الشركات تختار الآن البيانات الضخمة بدلاً من البيانات التقليدية لزيادة إنتاجيتها.
بنية بيانات أكثر كفاءة وبأسعار معقولة
تم تخزين البيانات التقليدية على محركات الأقراص التقليدية غير الفعالة وهياكل قواعد البيانات المركزية المكلفة حيث يجب على نظام كمبيوتر واحد أن يحل جميع المشكلات. تحل البيانات الضخمة هذه المشكلة من خلال استخدام بنيات قواعد البيانات الموزعة وأنظمة التخزين القابلة للتطوير والمحددة بالبرمجيات. تم تحسين الكفاءة بشكل كبير حيث يتم تقسيم كتل كبيرة من البيانات إلى أحجام أصغر يتم استخلاصها وحسابها بواسطة العديد من العقد المختلفة في الشبكة. تسمح قاعدة البيانات الموزعة بنقل البيانات بسرعة أكبر (وبموارد أقل) من وحدة تخزين إلى أخرى دون فقدان الأداء. كما أن المعالجات الدقيقة في أنظمة قواعد البيانات الموزعة أرخص ويمكن أن تصل إلى قوة حسابية فائقة مقارنة بالحاسب المركزي المركزي التقليدي .
كسر قبو البيانات غير المنظمة
تستخدم أنظمة قواعد البيانات التقليدية البيانات المنظمة فقط ، وكان محللو البيانات قادرين فقط على استخراج معلومات مفيدة من هذا النوع من البيانات الواضحة والقابلة للبحث بدرجة كبيرة. ومع ذلك، فإن البيانات المنظمة لا تمثل سوى قمة جبل الجليد ، لأنها تقتصر على المعلومات عالية التنظيم والتي يمكن تخزينها بسهولة في أنظمة قواعد البيانات العلائقية (RDBs) وجداول البيانات. توفر قواعد البيانات المنظمة رؤى فقط على مستوى منخفض جدًا نظرًا لأن جميع المعلومات محددة بدقة من حيث نوع الحقل واسمه. من ناحية أخرى، تستفيد البيانات الضخمة بشكل كامل من البيانات شبه المنظمة وغير المنظمة ، والتي تمثل نسبة هائلة تصل إلى 80 بالمائة من جميع البيانات المتاحة . تزيد البيانات الضخمة من تنوع البيانات التي يمكن جمعها وتحليلها عن طريق إضافة مقاطع الفيديو والصور وسجلات الويب والفحوصات الطبية وقواعد بيانات NoSQL (على سبيل المثال لا الحصر) إلى المعركة. يمكن استخدام البيانات الوصفية لربط البيانات المنظمة وغير المنظمة معًا وتحويلها إلى معلومات قابلة للاستهلاك.
قابلية التوسع والمرونة
البيانات الضخمة مرنة وقابلة للتطوير. يمكن لمنصات مثل Hadoop و Spark تحليل كميات هائلة من البيانات دون أي تدهور في الأداء على أي مستوى، في حين يلزم دمج استعلامات SQL التقليدية في أطر تحليلية أكبر وأكثر تكلفة. تتزايد البيانات الضخمة مع استخدام الأساليب الموزعة للحوسبة مع أكثر من خادم واحد، والذي يمكن ترقيته بسهولة أو زيادة عدده. وبدلاً من ذلك، تعتمد قواعد البيانات التقليدية على القوة الحسابية لخادم واحد. تعد المرونة أيضًا نقطة قوية نظرًا لأن مجموعات البيانات لم تعد بحاجة إلى هياكل بيانات متسقة. يمكن تحويل البيانات بسرعة، مما يسمح للتحليلات بالتعامل مع أي نوع من البيانات، حتى تلك المختلفة جدًا في نفس الوقت.
جودة ودقة أعلى للبيانات
لا تستطيع أنظمة قواعد البيانات التقليدية تخزين جميع البيانات، وبالتالي يتم تقليل الكمية الفعلية للبيانات التي يمكن تحليلها. ويترجم انخفاض البيانات المتاحة إلى نتائج أقل دقة، وبالتالي جودة أقل. توفر البيانات الضخمة رؤى في الوقت الفعلي، وبما أنه يمكن تخزين كمية ضخمة من البيانات بسهولة إلى حد ما، فقد تم تحسين جودة النتائج ودقتها بشكل كبير.
مصادر البيانات الضخمة
ما هي المصادر الرئيسية للبيانات الضخمة ؟ هناك العديد من الأماكن التي يجب على الشركة أن تتطلع منها لاستخراج البيانات الضخمة مثل الويب ووسائل التواصل الاجتماعي وقواعد البيانات وبيانات الخدمة الذاتية وتطبيقات الأعمال والمزيد. مصادر البيانات وفيرة ، ولكن أولاً، دعونا نلخص الأنواع الرئيسية للبيانات المتوفرة.
البيانات المنظمة هي معلومات منظمة موجودة في حقول ثابتة داخل سجل أو قاعدة بيانات أو ملف. تشمل الأمثلة أرقام الهواتف والرموز البريدية والمعلومات السكانية للمستخدم مثل الجنس أو العمر.
البيانات غير المنظمة هي معلومات خام وغير منظمة ليس لها بنية يمكن التعرف عليها. وقد تحتوي على نص مع أرقام أو حقائق أو تواريخ بدون بنية داخلية يمكن تحديدها. تشمل الأمثلة رسائل البريد الإلكتروني ومنشورات وسائل التواصل الاجتماعي وتفاعلات خدمة العملاء ومحتوى الوسائط المتعددة.
البيانات الداخلية هي (عادةً غير منظمة) بيانات يتم أرشفتها خلف جدران الحماية الخاصة بالمؤسسة .
وبدلاً من ذلك، فإن البيانات الخارجية هي كافة البيانات التي لا تملكها مؤسسة والتي يتم جمعها بواسطة مصادر خارجية.
البيانات المفتوحة هي البيانات التي يتم الحصول عليها مجانًا من مستودع مفتوح المصدر ، عادةً من شبكة الإنترنت العالمية. بعض الأمثلة هي المستندات ومقاطع الفيديو والصور التي تم الحصول عليها من مصادر حكومية بالإضافة إلى المنظمات غير الحكومية وغير الربحية مثل DBpedia وWikipedia وDMOZ وGoogle وغيرها من المشاريع.
هناك العديد من مصادر البيانات الضخمة. فيما يلي بعض أهمها:
إنترنت الأشياء (IoT)
البيانات الواردة من أجهزة إنترنت الأشياء (IoT) هي، في معظمها، بيانات تم إنشاؤها آليًا ويتم الحصول عليها من أجهزة الاستشعار المتصلة بها. يمكن لأي جهاز يمكنه بث البيانات - من كاميرات الويب إلى الهواتف الذكية وأجهزة الكمبيوتر والروبوتات الموجودة على خط التصنيع وأنظمة النقل - أن يوفر معلومات في الوقت الفعلي والتي يمكن جمعها واستخراجها لاحقًا. تختلف الجودة اعتمادًا على دقة المستشعر أو قدرة المشغل أثناء المعالجة اليدوية.
اقرا ايضا:الغوص في التطوير: دورة حياة تطوير البرمجيات من هنا
بيانات الخدمة الذاتية
تتضمن بيانات الخدمة الذاتية جميع العمليات اليومية التي يقوم بها الأشخاص العاديون، بدءًا من تسجيل الوصول في المطارات وحتى المعاملات النقدية في أجهزة الصراف الآلي أو دفع رسوم الطرق السريعة. إنه منجم ضخم من البيانات الضخمة الداخلية والخارجية في بعض الأحيان والتي تكون جودتها عالية في كثير من الأحيان لأنها عادة ما تكون غير متحيزة. يتم عادةً تخزين هذه البيانات في السحابة التي تستوعب البيانات المنظمة وغير المنظمة التي يستخدمها المحللون لاحقًا للحصول على معلومات ورؤى في الوقت الفعلي وتحسين ذكاء الأعمال .
قواعد بيانات الأعمال
يمكن تسجيل البيانات الناتجة نتيجة للأنشطة التجارية في مزيج من قواعد البيانات التقليدية والحديثة المتكاملة. تستخدم تطبيقات الأعمال واجهات برمجة التطبيقات لإنتاج بيانات داخلية منظمة يمكن دمجها مع إدارة علاقات العملاء (CRM) وقواعد البيانات التقليدية المنظمة أو غير المنظمة أو المختلطة. عادة ما يكون الحجم مرتفعًا جدًا ، ويمكن أن تكون السرعة أيضًا سريعة جدًا، خاصة بالنسبة للمؤسسات الأكبر حجمًا (فكر في سلسلة مطاعم الوجبات السريعة العالمية التي تسجل ملايين المبيعات في كل ثانية). عادة ما تكون المعاملات التجارية هي القلب النابض لذكاء الأعمال.
الإنترنت
تعد شبكة الويب العامة مصدرًا خارجيًا للبيانات المفتوحة التي يسهل الوصول إليها. وهو مفيد بشكل خاص لتلك الشركات التي تتأثر بالعناصر المتقلبة التي لا تعتمد على عوامل داخلية، مثل قيم العملات في البورصات أو أحجام البحث عن الكلمات الرئيسية في مؤشرات Google. تعد بيانات الويب ضخمة جدًا، ولكنها قابلة للاستخدام للغاية من قبل أي شركة ليس لديها وسيلة لتطوير البنية التحتية للبيانات الضخمة الخاصة بها، مثل الشركات الناشئة أو الشركات الصغيرة. ويتضمن رؤى عامة مثل تلك التي توفرها ويكيبيديا، وقواعد البيانات مفتوحة المصدر، وجميع البيانات التي يمكن استخلاصها من وسائل التواصل الاجتماعي مثل Facebook أو Instagram أو Twitter. ومع ذلك، فإن جودتها لا يمكن الاعتماد عليها دائمًا، حيث أن قياس الجوانب النوعية أصعب بكثير من قياس الجوانب الكمية.
كيف يتم جمع البيانات الضخمة الخام وتحليلها؟
بمجرد جمع البيانات الأولية ، يجب تخزينها وتجميعها ومعالجتها ومن ثم تحليلها في النهاية. يتم تخزين البيانات الضخمة الأولية ومن ثم معالجتها على أطر برمجية متخصصة في التعامل مع مزيجها الفريد من البيانات المنظمة وغير المنظمة ، والتي تمثل الأساس لتحليلات البيانات الضخمة . Hadoop و SAP HANA وGoogle F1 وFacebook Presto و Cassandra و MongoDB و CouchDB وNeo4j هي الأكثر استخدامًا. تستخدم الشركات أيًا من هذه الحلول لتحقيق مهام مختلفة، أو، بشكل أكثر شيوعًا، دمج اثنين أو أكثر منها لأغراض مختلفة. دعونا نلقي نظرة على أهم اثنتين منها – Hadoop وSAP HANA ، والواجهة الأكثر شهرة لدمجهما – SAP HANA Vora.
أباتشي هادوب
إطار عمل برمجي تم تصميمه خصيصًا للتعامل مع البيانات الضخمة، ويتم استخدام Hadoop لتخزين كميات هائلة من البيانات غير المنظمة ومن ثم استيعابها بفضل قدرات المعالجة المتوازية الفائقة . يتم تخزين مجموعات البيانات الكبيرة في بحيرة بيانات نظام الملفات الموزعة Hadoop (HDFS) ، ثم تتم معالجتها باستخدام نموذج برمجة MapReduce المتوازي الفعال للغاية والمتكرر . Hadoop هو نظام موثوق ومتين ومتسامح للغاية مع فشل الأجهزة والبرامج. نظرًا لأنه مفتوح المصدر ويمكنه استخدام أي نوع من محركات الأقراص، فهو أيضًا رخيص جدًا. ومع ذلك، فهو غير مناسب لاستخراج المعلومات في الوقت الفعلي ولم يتم تحسينه لقراءة الملفات الصغيرة نظرًا لأن حجم الكتلة لـ HDFS يتراوح عادةً بين 64 و128 ميجابايت.
SAP HANA
SAP HANA هو نظام إدارة قواعد بيانات علائقية للمعالجة المتوازية على نطاق واسع (MPP) معروف بتقاريره التحليلية السريعة والموثوقة. من خلال الاعتماد على تخزين البيانات في الذاكرة والموجهة نحو الأعمدة، فإنه يسمح للمرء بتخزين البيانات الضخمة ومعالجتها واسترجاعها بشكل أسرع بكثير من Hadoop، مما يسمح بتحليلات البيانات الضخمة في الوقت الفعلي . على الرغم من كفاءتها العالية وقابليتها للتطوير، إلا أن HANA باهظة الثمن أيضًا، خاصة وأن لديها مواصفات صارمة للأجهزة قد تكلف ما يصل إلى مليون دولار، حتى قبل أخذ البرامج في الاعتبار. ولمنع تكلفتها من التضخم بشكل كبير، تختار العديد من الشركات تخزين أكبر (أو أقدم) مجموعات البيانات على Hadoop واستخدام HANA لمعالجة البيانات الأحدث بسرعة.
SAP HANA Vora
SAP HANA Vora هو برنامج يدمج أفضل ما في العالمين. وهو وسيط بين الواجهتين، فهو يستمد من مجموعات البيانات الكبيرة غير المنظمة في Hadoop لبناء تسلسلات هرمية للبيانات المنظمة بعد دمجها مع البيانات من HANA، ثم يستخدم Apache Spark SQL لتمكين تحليل الذاكرة على نمط OLAP . فهو يسمح بمعالجة كل من البيانات المنظمة "الساخنة" الموجودة في قواعد البيانات والبيانات الضخمة "الباردة" غير المنظمة الموجودة في Hadoop في الوقت الفعلي.
كيف يمكن استهلاك البيانات الضخمة؟
ما هي استخدامات البيانات الضخمة ؟ تستهلك الصناعات المختلفة البيانات الضخمة لتحقيق الربح، وتعزيز ذكاء أعمالها ، وتحسين كفاءة عملياتها، والتحقق من اتجاهات المستهلكين وإجراء التنبؤات. بدأت بعض القطاعات مثل المؤسسات المالية والحكومة والقطاع العام في وقت مبكر عن غيرها، وقد بدأت بالفعل في استخدام تحليلات البيانات الضخمة لسنوات عديدة.
التحليلات التجارية والصناعية
يمكن للمصنعين والشركات استهلاك البيانات الضخمة لإجراء المزيد من الصيانة الاستباقية، وتقليل فترات التوقف عن العمل ، ومراقبة أداء موظفيهم، وتحسين كفاءة خط التصنيع وتحديد خطوط الإنتاج الأفضل أداءً. عادةً ما يتم جمع معظم هذه البيانات بواسطة أجهزة الاستشعار، ولكن الشيء المثير للاهتمام هو أنه يمكن أيضًا إنشاؤها خارج بيئة المؤسسة الأساسية وتخزينها في السحابة . على سبيل المثال، قد تقوم الشركة المصنعة للسيارة بتثبيت أجهزة استشعار في خط الإنتاج تتعرف على درجة حرارة ما قبل الفشل أو أنماط التحميل لإرسال فرق الصيانة قبل حدوث الكسر. أو قد يجمع البيانات التي ترسلها أجهزة استشعار السيارة الذكية بعد بيع السيارة، من أجل الحصول على نظرة عامة أفضل على خط إنتاج معين بمجرد وصوله إلى الطريق.
تغذية الذكاء الاصطناعي
أصبحت البيانات الضخمة أيضًا جزءًا أساسيًا في تطور الذكاء الاصطناعي . على الرغم من أن البيانات الضخمة لا تزال "حوسبة على الطراز القديم" بطريقة ما، نظرًا لأن الأمر كله يتعلق بجمع البيانات بدلاً من التصرف بناءً على نتائجها والرد عليها، فإن مستقبل الذكاء الاصطناعي متشابك تمامًا مع أخيه الأكبر . في الواقع، يحتاج الذكاء الاصطناعي إلى تغذية خوارزمياته بالبيانات للسماح لقدرات التعلم الآلي لديه بالتفاعل وتصبح أكثر ذكاءً. ومع ذلك، تتم معالجة البيانات الضخمة المستخدمة لتدريب الذكاء الاصطناعي بشكل كبير، حيث يجب تنظيفها وتنقيتها من جميع المعلومات غير الضرورية أو المكررة. ومن خلال القيام بذلك فقط تصبح الآلات قادرة على تحديد الأنماط المفيدة بشكل موثوق.
علاقات العملاء والتواصل
يمكن استخدام البيانات الضخمة لزيادة اكتساب العملاء وتحسين الخدمات المقدمة لهم من خلال النظر إلى الأمور من وجهة نظرهم. من خلال جمع البيانات حول التركيبة السكانية لعملائها ومعاملاتهم وتفضيلاتهم وسلوكياتهم من وسائل التواصل الاجتماعي والرسائل النصية ورسائل البريد الإلكتروني، يمكن للشركات فهم احتياجات عملائها بشكل أفضل والحصول على نظرة عامة أوسع حول المكان الذي يجب أن تتركز فيه جهودها التسويقية.
الكشف المبكر عن الاحتيال
يمكن للمؤسسات المالية والبنوك استخدام البيانات الداخلية والخارجية في الوقت الفعلي للكشف عن السلوكيات غير العادية أو المشبوهة، ومنع الأنشطة الاحتيالية قبل حدوثها. على سبيل المثال، إذا تم الوصول إلى الخدمة من بلد بعيد (على سبيل المثال، الصين أو جنوب أفريقيا عندما يقيم العميل عادة في الولايات المتحدة)، فمن الممكن رفض المعاملة، أو حظر بطاقة الائتمان حتى يتم إرسال التأكيد من جهاز موثوق به. قد يتم أيضًا تنبيه السلطات العامة للتحقق من هوية المستخدم هذه، واتخاذ إجراءات فورية إذا لزم الأمر.
قضايا البيانات الضخمة والخصوصية
تعد مشكلات الخصوصية والأمان موضوعًا ساخنًا لأي شركة ترغب في التعامل مع البيانات الضخمة . يمكن أن يؤدي التعرض وانتهاكات البيانات إلى أي شيء بدءًا من الإحراج وحتى الدعاوى القضائية، خاصة بعد كل فضائح وسائل التواصل الاجتماعي (مرة أخرى، تحقق من فضائح Cambridge Analytica وFacebook ). إليك بعض النصائح لتفادي مخاطر الخصوصية التي يمكن تجنبها عند التعامل مع البيانات الضخمة.
أهمية الشفافية
إذا كانت الشركة تقوم بجمع البيانات من مجموعة من الأشخاص، فمن المهم أن تكون صريحًا معهم. ويجب توفير الشفافية الكاملة في جميع الأوقات للإفصاح عن سبب دراستها ومن أين يتم استخلاص المعلومات وطرق التحليل المستخدمة.
تجنب التمييز
لا ينبغي أبدًا استخدام البيانات التي يتم جمعها لأغراض التحليل التنبؤي لاتخاذ قرارات بشأن قدرات مجموعة أو جنس أو أقلية معينة. إن القرارات المتخذة باستخدام هذه التقنيات، وخاصة عندما يتعلق الأمر بالأتمتة ، لا ينبغي أن يكون لها تأثير سلبي على الأفراد أو تؤدي إلى التحيز. وبخلاف ذلك، قد تتأثر حرية تكوين الجمعيات بالأشخاص الذين يرغبون في تجنب التصنيفات غير الضرورية.
يجب أن يأتي الأمن أولاً
يجب على الشركة التأكد من اتخاذ أفضل التدابير الأمنية في جميع الأوقات من أجل الحفاظ على سرية هوية جميع الأشخاص المشاركين في البحث. ويجب ضمان عدم الكشف عن الهوية قبل جمع البيانات، وليس لاحقًا، لذلك حتى في حالة حدوث انتهاك، فإن الخصوصية على الأقل تكون محمية.
خاتمة
إن كمية البيانات الضخمة هائلة بالفعل، ولكن من المتوقع أن تنمو بشكل كبير مع دخول التقنيات الجديدة مثل أجهزة إنترنت الأشياء الأكثر انتشارًا والطائرات بدون طيار والأجهزة القابلة للارتداء إلى المعركة. تم إنشاء تسعين بالمائة من البيانات الضخمة في العالم اليوم في العامين الماضيين، وتلعب التطورات الأخيرة في التعلم العميق دورًا رئيسيًا في مساعدة الشركات على فك تشفير منجم الذهب الثمين من المعلومات. أصبحت حلول البيانات الضخمة وتحليلات الأعمال الآن تقنية سائدة، وهي تمثل، جنبًا إلى جنب مع الذكاء الاصطناعي والأتمتة ، الأساس الذي تقوم عليه عملية التحول الرقمي .
مرحبا بكم في جريدة وموقع كلام فور يو