عمر سليم
يعتبر علم البيانات) Data Science( أحد أكثر الفروع أهمية من الناحية التقنية لعدد كبير من الخدمات المقدمة عبر الإنترنت .التنقيب عن البيانات) Data Mining( يسهل الوصول إلى المعلومة. وظهر حديثاً مصطلح مهم وهو البيانات الضخمة Big Data
تعريف البيانات) Data( هي حقائق غير منظمة, أو بمعنى آخر هي أدنى مستوى من المعلومات والمعرفة، تؤُخذ من الملاحظات والتسجيلات المباشرة والأنشطة الاجتماعية. هذه البيانات أصبحت في السنوات الأخيرة ضخمة جداً لدرجة أنها يصعب الاستفادة منها وتحليلها بالطرق التقليدية للحصول على المعلومات والمعرفة منها.
يمكن أن تقُسم البيانات الخام إلى ثلاثة أنواع:
بيانات مهيكلة: وهي البيانات المنظمة في صورة جداول أو قواعد بيانات تمهيداً لمعالجتها.
بيانات غير مهيكلة: تشكل النسبة الأكبر من البيانات وهي البيانات التي يولدها الأشخاص يومياً من كتابات نصية وصور وفيديو ورسائل ونقرات و روابط LINKS على مواقع الانترنت الخ.
بيانات شبه مهيكلة: تعتبر نوعاً من البيانات المهيكلة إلا أنها لا تصُمم في جداول أو قواعد بيانات.
ما الفرق بين البيانات والمعلومات)Information( ؟؟
المعلومات هي البيانات التي خضعت للمعالجة والتحليل والتفسير والتي يمكن الاستفادة منها في استنباط العلاقات المختلفة بين الظواهر واتخاذ القرارات.
مثلاً بيانات الموظفين من اسم وتاريخ ميلاد وخلافه تعتبر بيانات.
أما استخراج مواليد شهر معين للاحتفال بعيد ميلادهم فهي معلومات.
البيانات الضخمة Big Data
عبارة عن مجموعة من مجموعات البيانات الضخمة جداً والمعقدة لدرجة أنه يصُبح من الصعب معالجتها باستخدام أداة واحدة فقط من أدوات إدارة قواعد البيانات أو باستخدام تطبيقات معالجة البيانات التقليدية. حيث تشمل التحديات ,الالتقاط، والمدة، والتخزين، والبحث ،والمشاركة، والنقل، والتحليل والتصور. ويرجع الاتجاه إلى مجموعات البيانات الضخمة بسبب المعلومات الإضافية المشتقة من تحليل مجموعة واحدة كبيرة من البيانات ذات الصلة، بالمقارنة مع المجموعات المنفصلة الأصغر حجماً مع نفس الحجم الإجمالي للبيانات، مما يسمح بوجود ارتباطات تكشف “الاتجاهات التجارية المحورية، وتحديد جودة البحث، وربط الاستشهادات القانونية ،ومكافحة الجريمة بتخمين الأماكن المتوقع حدوث جريمة فيها وتحديد ظروف حركة تدفق البيانات في الوقت الحقيقي.”
في تقرير بحثي وعدد من المحاضرات المتعلقة به عام 2001، قام “دوغ لاني” محلل مجموعة META Group )المعروفة الآن باسم Gartner( بتعريف تحديات نمو البيانات وفرصها كعنصر ثلاثي الأبعاد، طبقاً لزيادة الحجم )كمية البيانات( ،السرعة )سرعة البيانات الصادرة والواردة( والتنوع )تعدد أنواع البيانات ومصادرها( .
وتقوم Gartner والكثير من الشركات في هذه الصناعة الآن بالاستمرار في استخدام نموذج” 3Vs” لوصف البيانات الضخمة .في عام 2012، قامت Gartner بتحديث تعريفها ليصبح كالتالي: “البيانات الضخمة هي أصول معلومات كبيرة الحجم، عالية السرعة،أو عالية التنوع تتطلب أشكالاً جديدة من المعالجة لتعزيز عملية صنع القرار والفهم العميق وتحسين العملية.”
نموذج” 3Vs”
–volume الحجم: وهو عدد تيرابايت من البيانات التي نطلقها يومياً من المحتوى.
– variety التنوع: وهو تنوع هذه البيانات ما بين مهيكلة وغير مهيكلة ونصف مهيكلة.
–velocity السرعة: مدى سرعة تواتر حدوث البيانات، فمثلاً تختلف سرعة نشر التغريدات عن سرعة مسح أجهزة الاستشعار عن بعد لتغيرات المناخ.
نموذج” 3Vs”
بشكل مبسط هي كمية المعلومات الضخمة التي لا تستطيع قواعد البيانات مثل ال ACCESS OR SQL SERVER OR ORACLE مراجعتها , فقواعد البيانات لا يمكنها مثلاً معالجة التعاملات اليومية لمليار مستخدم للـ FACEBOOK يومياً أو البحث في exabyte )مليون terabyte ( صفحة على الانترنت .
البيانات الكبيرة عندما يصبح حجم البيانات جزء من المشكلة.
و هي مسألة نسبية متغيرة باستمرار فما هو ضخم حالياً لن يكون كذلك في المستقبل القريب و البيانات الغير ضخمة الآن كانت ضخمة من سنوات قليلة فمثلاً فكرة البيم كنظرية ترجع إلى الستينات لكن لم تتحول لواقع بسبب أن كمية المعلومات لمشروع صغير كانت أكبر من قدرة أجهزة الكمبيوتر وقتها.
أسباب ظهورها:
في الآونة الأخيرة ظهرت بعض الأمور التي ساعدت على هذا الانفجار وزيادة حجمها وتنوعها ومنها:
●هناك بعض المجالات فيها بيانات ضخمة جداً لتحليلها مثل الأرصاد الجوية )علم الطقس(، و علم الجينات )علم الجينوم( ،والمحاكاة الفيزيائية المعقدة والبحوث البيولوجية والبيئية.
●ظهور الشبكات الاجتماعية) Social Networking( التي ترسل كم ضخم من البيانات على مدار الساعة ومختلف الهيئات.
●انخفاض تكاليف تخزين هذه البيانات) storage spaces(.
●القوانين التي تحتم ضرورة بقاء هذه البيانات في قواعد البيانات)databases( لمتابعة المجرمين والمخربين والمتسللين.
●ظهور تقنيات إنترنت الأشياء) IoT( الذي يتيح لجميع الاجهزة التواصل مع بعضها والترابط بتقنيات الإنترنت وإنتاج بيانات جديدة فيكون الباب و الشباك و الحوائط و الثلاجة و كل ما في البيت متصل بالانترنت و متفاعل معه.
●%90 من البيانات التي كتبت عبر التاريخ , كتبت في عامي 2013 و2014.
●يستخدم لتوقع الجريمة من خلال تحليل البيانات للجرائم السابقة والحالية .
هل تعلم أن طائرة إيرباص A380 تنتج مليار سطر من الشيفرات البرمجية كل نصف ساعة ؟؟، أو لنقل 10 تيرابايت من البيانات، هذه البيانات تولدها المحركات والحساسات في الطائرة عن كل التفاصيل الدقيقة المصاحبة لرحلتها، و تذكر هذه مجرد نصف ساعة في رحلة واحدة فقط من طائرة واحدة فقط.
كانت البداية 2004 عندما قامت جوجل بتوزيع الداتا على آلاف الكمبيوترات الصغيرة )ما زالت أكبر من الكمبيوتر المنزلي( والرخيصة الثمن وتنسيقها بتقنية ال Bigtable . في عام 2005 نشرت جوجل تقنية البيغ تيبل هذه إلى الملأ وقامت )أباتشي( بإنشاء تلك التقنية تحت اسم Hadoop
هناك العديد من الأدوات والتقنيات التي تستخدم لتحليل البيانات الكبيرة مثل: Hadoop ,MapReduce , GridGain , HPCC , Storm , Cassandra .
أشهر التطبيقات هو HADOOP من شركة أباتشي , أنُشىء من قِبل دودج كاتينج Doug Cutting ومايك كافاريلا Mike Caffarella عام 2005 . وقد أسماه دوغ تيمناً بالفيل اللعبة الخاص بابنه. كما أن عملية التطوير كانت نابعة في الأساس لدعم توزيع مشروع محرك البحث Nutch. و هو مفتوح المصدر open-source framework يعمل على اللينكس مكتوب بلغة الجافا يسهل علينا تنظيم البيانات و التعامل معها , قامت أباتشي بفتحها للإستعمال العام مجاناً، ثم قامت جوجل نفسها بتبني خدمة
. Hadoop
أشهر مستخدمي الهادوب:
Amazon, Akamai, Apple, AVG, eBay, Electronic Arts, Facebook, Google
IBM, ImageShack, LinkedIn, Microsoft, The New York Times, Twitter, Yahoo
يوفر إطار Hadoop كلاً من الموثوقية وحركة البيانات للتطبيقات. ويقوم Hadoop بتنفيذ نموذج حسابي يدُعي MapReduce )الفكرة ببساطة أنه بدلاً من أن ترسل الأمر أو المهمة التي تريد إلى سيرفر واحد , فإنك ترسلها الى جميع السيرفرات في نفس اللحظة وكل سيرفر يقوم بإعطائك ما لديه من بيانات ثم يتم عمل تجميع هذه البيانات وإعادتها لك كحزمة واحدة( ، حيث تقُسم فيه التطبيقات إلى العديد من الأجزاء الصغيرة للعمل، كل واحدة منها قد تنُفذ أو يعُاد تنفيذها على أية عقدة موجودة في الكتلة. وبالإضافة لذلك، فإنه يوفر نظام ملفات موزع يقوم بتخزين البيانات على عقد الحساب، مما يوفر درجة عالية جداً لعرض معدل الحركة الكلي عبر الكتلة .
قبل هادوب Hadoop كان الخيار الوحيد أمام مهندسي الأنظمة لحل مشكلة تضخم البيانات أن يقوموا بعملية Scale up وتعني أن يقوموا بترقية السيرفر .. بزيادة الرامات وزيادة السعة التخزينية .. أو يقومون بنقل البيانات إلى سيرفر جديد أكثر كفاءة.
و هذا ما دفع أوراكل إلى إنتاج ال Database appliance وأسموه Exadata وهو مجموعة أجهزة في حاوية واحدة بقدرات كبيرة .. لكن بقيت البيانات مخزنة في سيرفر واحد.
وهو جهاز بسعر مرتفع قد يصل الى 500 الف دولار.
بعد ظهور Hadoop أصبح بالإمكان عمل Scale out وهو بدل أن يقوم بترقية السيرفر فإننا نقوم بإضافة سيرفرات جديدة بنفس مواصفات الأول أو مختلفة .
وعندها يمكننا أن نرى السعات التخزينية لجميع السيرفرات كأنها هاردسك واحد .. ) هادوب(
و يمكن أن نرى مجموع الذاكرات memories لجميع السيرفرات كأنها ذاكرة واحدة .. ) سبارك(
لكن التعامل مع هذه السعات الضخمة ليس كالتعامل مع ذاكرة الجهاز الواحد فيلزم استخدام أدوات خاصة من قبل المبرمجين حتى يمكن التعامل معها.
هادوب .. يقوم بمهمة توحيد الهاردسك فقط .. لكن سبارك و الذي يعتمد على نظام ملفات هادوب يقوم بعمل هادوب بالإضافة إلى توحيد الذواكر.
علاقتها بالبيم :
البيم اختصار نمذجة معلومات البناء , ماذا سيحدث إذا كانت كمية المعلومات أكبر بكثير من قدرة أي قاعدة بيانات على معالجتها.
في المشاريع الضخمة لمدينة كاملة تكون كمية البيانات رهيبة تأخذ وقت طويل من الكمبيوتر لتحليلها أو الازدحام في مدينة ضخمة كالقاهرة أو دمشق على سبيل المثال مراقبة سير المركبات و توجيه الإشارات و الطرق لتقليل الازدحام و الإحساس بأي توقف مفاجئ و دراسة بيانات سيولة المرور يساعد في تصميم طرق أفضل في المدن المستقبلية
أو إدارة و تحليل ومحاكاة استهلاك الطاقة و التكييف والمياه أثناء تشغيل المبنى بصورة مستمرة .
أو إدارة قرية سياحية بحيث يصلك إشعار بأي خطأ لحظياً أو مشاريع البنية التحتية .
أو البيانات الضخمة من عمل مسح بال laser scan لمنطقة ضخمة .
من ضمن الفوائد العملية للبيانات الضخمة ما حدث في الصين من اكتشاف خمسين من مدن أشباح و يقصد بها مدن ومباني خالية تماماً نظراً لأنها بنيت دون دراسة فموقعها بعيد وغير مناسب , في الدراسة استخدموا خوارزمية التجميع المشترك لحساب مواقع المنازل، ومن ثم ربطوا هذه المواقع بمجموعة أخرى من البيانات عن المناطق السكنية المعروفة بهدف التوصل إلى أماكن السكن ،وبعدها حسبوا الكثافة الحضرية بعدد الأشخاص الذين يعيشون في مساحة مائة متر مربع. هذه البيانات ستفيد الحكومة في اتخاذ قرارات أفضل.
كما يمكن تحليل الأنشطة الممارسة في الوقت الذي يقضيه المسافرين في انتظار موعد الطائرة لعمل تصميم أفضل للصالة مثل تخصيص مكان للأطفال .
فإدارة و تشغيل و الاستفادة من البيانات لمدينة ذكية يتطلب منك التعامل اللحظي مع كمية ضخمة من البيانات لا تستطيع قواعد البيانات العادية التعامل معها .
يقول the exhibition director Rem Koolhaas, Hon. FAIA :”توشك كل العناصر المعمارية أن يعلن تأييده للتكنولوجيا التي تعتمد على البيانات ” و هذا سيضخم كمية البيانات التي علينا معالجتها .
COBie )Construction-Operations Building Information وحالياً هناك دول مثل بريطانيا تجعل تقديم ملفات
.إجبارياً )Exchange
ومن المستهدف كما قال الرئيس أوباما أن يكون تصميم كل المباني على جهاز محمول باليد في يد رجل الاطفاء.
هناك أيضاً منظمات تحتاج المعلومات الفعلية لإعطاء شهادات مثل شهادة البناء المستدام LEED من المجلس الأمريكي للأبنية الخضراء.
Building Information Model Extended Markup Lan- هناك امتدادات للتعامل مع البيانات الضخمة في البيم مثل
)guage )BIMXML
حيث يشمل معلومات النموذج و الموقع و المعدات……
تحذير : لا تستخدم البيانات الضخمة إلا مضطراً و عندما تعرف أن البيانات لديك ستصل إلى حد لا تستطيع قواعد البيانات القيام به .
تحذير آخر البيانات الضخمة قد تجمع بانتهاكات للحياة الشخصية و قد يساء استخدامها .
المراجع
/https://bigdatauniversity.com Intel, Big Data 101: How big Data makes Big Impact