چالش بزرگ‌داده‌ها متخصص است، نه فناوری‌

هرکسی که مباحث بزرگ‌داده‌ها را دنبال می‌کند، می‌داند که هر استراتژی بزرگ‌داده‌ها شامل دو مولفه: فناوری و افراد است. حل مسائل قسمت فناوری در برابر مشکلات مولفه افراد بسیار ساده است. تا زمانی که شما به دنبال حل مسائل بزرگ‌داده‌ها با استفاده از فنآوری پایگاه‌داده‌های رابطه‌ای سال ۲۰۰۴ نباشید، حل این قسمت از معادله نباید جانور ترسناکی باشد.
اولین کاری که باید انجام دهید، تمامی داده‌های ساخت‌یافته و ساخت‌نایافته‌ای است که می‌توانید جمع‌آوری کنید. حتی اگر نمی‌دانید چه چیز‌هایی بدردبخور خواهند بود.
چرا؟ به این خاطر که شرکت‌های بزرگی بسیار درگیر آماده کردن نقشه بزرگ داده‌ای که در شش ماه می‌توانند جمع کنند، شده‌اند در حالی که تمام داده‌ای که در این مدت می‌توانستند جمع کنند از دست رفته. اگر ضبط کردن همه این داده‌ها راهی ناپسند باشد، با این حال من توصیه می‌کنم هرچیزی را امکان دارد ضبط کنید.
زمانی که داده‌ها را در دست داشتید، باید کشف کنید که چه کاری می‌خواهید با آن‌ها انجام دهید و چگونه می‌خواهید از آن‌ها گزارش بگیرید. این کار‌ها نیاز به تصمیمات فنی در مورد نوع ذخیره‌ساز‌ی که قرار است استفاده کنید و نوع سکو‌های داده ،دارد. آیا قصد دارید داده‌ها را ضبط کنید و با استفاده از پایگاه‌داده‌ها Cassandra با آن‌ها سروکله بزنید؟ آیا قرار است با Hadoop این کار را انجام دهید؟ آیا قرار است با ذخیره‌ساز داده NoSQL‌ای مانند Riak با آن‌ها کار کنید؟

قلب (و هنر) علم داده‌ها

تمام این تصمیم‌گیری‌ها توسط مولفه دوم که افراد است اتخاذ می‌شود. این مساله بزرگ‌ترین چالشی است که من در دنیای بزرگ داده دیده‌ام. اغلب این چالش‌ها تبدیل به تعداد کمی سوال ناراحت کننده می‌شوند. چه کسی دانشمند داده در شرکت شماست؟ یا حتی این که در شرکت شما اصلا چنین فردی وجود دارد؟ تنها به خاطر این که شما فردی را می‌پسندید و می‌توانید او را جذب کنید و به او بگویید «هــــی، تو الان دانشمند داده هستی. اینجا ۱۵ پتابایت داده وجود دارد. از اون‌ها حقایقی رو بدست بیار»
علم داده‌ها کاملا یک هنر است. حقیقتا باید آن را هنر داده نامید تا علم داده‌ها. به چه چیزی نیاز داردی تا دانشمند داده شوید؟ تقریبا بدیهی است که برخی مهارت‌های شگفت‌انگیز تحلیل ریاضی به همراه پیش‌زمینه‌ای در علوم کامپیوتر به شکلی که بتوانید دستوراتی را به زبان R بنویسید ضروری هستند. علاوه بر این‌ها باید محققی با یک حس درونی از کنجکاوی نیز باشید.

شما نمی‌توانید با استخدام یک مهندس و گفتن این که «هــــی، برو یسری دستور بنویس» دانشمند داده خلق کنید. بیشتر مهندسین ترجیح می‌دهند که این جمله را از شما بشنوند: «نیازمندی‌هایی این‌جا وجود دارد، بجنگشون برو» و این همیشه حس کنجکاوی را القا نمی‌کند.

بنابراین بزرگ‌ترین شکاف در علم داده‌ها برای من، دانشمند داده‌ها است. چه کسی در سازمان شما قرار است کاری با تمام این داده‌ها انجام دهد؟ آیا آن‌ها مهارت یافته‌اند تا قادر به یافتن حقایق داده‌ها باشند و قطعاتش را پیدا کنند؟

این سوالات باعث پیدایش سایر چالش‌های نشات گرفته از مولفه افراد می‌شود که شما باید در آغاز بزرگ داده‌ها با آن روبرو شوید تا بتوانید ادامه بدهید. از جمله این که:

  • آیا بزرگ داده‌ها شما در یک سازمان متمرکز شده یا در واحد‌های کسب‌وکار به صورت غیر متمرکز قرار گرفته است؟
  • اگر غیر متمرکز است، چه طور مطمئن می‌شوید که ۱۴ گروه در حال یافتن یک چیز یکسان از آن‌ها نیستند؟
  • چه کسی بودجه طر‌ح‌های بزرگ داده‌ها را می‌دهد؟
  • شما چه طور موفقیت را اندازه‌گیری می‌کنید؟

از عواقب تلاش برای پاسخ‌گویی به این سوالات این است که چرا بیشتر سازمان‌ها واقعا مشکل بزرگ داده‌ها را حل نکرده‌اند؟ به عنوان حرفه‌ای‌های فناوری اطلاعات، ما می‌توانیم تمام زیربنا، فنآوری و سکو‌های داده را در جهان آماده کنیم. اما اگر افراد درستی برای این ابزار‌ها نداشته باشیم، به هیچ جا نخواهیم رسید.

Shortlink:

2 دیدگاه در “چالش بزرگ‌داده‌ها متخصص است، نه فناوری‌

    • سلام

      ممنون، شما لطف دارید. من فکر می‌کنم باید زبان فارسی با افزودن کلمات بزرگ‌تر بشه، شاید این معادل خوبی نبوده باشه اما بهتره به ایجاد واژه کمک کرد.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *