هرکسی که مباحث بزرگدادهها را دنبال میکند، میداند که هر استراتژی بزرگدادهها شامل دو مولفه: فناوری و افراد است. حل مسائل قسمت فناوری در برابر مشکلات مولفه افراد بسیار ساده است. تا زمانی که شما به دنبال حل مسائل بزرگدادهها با استفاده از فنآوری پایگاهدادههای رابطهای سال ۲۰۰۴ نباشید، حل این قسمت از معادله نباید جانور ترسناکی باشد.
اولین کاری که باید انجام دهید، تمامی دادههای ساختیافته و ساختنایافتهای است که میتوانید جمعآوری کنید. حتی اگر نمیدانید چه چیزهایی بدردبخور خواهند بود.
چرا؟ به این خاطر که شرکتهای بزرگی بسیار درگیر آماده کردن نقشه بزرگ دادهای که در شش ماه میتوانند جمع کنند، شدهاند در حالی که تمام دادهای که در این مدت میتوانستند جمع کنند از دست رفته. اگر ضبط کردن همه این دادهها راهی ناپسند باشد، با این حال من توصیه میکنم هرچیزی را امکان دارد ضبط کنید.
زمانی که دادهها را در دست داشتید، باید کشف کنید که چه کاری میخواهید با آنها انجام دهید و چگونه میخواهید از آنها گزارش بگیرید. این کارها نیاز به تصمیمات فنی در مورد نوع ذخیرهسازی که قرار است استفاده کنید و نوع سکوهای داده ،دارد. آیا قصد دارید دادهها را ضبط کنید و با استفاده از پایگاهدادهها Cassandra با آنها سروکله بزنید؟ آیا قرار است با Hadoop این کار را انجام دهید؟ آیا قرار است با ذخیرهساز داده NoSQLای مانند Riak با آنها کار کنید؟
قلب (و هنر) علم دادهها
تمام این تصمیمگیریها توسط مولفه دوم که افراد است اتخاذ میشود. این مساله بزرگترین چالشی است که من در دنیای بزرگ داده دیدهام. اغلب این چالشها تبدیل به تعداد کمی سوال ناراحت کننده میشوند. چه کسی دانشمند داده در شرکت شماست؟ یا حتی این که در شرکت شما اصلا چنین فردی وجود دارد؟ تنها به خاطر این که شما فردی را میپسندید و میتوانید او را جذب کنید و به او بگویید «هــــی، تو الان دانشمند داده هستی. اینجا ۱۵ پتابایت داده وجود دارد. از اونها حقایقی رو بدست بیار»
علم دادهها کاملا یک هنر است. حقیقتا باید آن را هنر داده نامید تا علم دادهها. به چه چیزی نیاز داردی تا دانشمند داده شوید؟ تقریبا بدیهی است که برخی مهارتهای شگفتانگیز تحلیل ریاضی به همراه پیشزمینهای در علوم کامپیوتر به شکلی که بتوانید دستوراتی را به زبان R بنویسید ضروری هستند. علاوه بر اینها باید محققی با یک حس درونی از کنجکاوی نیز باشید.
شما نمیتوانید با استخدام یک مهندس و گفتن این که «هــــی، برو یسری دستور بنویس» دانشمند داده خلق کنید. بیشتر مهندسین ترجیح میدهند که این جمله را از شما بشنوند: «نیازمندیهایی اینجا وجود دارد، بجنگشون برو» و این همیشه حس کنجکاوی را القا نمیکند.
بنابراین بزرگترین شکاف در علم دادهها برای من، دانشمند دادهها است. چه کسی در سازمان شما قرار است کاری با تمام این دادهها انجام دهد؟ آیا آنها مهارت یافتهاند تا قادر به یافتن حقایق دادهها باشند و قطعاتش را پیدا کنند؟
این سوالات باعث پیدایش سایر چالشهای نشات گرفته از مولفه افراد میشود که شما باید در آغاز بزرگ دادهها با آن روبرو شوید تا بتوانید ادامه بدهید. از جمله این که:
- آیا بزرگ دادهها شما در یک سازمان متمرکز شده یا در واحدهای کسبوکار به صورت غیر متمرکز قرار گرفته است؟
- اگر غیر متمرکز است، چه طور مطمئن میشوید که ۱۴ گروه در حال یافتن یک چیز یکسان از آنها نیستند؟
- چه کسی بودجه طرحهای بزرگ دادهها را میدهد؟
- شما چه طور موفقیت را اندازهگیری میکنید؟
از عواقب تلاش برای پاسخگویی به این سوالات این است که چرا بیشتر سازمانها واقعا مشکل بزرگ دادهها را حل نکردهاند؟ به عنوان حرفهایهای فناوری اطلاعات، ما میتوانیم تمام زیربنا، فنآوری و سکوهای داده را در جهان آماده کنیم. اما اگر افراد درستی برای این ابزارها نداشته باشیم، به هیچ جا نخواهیم رسید.