روند تغییر تحلیل دادهها در سال های اخیر
با تغییر و تحول کسب و کارها و تبدیل آنها به شرکتهای مبتنی بر داده، روز به روز نیاز بیشتری به استفاده از فناوری ها و راهبردهای مبتنی بر داده حس میشود. از سوی دیگر، سازوکارهای تحلیل داده نیز در سال های اخیر روند رشد و تحول بزرگی را سپری کرده است.
تحلیل داده و فناوری های مرتبط با آن، در کنار فناوریهای موبایلی و اجتماعی توانسته اند بیشترین تأثیر و تحول را در عصر دیجیتال ایجاد کنند. در سال 2017 میلادی، با شروع تحول شرکتها از تولید کننده داده به استفاده کننده از آن، موضوع داده و تحلیل آن، تبدیل به محور اصلی فعالیت بسیاری از شرکتها و سازمانها شد. در سال 2018، این فناوریها شروع به ایجاد ارزش برای سازمان ها کردند که در سال 2019 نیز همچنان این رویه ادامه یافت.
در این مقاله روشها، نقشها و نگرانیهایی که راهبردهای تحلیل داده در سال جاری با خود به همراه خواهند داشت را بررسی میکنیم.
نیاز به نظارت بیشتر، با احتمال نشت داده ها
در سالهای گذشته، دادههای زیادی در شرکتهای مختلف جمعآوری شدهاند. اینترنت اشیا به فرایند تولید داده، سرعت و شتاب چشمگیری داده و باعث تحول منابع تولید داده از وب به موبایل و سپس به دستگاههای مختلف شده است. بنابراین امکان نشت داده هر روز بیشتر می شود.
Guy Churchward مدیرعامل پلتفرم Data Torrent که یک پلتفرم استریمینگ[1] داده به صورت بلادرنگ[2] است، بر این باور است که چنین شرایطی منجر به نیاز روزافزون جهت افزایش مقیاس جریان های داده به روشی مقرون به صرفه شده است.
برای خیلی از شرکتهایی که از فناوری هایی مثل هدوپ[3] استفاده میکنند، پاسخ به این مسئله در ایجاد یک دریاچه داده[4] (پلتفرمهای مدیریت داده در سطح سازمانی برای ذخیره تمام دادههای یک سازمان در فرمتهای بومی) قرار دارد. دریاچه داده با ارایه یک منبع داده واحد که کل سازمان میتواند از آن برای انجام تمامی کارها، از تحلیلهای تجاری گرفته تا داده کاوی استفاده کند، کمک میکند و باعث می شود که انبارهای اطلاعاتی تجزیه و تحلیل شوند. بنابراین کمک کننده به همه گروهها در هر سازمانی است.
Churchward اعتقاد دارد که: «دریاچه داده، در دورهای که در آن دادهها «در حالت استراحت[5]» و پردازش دستهای قرار داشتند، کمک زیادی به شرکتها کرد. در سال 2015 میلادی مشخص شد که بیش از حد از این معماری استفاده شده ولی در حال حاضر این معماری تبدیل به پاشنه آشیلی برای تحلیل دادهها به صورت بلادرنگ شده است. این که اول دادهها را به حالت سکون درآورده و سپس آنها را تحلیل کنیم، مضرات زیادی برای شرکتها دارد. وقتی قرار است با بیشترین سرعت یک رایانه، از دادهها اطلاعات استخراج کرد و این اطلاعات را به کار ببندیم، اگر متکی بر دادههای قدیمی باشیم نتایج و اقدام های حاصله چندان مفید نخواهند بود و پیروی از چنین روشهایی ممکن است شرکتها را در آستانه سقوط و ورشکستگی قرار دهد».
Monte Zweben مدیرعامل شرکت Splice Machine با این صحبت موافق است و نظر خودش را این طور بیان میکند که: «امروزه تقریباً دوره فناوریهایی مثل هدوپ به سر رسیده است و خیلی از شرکتها در حال غرق شدن در دریاچه دادههای خودشان هستند؛ چرا که به دلیل پیچیدگی سیستمهای قدیمی مبتنی بر هدوپ دیگر نمیتوانند بازگشت سرمایه مورد انتظار را داشته باشند».
Ken Hoang مدیر بخش راهبرد و اتحادیهها در شرکت Alation نیز بر این باور است که سازوکار دریاچه داده برای این که همچنان مثل گذشته بقای خود را حفظ کند باید برای سازمانها ارزش تجاری ایجاد کند. او میگوید: «سازوکار دریاچه داده، توسعه تجربی خود را در چند سال گذشته پشت سر گذاشته و کم کم شاهد کنار گذاشتن آن خواهیم بود، مگر این که ثابت شود این سازوکار قابلیت ایجاد ارزش را داشته و آنچه ارزش چنین سازوکاری را ثابت میکند، قابلیت آن برای کنار هم قرار دادن اطلاعات، هوش مصنوعی و اکتشاف اطلاعات جهت ایجاد دیدگاهها و بینشهای جدید برای کسب و کارها است».
با این حال، Hoang معتقد است که همه چیز برای معماری دریاچه داده به اتمام نرسیده است. او پیش بینی میکند که دریاچه داده و سایر قطبهای داده با آنچه او «ابر قطب[6]» مینامد می تواند به کمک یادگیری ماشینی به حیات خود ادامه دهد.
Hoang در این خصوص گفته است که: «استقرار قطبهای دادهای بزرگ در 25 سال گذشته (مثل انبارهای داده[7]، دریاچههای داده، سیستمهای مدیریت دادههای اصلی[8]، Salesforce و برنامه ریزی منابع سازمانی(ERP)[9]) منجر به شکل گیری انبارهایی از داده شده که نمیتوان به راحتی آنها را درک کرد، ارتباطاتشان را تفسیر کرده یا آنها را به اشتراک گذاشت. سازوکارهایی همچون تشکیل قطبی از قطبها[10]، امکان برقراری ارتباط بین این قطبها را فراهم کرده و ایجاد سازوکاری به نام ” context-as-a-service ” یا «ارایه زمینه به عنوان سرویس» را مهیا میکند. این امر به نوبه خود، اطلاعات مرتبطتر و قدرتمندتری را فراهم میکند که این اطلاعات نیز به ایجاد نتایج بهتر و سریعتر برای کسب و کارها کمک میکنند».
Ted Dunning مدیر ارشد معماری برنامه کاربردی در MapR هم تغییری مشابه را پیش بینی میکند: «با توجه به این که سیستمهای دادهای بزرگ تبدیل به یک مرکز گرانش از نظر ذخیره اطلاعات، دسترسی به اطلاعات و انجام عملیات میشوند، مشاغل به دنبال ایجاد یک محصول جهانی هستند که دسترسی کامل به دادههای موجود در منابع مختلف را فراهم کرده و امکان انجام محاسبات بر روی سیستمهایی که واقعاً multi-tenant یا چند مستأجره هستند را ایجاد کند».
Dunning میگوید: «به زودی شاهد این خواهیم بود که مشاغل بیشتری بر روی دادههای در حال جریان، محاسبات خود را انجام دهند نه دادههایی که پردازش شده و در یک پایگاه داده ذخیره شدهاند. این نوع جریان داده با ساختار داده در محیطهای تجاری سازگاری بیشتری دارد. پایه و اساس ایجاد چنین سیستمهای بزرگی که مبتنی بر جریان داده هستند، یک محصول دادهای یکپارچه و سراسری خواهد بود».
این محصولها از محاسبات مختلفی که مناسب حوزههای متفاوت هستند، پشتیبانی میکنند. روندی که شاهد ظهور آن خواهیم بود ارایه محصولی است که دادههای در حال حرکت و در حال سکون را برای محاسبات چند ابری[11] که توسط سیستمهایی مثل Kubernetes [12] ارایه میشوند، فراهم کند.
Langley Eide مدیر ارشد راهبرد در شرکت تحلیل دادهای Alteryx بر این باور است که معماری دریاچه داده، به تنهایی مسئول ایجاد ارزش برای مشاغل نیست و تحلیلگران خطوط شغلی[13] (LBO) و مدیران ارشد دیجیتال[14] (CDO) نیز مسئولیتهایی را در این حوزه بر عهده دارند.
Eide میگوید: «بیشتر تحلیلگران، تا به امروز از منابع دادهای بدون ساختاری با حجم انبوه، از جمله دادههای مربوط به جریان کلیک کاربران، دادههای اینترنت اشیا، دادههای لاگ و غیره استفاده مفیدی نکردهاند، عمدتاً به این دلیل که انجام این کار سخت است. اما باید اذعان کرد که اگر تحلیلگران از این دادهها استفاده نکنند، کار و وظیفه اصلی خودشان را انجام ندادهاند. تا به حال این موضوع اثبات شده که خیلی از دریاچههای داده، سرمایههایی با عملکرد ضعیف هستند. مردم اطلاعی ندارند چه چیزی در آنها وجود دارد، چطور میتوانند به آنها دسترسی پیدا کنند یا چطور میتوانند از دادههای موجود در آنها استفاده کرده و به بینش و ادراک لازم برسند. این واقعیت در سال های اخیر تغییر خواهد کرد چون مدیران ارشد دیجیتال و کارآفرینان، به دنبال بازگشت سرمایه هر چه بیشتر از طریق دریاچه داده هستند».
بنابراین بر اساس مواردی که در این مقاله به آنها اشاره شد، پیش بینی میشود که در سال های اخیر، تحلیلگران به جای استفاده از ابزارهایی با سازوکار جستجوی فراگیر[15] (مثل Excel و SQL)، از فنون و فناوریهای برنامهریزی شدهتری مثل «کاتالوگ داده» استفاده کنند تا ارزش تحلیل دادهها را بیشتر کشف کرده و از آن در فرایندهای کسب و کاری خود بهره بیشتری ببرند.
- [1] streaming
- [2] real-time
- [3] Hadoop
- [4] data lake
- [5] At rest
- [6] Super hubs
- [7] Data Warehouses
- [8] Master Data Management
- [9] Enterprise Resource Planning
- [10] Hub of Hubs
- [11] Multi-Cloud
- [12] Kubernetes یا کوبرنتیز سامانهای متنباز برای خودکارسازی توسعه، مقیاس و مدیریت برنامههای کانتینرسازی شده است که ابتدا توسط شرکت گوگل توسعه داده شد و سپس به بنیاد لینوکس هدیه گردید.
- [13] Line-of-Business
- [14] Chief digital officers
- [15] Brute Force
منبع: escanav