تاریخ کلان‌داده؛ از امپراتوری روم تا امروز

مروری کوتاه بر پیدایش و پیشرفت کلان‌داده‌ها؛ مردم از زمان آغاز تمدن تلاش کرده‌اند برای تصمیم‌گیری بهتر یا کسب مزیت رقابتی از «داده‌ها» استفاده کنند

اصطلاح کلان‌داده (Big Data) از اوایل دهه ۱۹۹۰ مورد استفاده قرار گرفت. اینکه چه کسی برای نخستین بار از این اصطلاح استفاده کرد، روشن نیست؛ اما بسیاری از افراد معتقدند جان مشی که در آن زمان در سیلیکون گرافیکس کار می‌کرد، باعث همگانی شدن این اصطلاح در صنعت و دانشگاه شد.

برای اینکه دلیل همگانی شدن مفهوم کلان‌داده را دریابیم، خوب است که آن را در چشم‌انداز تاریخی‌اش بررسی کنیم. کلان‌داده از دید حوزه دانش ترکیبی، از زمینه رشدیافته آمار و حوزه نسبتاً جوان علوم رایانه ایجاد شده است. به این ترتیب کلان‌داده‌ها به طور کلی بر گروهی از حوزه‌های علمی از ریاضیات، آمار و روش‌های تجزیه و تحلیل داده‌ها استوار است.

مردم از زمان آغاز تمدن تلاش کرده‌اند برای تصمیم‌گیری بهتر یا کسب مزیت رقابتی از «داده‌ها» استفاده کنند. این جست‌وجو برای یافتن ریشه کاربرد داده‌ها حتی می‌تواند به مصریان باستان و امپراتوری روم برگردد. کتاب‌خانه معروف اسکندریه که در حدود ۳۰۰ سال قبل از میلاد تأسیس شد، نخستین تلاش مصریان باستان برای گردآوری «داده‌»ها در این امپراتوری است.

تخمین زده می‌شود که این کتاب‌خانه ۴۰ هزار تا ۴۰۰ هزار یومار (که معادل حدود ۱۰۰ هزار کتاب است) در خود داشته. رهبران جهان باستان نیز دریافته بودند که ترکیب منابع داده‌های گوناگون به برتری نسبت به سایر امپراتوری‌های رقیب منجر می‌شود.

امپراتوری روم خاستگاه سایر موارد کاربرد مستند نخستین شکل از تجزیه و تحلیل داده‌ها بود. ارتش روم باستان از تجزیه و تحلیل آماری دقیق استفاده می‌کرد تا به‌دقت «پیش‌بینی» کند احتمال شورش دشمن در کدام مرز بیشتر است. آنها توانستند بر اساس این تحلیل‌ها، ارتش خود را به کارآمدترین شکل ممکن مستقر کنند.

قرار دادن این محاسبات در جایگاه یکی از نخستین موارد تجزیه و تحلیل داده‌های «پیش‌بینی‌کننده» نادرست نیست. و باید یادآور شد که چنین شیوه‌های تجزیه و تحلیل داده‌ها، ارتش روم را در جایگاهی برتر نسبت به سایر ارتش‌ها قرار داد. برای درک دنیای کلان‌داده‌ها، باید بدانیم بیشتر شیوه‌هایی که امروزه استفاده می‌شوند (از الگوریتم‌های پیش‌بینی‌کننده تا روش‌های طبقه‌بندی) قرن‌ها پیش توسعه یافته‌اند و توسعه کلان‌داده‌ها همچنان بر پایه همان اندیشه‌های بزرگ تاریخ دنبال می‌شود.

البته جنبه کلیدی که تغییر کرده، در دسترس بودن و دست‌یابی به مقادیر انبوه داده است. در حالی که تا دهه ۱۹۵۰ بیشتر تجزیه و تحلیل داده‌ها به صورت دستی و روی کاغذ انجام می‌شد، ما اکنون فناوری و توانایی تجزیه و تحلیل حجم داده در مقیاس ترابایت در چند ثانیه را در اختیار داریم.

حجم و سرعت تولید داده‌ها به ویژه از آغاز قرن بیست‌ویکم فراتر از اندازه‌های درک انسان شده است. مجموع داده‌ها در جهان در سال ۲۰۱۳ برابر با ۴/۴ زتابایت بود و انتظار می‌رفت که تا سال ۲۰۲۰ به ۴۴ زتابایت افزایش یابد. حتی با پیشرفته‌ترین فناوری‌های امروزی نیز تجزیه و تحلیل همه این داده‌ها غیرممکن است.

آنچه که در دهه گذشته موجب تبدیل روش‌های سنتی تجزیه و تحلیل داده‌ها به کلان‌داده شد، نیاز به پردازش مجموعه بزرگ‌تر (و بدون ساختار) داده‌هاست.

تکامل کلان‌داده‌ها را می‌توان به سه مرحله بنیادین تقسیم کرد و هر مرحله در حالی که بر پایه پیشرفت‌های فناوری هدایت می‌شود، ویژگی و قابلیت‌های مخصوص به خود را دارد. برای درک زمینه کلان‌داده‌ها در دوران حاضر، فهم درست درباره اینکه هرکدام از این مراحل چگونه به معنای مدرن کلان‌داده‌ها کمک می‌کند، اهمیت دارد.


مرحله یک کلان‌داده؛ محتوای ساختاریافته


تجزیه و تحلیل داده‌ها و دانش تجزیه و تحلیل داده و کلان‌داده‌ها، ریشه در بستر قدیمی مدیریت پایگاه‌ داده دارد که به‌شدت وابسته به شیوه‌های ذخیره‌سازی، استخراج و بهینه‌سازی است.

مدیریت پایگاه داده و سامانه‌های مخزن داده هنوز از اجزای اساسی راه‌حل‌های کلان‌داده مدرن هستند. تجزیه و تحلیل کلان‌داده‌ها همچنان نیازمند توانایی ذخیره و بازیابی سریع داده‌ها از پایگاه‌های داده یا یافتن اطلاعات در مجموعه داده‌های بزرگ است. فناوری مدیریت پایگاه ‌داده رابطه‌ای و سایر فناوری‌های پردازش داده که در این روند توسعه یافته‌اند، هنوز به میزان زیادی در راهکارهای کلان‌داده عرضه‌کنندگان پیشرو فناوری اطلاعات مانند مایکروسافت، گوگل، و آمازون تعبیه شده‌اند‌.


مرحله دوم کلان‌داده؛ محتوای بدون ساختار مبتنی بر وب


اینترنت و برنامه‌های کاربردی در بستر وب از اوایل دهه ۲۰۰۰ شروع به تولید حجم بزرگی از داده کردند. علاوه بر این، جست‌و‌جوی مبتنی بر IP و موارد مشابه، به تولید داده‌های بدون ساختار مبتنی بر وب منجر شد که شکل جدیدی از دانش را در اختیار سازمان‌ها قرار می‌دهد و درک نیازها و رفتارهای کاربران اینترنت را برای آنها ممکن می‌کند.

فروشگاه‌های آنلاین مانند آمازون با گسترش ترافیک وب، تجزیه و تحلیل رفتار مشتری را آغاز کردند و داده‌های موقعیت مکانی مبتنی بر IP و گزارش‌های جست‌و‌جو، دنیای جدیدی از امکانات را به روی جست‌و‌جوگران باز کرد.

ترافیک وب از نظر فنی موجب افزایش زیاد داده‌های نیمه‌ساختاریافته و بدون ساختار شد. سازمان‌ها اکنون نیازمند یافتن رویکردها و راه‌حل‌های نوین ذخیره‌سازی برای این نوع از داده‌های جدید هستند تا بتوانند آنها را به طور کارآمد تحلیل کنند. ورود و رشد داده‌های رسانه‌های اجتماعی نیاز به ابزارها، فناوری‌ها و روش‌های تحلیلی را شدت بخشید.

فناوری‌های جدید مانند تجزیه و تحلیل شبکه، وب‌کاوی و تجزیه و تحلیل مکانی – زمانی به طور ویژه و کارآمد برای تجزیه و تحلیل مقادیر بزرگ داده‌های بدون ‌ساختار مبتنی بر وب توسعه یافته‌اند.


مرحله سوم کلان‌داده؛ محتوای مبتنی بر موبایل و حسگر


مرحله سوم و فعلی در تکامل کلان‌داده با پذیرش سریع فناوری و دستگاه‌های تلفن همراه و داده‌هایی که آنها تولید می‌کنند، به پیش می‌رود. در سال ۲۰۱۱ تعداد تلفن همراه و تبلت برای نخستین بار از تعداد رایانه‌های شخصی پیشی گرفت و همه این دستگاه‌ها در هر ثانیه از روز داده تولید می‌کنند. تلفن‌های همراه نه‌تنها امکان تجزیه و تحلیل داده‌های رفتاری (مانند پرس‌وجوها)، بلکه امکان ذخیره و تجزیه و تحلیل داده‌های مکانی را نیز فراهم می‌کنند.

از آنجا که این دستگاه‌ها تقریباً در هر لحظه به اینترنت متصل می‌شوند، داده‌هایی که تولید می‌کنند، تصویری بی‌سابقه از رفتار افراد را ارائه می‌دهد.

ظهور دستگاه‌های مبتنی بر حسگر و اینترنت، حجم تولید داده‌ها را افزایش می‌دهد. با ظهور اینترنت اشیا، میلیون‌ها تلویزیون، ابزار پوشیدنی و لوازم خانگی هر روز به اینترنت متصل می‌شوند و داده‌های عظیمی را فراهم می‌کنند. از آنجایی که انتظار نمی‌رود این روند به‌زودی متوقف شود، می‌توان گفت که مسابقه برای استخراج اطلاعات معنادار و ارزشمند از این منابع داده جدید تازه آغاز شده است.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.