کارنگ رسانه اقتصاد نوآوری است. در کارنگ ما تلاش داریم کسبوکارهای نوآور ایرانی، استارتاپها، شرکتهای دانشبنیان و دیگر کسبوکارها کوچک و بزرگی که در بخشهای مختلف اقتصاد نوآوری در حال ارائه محصول و خدمت هستند را مورد بررسی قرار دهیم و از آینده صنعت، تولید، خدمات و دیگر بخشهای اقتصاد بگوییم. کارنگ رسانهای متعلق به بخش خصوصی ایران است.
اصطلاح کلانداده (Big Data) از اوایل دهه ۱۹۹۰ مورد استفاده قرار گرفت. اینکه چه کسی برای نخستین بار از این اصطلاح استفاده کرد، روشن نیست؛ اما بسیاری از افراد معتقدند جان مشی که در آن زمان در سیلیکون گرافیکس کار میکرد، باعث همگانی شدن این اصطلاح در صنعت و دانشگاه شد.
برای اینکه دلیل همگانی شدن مفهوم کلانداده را دریابیم، خوب است که آن را در چشمانداز تاریخیاش بررسی کنیم. کلانداده از دید حوزه دانش ترکیبی، از زمینه رشدیافته آمار و حوزه نسبتاً جوان علوم رایانه ایجاد شده است. به این ترتیب کلاندادهها به طور کلی بر گروهی از حوزههای علمی از ریاضیات، آمار و روشهای تجزیه و تحلیل دادهها استوار است.
مردم از زمان آغاز تمدن تلاش کردهاند برای تصمیمگیری بهتر یا کسب مزیت رقابتی از «دادهها» استفاده کنند. این جستوجو برای یافتن ریشه کاربرد دادهها حتی میتواند به مصریان باستان و امپراتوری روم برگردد. کتابخانه معروف اسکندریه که در حدود ۳۰۰ سال قبل از میلاد تأسیس شد، نخستین تلاش مصریان باستان برای گردآوری «داده»ها در این امپراتوری است.
تخمین زده میشود که این کتابخانه ۴۰ هزار تا ۴۰۰ هزار یومار (که معادل حدود ۱۰۰ هزار کتاب است) در خود داشته. رهبران جهان باستان نیز دریافته بودند که ترکیب منابع دادههای گوناگون به برتری نسبت به سایر امپراتوریهای رقیب منجر میشود.
امپراتوری روم خاستگاه سایر موارد کاربرد مستند نخستین شکل از تجزیه و تحلیل دادهها بود. ارتش روم باستان از تجزیه و تحلیل آماری دقیق استفاده میکرد تا بهدقت «پیشبینی» کند احتمال شورش دشمن در کدام مرز بیشتر است. آنها توانستند بر اساس این تحلیلها، ارتش خود را به کارآمدترین شکل ممکن مستقر کنند.

قرار دادن این محاسبات در جایگاه یکی از نخستین موارد تجزیه و تحلیل دادههای «پیشبینیکننده» نادرست نیست. و باید یادآور شد که چنین شیوههای تجزیه و تحلیل دادهها، ارتش روم را در جایگاهی برتر نسبت به سایر ارتشها قرار داد. برای درک دنیای کلاندادهها، باید بدانیم بیشتر شیوههایی که امروزه استفاده میشوند (از الگوریتمهای پیشبینیکننده تا روشهای طبقهبندی) قرنها پیش توسعه یافتهاند و توسعه کلاندادهها همچنان بر پایه همان اندیشههای بزرگ تاریخ دنبال میشود.
البته جنبه کلیدی که تغییر کرده، در دسترس بودن و دستیابی به مقادیر انبوه داده است. در حالی که تا دهه ۱۹۵۰ بیشتر تجزیه و تحلیل دادهها به صورت دستی و روی کاغذ انجام میشد، ما اکنون فناوری و توانایی تجزیه و تحلیل حجم داده در مقیاس ترابایت در چند ثانیه را در اختیار داریم.
حجم و سرعت تولید دادهها به ویژه از آغاز قرن بیستویکم فراتر از اندازههای درک انسان شده است. مجموع دادهها در جهان در سال ۲۰۱۳ برابر با ۴/۴ زتابایت بود و انتظار میرفت که تا سال ۲۰۲۰ به ۴۴ زتابایت افزایش یابد. حتی با پیشرفتهترین فناوریهای امروزی نیز تجزیه و تحلیل همه این دادهها غیرممکن است.
آنچه که در دهه گذشته موجب تبدیل روشهای سنتی تجزیه و تحلیل دادهها به کلانداده شد، نیاز به پردازش مجموعه بزرگتر (و بدون ساختار) دادههاست.
تکامل کلاندادهها را میتوان به سه مرحله بنیادین تقسیم کرد و هر مرحله در حالی که بر پایه پیشرفتهای فناوری هدایت میشود، ویژگی و قابلیتهای مخصوص به خود را دارد. برای درک زمینه کلاندادهها در دوران حاضر، فهم درست درباره اینکه هرکدام از این مراحل چگونه به معنای مدرن کلاندادهها کمک میکند، اهمیت دارد.
مرحله یک کلانداده؛ محتوای ساختاریافته
تجزیه و تحلیل دادهها و دانش تجزیه و تحلیل داده و کلاندادهها، ریشه در بستر قدیمی مدیریت پایگاه داده دارد که بهشدت وابسته به شیوههای ذخیرهسازی، استخراج و بهینهسازی است.
مدیریت پایگاه داده و سامانههای مخزن داده هنوز از اجزای اساسی راهحلهای کلانداده مدرن هستند. تجزیه و تحلیل کلاندادهها همچنان نیازمند توانایی ذخیره و بازیابی سریع دادهها از پایگاههای داده یا یافتن اطلاعات در مجموعه دادههای بزرگ است. فناوری مدیریت پایگاه داده رابطهای و سایر فناوریهای پردازش داده که در این روند توسعه یافتهاند، هنوز به میزان زیادی در راهکارهای کلانداده عرضهکنندگان پیشرو فناوری اطلاعات مانند مایکروسافت، گوگل، و آمازون تعبیه شدهاند.

مرحله دوم کلانداده؛ محتوای بدون ساختار مبتنی بر وب
اینترنت و برنامههای کاربردی در بستر وب از اوایل دهه ۲۰۰۰ شروع به تولید حجم بزرگی از داده کردند. علاوه بر این، جستوجوی مبتنی بر IP و موارد مشابه، به تولید دادههای بدون ساختار مبتنی بر وب منجر شد که شکل جدیدی از دانش را در اختیار سازمانها قرار میدهد و درک نیازها و رفتارهای کاربران اینترنت را برای آنها ممکن میکند.
فروشگاههای آنلاین مانند آمازون با گسترش ترافیک وب، تجزیه و تحلیل رفتار مشتری را آغاز کردند و دادههای موقعیت مکانی مبتنی بر IP و گزارشهای جستوجو، دنیای جدیدی از امکانات را به روی جستوجوگران باز کرد.
ترافیک وب از نظر فنی موجب افزایش زیاد دادههای نیمهساختاریافته و بدون ساختار شد. سازمانها اکنون نیازمند یافتن رویکردها و راهحلهای نوین ذخیرهسازی برای این نوع از دادههای جدید هستند تا بتوانند آنها را به طور کارآمد تحلیل کنند. ورود و رشد دادههای رسانههای اجتماعی نیاز به ابزارها، فناوریها و روشهای تحلیلی را شدت بخشید.
فناوریهای جدید مانند تجزیه و تحلیل شبکه، وبکاوی و تجزیه و تحلیل مکانی – زمانی به طور ویژه و کارآمد برای تجزیه و تحلیل مقادیر بزرگ دادههای بدون ساختار مبتنی بر وب توسعه یافتهاند.

مرحله سوم کلانداده؛ محتوای مبتنی بر موبایل و حسگر
مرحله سوم و فعلی در تکامل کلانداده با پذیرش سریع فناوری و دستگاههای تلفن همراه و دادههایی که آنها تولید میکنند، به پیش میرود. در سال ۲۰۱۱ تعداد تلفن همراه و تبلت برای نخستین بار از تعداد رایانههای شخصی پیشی گرفت و همه این دستگاهها در هر ثانیه از روز داده تولید میکنند. تلفنهای همراه نهتنها امکان تجزیه و تحلیل دادههای رفتاری (مانند پرسوجوها)، بلکه امکان ذخیره و تجزیه و تحلیل دادههای مکانی را نیز فراهم میکنند.
از آنجا که این دستگاهها تقریباً در هر لحظه به اینترنت متصل میشوند، دادههایی که تولید میکنند، تصویری بیسابقه از رفتار افراد را ارائه میدهد.
ظهور دستگاههای مبتنی بر حسگر و اینترنت، حجم تولید دادهها را افزایش میدهد. با ظهور اینترنت اشیا، میلیونها تلویزیون، ابزار پوشیدنی و لوازم خانگی هر روز به اینترنت متصل میشوند و دادههای عظیمی را فراهم میکنند. از آنجایی که انتظار نمیرود این روند بهزودی متوقف شود، میتوان گفت که مسابقه برای استخراج اطلاعات معنادار و ارزشمند از این منابع داده جدید تازه آغاز شده است.
