درهمتنیدگی کلاندادهها و تکامل فناوری مدیریت دادهها / چالشها و راهکارهای استفاده از آمار
برخی از صاحبنظران مدیریت داده، برای شرح کلانداده (Big Data) چنین گفتهاند: «مقدار عظیم، طاقتفرسا و غیرقابل کنترل اطلاعات».
جان گرانت نیز آنگاه که در سال 1663 در حال بررسی طاعون بوبونیک بود که اروپای آن زمان را به ویرانی میکشاند، با «مقدار بسیار زیاد اطلاعات» سروکار داشت. گرانت از بررسیهای آماری استفاده کرد که او را در جایگاه نخستین فردی نشاند که از تجزیه و تحلیل دادههای آماری استفاده کرده است. در اوایل دهه 1800 حوزه آمار به گردآوری و تجزیه و تحلیل دادهها گسترش یافت.
برای درک رشد اندازه کلاندادهها نیازی نیست تا به پیشتر برگردیم و به سال 1663 نگاه کنیم. کلانداده بسته به اینکه چه کسی درباره آن صحبت میکند موضوعی نسبی است. کلانداده برای آمازون یا گوگل با آنچه در یک سازمان بیمه با اندازه متوسط رخ میدهد متفاوت است.
گامهای اساسی برای رسیدن به مفهوم مدرن کلانداده شامل توسعه رایانهها، تلفنهای هوشمند، اینترنت و تجهیزات وابسته به حسگرها (اینترنت اشیا) برای فراهم کردن دادههاست. کارتهای اعتباری نیز با ارائه مقادیر فزایندهای از دادهها در این مسیر نقش داشتند. تردیدی نیست که رسانههای اجتماعی توانستند ماهیت حجم دادهها را به روشهای جدید که همچنان در حال توسعه است تغییر دهند. تکامل فناوری مدرن با تکامل کلاندادهها در هم تنیده شده است.
شکلگیری کلانداده
در سال 1880 دادهها برای اداره سرشماری ایالات متحده دردسرآفرین شد. برآورد آنها این بود که پردازش دادههای گردآوریشده در آن سرشماری هشت سال زمان میبرد و پیشبینی کردند که پردازش دادههای سرشماری 1890 بیش از 10 سال زمان نیاز دارد. در سال 1881 مرد جوانی به نام «هرمان هولریث» که برای دفتر سرشماری کار میکرد، ماشین جدولبندی هولریث را ایجاد کرد. اختراع او بر اساس کارتهای سوراخشده بود که در دستگاههای بافندگی مکانیکی برای کنترل نقشونگارهای بافتهشده بهکار میرفت؛ دستگاه جدولبندی هولریث زمان 10 سال را به سه ماه کاهش داد.
ظهور نخستین پردازشگرهای داده
در سال 1927 یک مهندس اتریشی-آلمانی به نام «فریتز فلومر» ابزاری برای ذخیره اطلاعات به شکل مغناطیسی روی نوار ساخت. فلومر روشی برای چسباندن نوارهای فلزی به کاغذ سیگار ابداع کرده بود (برای اینکه لبهای سیگاریها توسط کاغذهای سیگارپیچی آلوده نشود) و تصمیم گرفت از این روش برای ایجاد یک نوار مغناطیسی استفاده کند. او پس از آزمایشهایی با مواد گوناگون، اختراع خود را که کاغذ بسیار نازک آعشتهشده با پودر اکسید آهن بود در سال 1928 ثبت کرد.
در طول جنگ جهانی دوم (به طور مشخص در سال 1943) بریتانیاییها که ناامید از شکستن رمزگذاریهای نازیها بودند، دستگاهی ساختند که الگوهای پیامهای رهگیریشده از سوی آلمانیها را پردازش میکرد. این دستگاه Colossus نام داشت و میتوانست 5000 حرف را در ثانیه پردازش کند و حجم کار را از چند هفته به چند ساعت کاهش دهد. دستگاه Colossus نخستین پردازشگر داده بود. دو سال پس از آن در سال 1945 جان فون نویمان مقالهای درباره رایانه خودکار متغیر گسسته الکترونیکی EDVAC نوشت که نخستین بحث مستندشده درباره ذخیرهسازی برنامهها بود که معماری رایانههای امروزی را بنیان نهاد. گفته میشود این رخدادها منجر به شکلگیری رسمی آژانس امنیت ملی ایالات متحده NSA از سوی ترومن، رئیسجمهور آمریکا در سال 1952 شد. کارمندان این آژانس وظیفه رمزگشایی پیامهای رهگیریشده در طول جنگ سرد را بر عهده داشتند. رایانههای آن زمان بدان پایه از پیشرفت رسیده بودند که قادر به گردآوری و پردازش مستقل و خودکار دادهها باشند.
اینترنت و رایانههای شخصی
در 29 اکتبر 1969 کار شبکه آرپانت با ارسال پیامی از رایانه میزبان در دانشگاه یوسیالای به رایانه میزبان در دانشگاه استنفورد آغاز شد، اما مردم از وجود این طرح آگاه نبودند. با این حال در سال 1989 زیرساختهای آرپانت رو به پیر شدن رفت و آن سامانه به اندازه شبکههای جدید کارآمد و سریع نبود. سازمانهایی که از این سیستم استفاده میکردند به سوی شبکههای دیگر مانند NSFNET حرکت کردند. در سال 1990 آرپانت تعطیل شد اما این طرح، اینترنت را برای بشر به ارمغان آورده بود.
در سال 1965 دولت ایالات متحده اولین مرکز داده را با هدف ذخیره میلیونها مجموعه اثر انگشت و اظهارنامه مالیاتی ایجاد کرد. دادهها به نوارهای مغناطیسی منتقل شدند و قرار بود در یک مکان مرکزی ذخیره شوند. نظریهپردازان توطئه، ترس خود را از اجرایی شدن این برنامه بیان کردند که منجر به ناتمام ماندن طرح شد. اما این ابتکار نخستین تلاش ثبتشده برای ذخیرهسازی داده در اندازه بزرگ بود.
در سال 1989 «تیم برنرز لی» مفهوم شبکه جهانی وب (World Wide Web) را مطرح کرد. هدف او بهاشتراکگذاری اطلاعات با استفاده از یک سامانه فرامتن بود. در پاییز سال 1990 برنرز لی که برای «سرن» کار میکرد، سه دستور اصلی فناوری اطلاعات را نوشت که همچنان اساس وب امروزی هستند:
HTML :(Hyper Text Markup Language) زبان نشانهگذاری فرامتن؛ زبان قالببندی وب
URL :(Uniform Resource Locator) منبعیاب یکنواخت؛ یک «آدرس» منحصربهفرد برای شناسایی هر منبع که در وب استفاده میشود.
HTTP :(HyperText Transfer Protocol) شیوهنامه انتقال فرامتن؛ برای بازیابی منابع مرتبط از سراسر وب استفاده میشود.
در سال 1993 سرن اعلام کرد که شبکه جهانی وب برای توسعه و استفاده همگانی رایگان است. بخش رایگان عنصری کلیدی در اثرگذاری وب بر مردم جهان بود.
ذخیرهسازی کلانداده
ذخیره مغناطیسی همچنان یکی از کمهزینهترین روشهای ذخیره داده است. نوارهای راهراه مغناطیسی فلومر، خود را با شکلهای گوناگون از استوانهها، فلاپیدیسکها و دیسکهای سخت سازگار کرد. در سالهای اخیر ذخیرهسازی ابری دادهها ابزاری است که در این زمینه محبوب شده است. نخستین کلود در سال 1983 ظاهر شد؛ آنگاه که CompuServe به مشتریان خود ۱۲۸ کیلوبایت فضای داده برای ذخیرهسازی شخصی و خصوصی ارائه داد. پیشرفتهای فنی در اینترنت همراه با کاهش هزینههای ذخیرهسازی داده، استفاده از فضای ابری برای ذخیرهسازی دادههای کسبوکارها و افراد را اقتصادیتر کرده است.
پایهگذاران کلاندادهها
در سالهای اخیر، کلانداده دنیای کسبوکارهای امروزی را دگرگون کرده است. کلانداده ترکیبی از دادههای ساختاریافته، نیمهساختاریافته و بدون ساختار و دستهای از اطلاعات است که سازمانها آن را برای اهداف تجاری استخراج میکنند و از طریق یادگیری ماشینی، ساخت مدلهای پیشبینی و دیگر برنامههای کاربردی تجزیه و تحلیل دادههای پیشرفته آن را به کار میگیرند. بستر کاربرد کلانداده از آنجا شکل گرفت که افرادی باهوش ارزش روی آوردن به آمار و تجزیه و تحلیل را برای فهم دنیای پیرامون خود درک کردند. در ادامه نگاهی به روند شکلگیری فناوری در این حوزه و شخصیتهای تأثیرگذار در آن خواهیم داشت.
1663: «جان گرانت» تجزیه و تحلیل دادههای آماری را با کار روی طاعون بوبونیک معرفی کرد.
1865: «ریچارد میلار دیونز» اصطلاح «هوش تجاری» را پدید آورد که به معنای فرآیند تجزیه و تحلیل دادهها و کاربرد آن برای ارائه اطلاعات عملی بود.
1884: «هرمان هولریث» دستگاه جدولبندی بر پایه کارت منگنه را اختراع و پردازش دادهها را آغاز کرد. دستگاه هولریث برای پردازش دادههای سرشماری 1890 ایالات متحده به کار گرفته شد. وی در سال 1911 شرکت Computing-Tabulating-Recording را ایجاد کرد که در ادامه به IBM تبدیل شد.
1926: «نیکولا تسلا» پیشبینی کرد روزی انسانها به وسیله ابزاری که آن را میتوان «در جیب جلیقه» جابهجا کرد، به بخشهای بزرگی از دادهها دسترسی خواهند داشت.
1928: «فریتز فلومر» راهی برای ذخیره اطلاعات روی نوار مغناطیسی ابداع کرد. این فرآیند سرانجام وی را به سوی ساخت نوار مغناطیسی کشاند که بنیان نوارهای کاست و موارد دیگر شد.
1943: یکی از نخستین دستگاههای پردازش داده برای رمزگشایی کدهای نازیها در طول جنگ جهانی دوم در بریتانیا ساخته شد. دستگاه Colossus مقایسههای منطقی و شمارش لازم برای تجزیه و تحلیل حجم زیادی از دادهها را انجام میداد.
1959: «آرتور ساموئل» برنامهنویس IBM و پیشگام هوش مصنوعی اصطلاح یادگیری ماشینی را ابداع کرد.
1965: برنامه ساخت نخستین مرکز داده برای ذخیره اظهارنامه مالیاتی و اثر انگشت روی نوار مغناطیسی در آمریکا آغاز، اما رها شد.
1969: شبکه ارتباطی «آرپانت» که نخستین شبکه گسترده ارتباطی شامل کنترل توزیعشده بر پایه شیوهنامه ارتباطی TCI/IP بود، ایجاد شد که بنیان اینترنت امروزی را شکل داد.
1989 و 1990: «تیم برنرز لی» و «رابرت کالیو» در زمان کار CERN شبکه جهانی وب را ایجاد کردند و دوران اینترنت با دسترسی گسترده و آسان به دادهها آغاز شد.
1996: برای نخستینبار ذخیرهسازی دادههای دیجیتال بهصرفهتر از ذخیره اطلاعات روی کاغذ شد.
1997: دامنه google.com یک سال پیش از راهاندازی ثبت شد. برآمدن موتور جستوجو موجب توسعه بسیاری از نوآوریهای دیگر ازجمله یادگیری ماشینی، کلانداده و تجزیه و تحلیل شد.
1998: پایگاه داده رابطهای منبعباز NoSQL توسط «کارلو استروزی» توسعه داده شد که راهی برای ذخیره و بازیابی دادههای مدلسازیشده به گونهای متفاوت از پایگاه دادههای سنتی ارائه کرد.