Широкое введение термина «Big Data» связывают с журналистом журнала Nature Клиффордом Линчем. Тем не менее, точное описание этого явления было предоставлено за три года до публикации статьи Роджером Мугаласом, а сам процесс сбора неструктурированных данных с последующей структуризацией для проведения различных исследований был известен с конца 1600-х годов.

При этом стоит отметить, что «Большие данные» — понятие относительное. Ведь под словом «Big» скрывается не только объем обрабатываемой и анализируемой информации, а масштабы компании, занимающейся её структуризацией. Так, общий вес файлов, поступающих на сервера Google, гораздо больше, чем аналогичный показатель у среднестатистической аналитической компании.
Но учитывая общую концепцию, даже ранние астрологические и астрономические исследование, основанные на наблюдении за перемещением объектов в звездном небе с последующим анализом полученной информации для поиска причинно-следственных связей, можно считать своеобразным «Big Data» своего времени. Сегодня же, поговорим об истории Big Data, чьи технические возможности позволяют собирать, хранить и анализировать гораздо большие объемы данных, что делает их поистине «большими».
Исторический экскурс
Несмотря на то, что сбор и обработка различной информации существовала с момента появления человечества, первый задокументированный статистический анализ данных был проведен Джоном Грантом с целью анализа закономерностей для определения происхождения, скорости распространения, уровня заражения и смертности во время эпидемии бубонной чумы в 1663 году. Спустя две сотни лет, его начала расти в геометрической прогрессии, что привело к формированию общей концепции «Больших данных» и послужило толчком к появлению средств, автоматизирующих и ускоряющих этот процесс.
К концу 1800-х, математик Герман Холлерит изобрел счетную машину для обобщения информации, хранящейся на перфорированных карточках. Техническое средство позволило сократить время обработки данных всенародной переписи населения в США с прогнозируемых 10 лет, до 3 месяцев, тем самым заложив основу для технической автоматизации обработки поступающей информации. Чуть позже, технология была доработана и начала использоваться не только в государственных учреждениях, но и на предприятиях частного сектора, что упростило документооборот и изменило «правила игры» в бизнес сфере тех лет.
При этом прогресс не стоял на месте и к началу Первой мировой войны, сбор и анализ статистической информации позволял предугадывать варианты перемещения войск, основываясь на их численности и количестве имеющейся техники. А на смену перфокартам пришла магнитная лента, способная хранить больший объем информации в более компактном формате. 1931 год ознаменовал еще один прорыв для Big Data – компания IBM собрала первый «суперкомпьютер» по заказу Колумбийского университета. А к 1943 году, в попытках создать средство для дешифрации закодированных нацистских записей, британцы изобрели первый в мире процессор.
В конце войны, мировое научное сообщество начало обсуждение концепции хранилища программ и вывело понятие Электронного автоматического компьютера с дискретными переменными (EDVAC), заложив основу для современной компьютерной архитектуры. С появлением интернета в качестве военной разработки, машины прибавили в мощности и начали обрабатывать сотни мегабайт информации за считанные часы, что в наши дни кажется ничтожно малым.
Ведь возможности современных суперкомпьютеров, обслуживающих ЦЕРН и адронный коллайдер, а также другие научно-исследовательские лаборатории, получают и анализируют «Большие данные» в режиме реального времени, что ускоряет научный прогресс и в будущем сыграет свою роль в постижении тайн мироздания.