История Больших данных

2019-12-29

249

Обсуждений (0)

0.00 из 5.00 0 оценок

12 3 4

Введение

Большие данные (Big Data, биг дата) — это структурированные и неструктурированные данные огромных объемов и разнообразия, а также методы их обработки, которые позволяют распределённо анализировать информацию.

Само явление «больших данных» зародилось в начале века, получив официальное название лишь в 2005 году. Хоть с тех пор технология и получила широкую известность, до сих пор ее использование – удел крупных компаний; также, по итогам исследования по заказу ЕМС лишь небольшая часть менеджеров высшего звена действительно осознает важность технологии и умеет извлекать пользу из использования технологий обработки больших данных.

Актуальность данного явления, его изучения и развития подтверждается тем, что введение технологий Больших данных в использование отвечает современным требованиям и задачам бизнеса.

В современном мире практическая значимость технологии давно не вызывает вопросов, обнаруживая себя не только в самых разных сферах бизнеса и науки. Использование больших данных позволяет управлять рисками и предсказывать верную траекторию развития, привлекать клиентов и повышать их лояльность, находя неочевидные связи и закономерности в предпочтениях и действиях. Извлечение такого рода информации стало возможным только с появлением способности создавать, хранить и своевременно обрабатывать огромный объем информации, чем, по сути, и являются большие данные.

Основная часть

История Больших данных

Самые ранние упоминания сбора и использования данных для ведения хозяйства восходит к пятому тысячелетию до нашей эры – в Месопотамии собирали и записывали информацию о росте и урожайности злаков и трав. Принципы бухгалтерского учета развивались и в 1663 году Джон Грант собрал и изучил всю информацию о смертности в Лондоне, на основании которой построил систему предупреждения бушующей бубонной чумы. Свои исследования, ставшие первым примером записанного статистического анализа данных, он собрал в книге «Естественные и политические наблюдения над списками умерших», которая доказала связь между многими аспектами жизни горожан в семнадцатом веке и их смертностью. Благодаря своему труду Джон Грант считается отцом статистики и родоначальником демографии. С тех пор принципы учета и сбора данных совершенствовались, но не происходило новых прорывов, которые бы резко изменили систему обработки информации, пока в двадцатом столетии не начался «информационный век». Самое раннее упоминание о данных в современном виде датируются 1887 годом, когда Герман Холлерит изобрел вычислительную машину, которая могла считывать отверстия, пробитые в бумажных карточках, для организации данных.

Первый крупный проект, связанный с обработкой большого количества данных, был создан в 1937 году администрацией президента США Франклина Д. Рузвельта. После принятия в 1937 закона «О социальном обеспечении», правительство было вынуждено вести учет выплат от 26 миллионов американцев и трех миллионов работодателей. Американская IT-компания IBM получила контракт на разработку машины для чтения перфокарт для этого масштабного проекта по сбору и обработке данных.

Первая машина для обработки данных появилась в 1943 и была разработана британцами для декодирования нацистского кода шифрования во время Второй Мировой войны. Это устройство, получившее имя «Колосс», искало закономерности в перехваченных сообщениях противника со скоростью 5.000 символов в секунду. Таким образом, решение задачи расшифровки сокращалось с нескольких недель до считанных часов.

В 1952 году было основано Национальное агентство безопасности (National Security Agency, NSA) и в течение 10 лет для работы на него было нанято более двенадцати тысяч криптографов. Сотрудники агентства столкнулись с информационной перегрузкой во время Холодной войны, когда они начали собирать и автоматически обрабатывать перехваченные сигналы разведки.

В 1965 году правительство Соединенных Штатов решило построить первый центр обработки данных для хранения более 742 миллионов налоговых деклараций и 175 миллионов наборов отпечатков пальцев, передав все эти записи на магнитную компьютерную ленту, которая должна была храниться в одном месте. Позже было решено отказаться от проекта из-за страха мысли о создании «Большого Брата», но этот проект остается общепризнанным началом эры хранения информации в электронном виде.

В 1989 британский специалист в области информатики Тим Бернерс-Ли изобрел всемирную паутину. Он хотел облегчить обмен информацией через систему «ГиперТекст» и в тот момент не представлял, какое влияние на развитие анализа данных и всего общества окажет его изобретение.

С 90-х годов данных создается все больше и больше, поскольку все больше и больше устройств подключаются к интернету. В 1995 году был построен первый суперкомпьютер, который выполнял столько вычислительных операций за секунду, сколько человек, использующий калькулятор, мог бы сделать за 30 000 лет.

В 2005 году Роджер Дуглас из O'Reilly Media впервые ввел термин Big Data, всего через год после того, как они создали термин Web 2.0. Введенный Дугласом термин относится к большому набору данных, которыми практически невозможно управлять и обрабатывать с помощью традиционных инструментов бизнес-аналитики. По мере того, как появляется все большее количество социальных сетей (что способствует развитию Web 2.0), количество создаваемых ежедневно данных также быстро возрастает.

Инновационные стартапы медленно начинают задействовать этот огромный объем данных. Правительства разных государств также начинают работать над проектами, в основе которых лежит технология больших данных. В 2009 году индийское правительство решило провести сканирование радужной оболочки глаза, отпечатков пальцев и сфотографировать все 1,2 миллиарда жителей Тиса. Теперь все эти данные хранятся в самой большой биометрической базе данных в мире.

В 2010 году Эрик Шмидт в своей речи на конференции «Techonomy» в Лейк Тахо, Калифорния, сказал: «С рассвета цивилизации до 2003 года во всем мире было создано 5 экзабайт информации. В наши дни такое же количество данных создается каждые два дня»

В 2011 году в докладе McKinsey "Большие данные: следующий рубеж для инноваций, конкуренции и производительности" говорится, что в 2018 году только в США дефицит специалистов по обработке данных составит 140.000 – 190.000, а недостаток менеджеров данных - 1,5 миллиона.

В последние несколько лет наблюдается значительный подъем стартапов, основывающихся на использовании Big Data, целью которых было научиться эффективнее обращаться с большими данными и помочь организациям понять эту технологию. Благодаря им все большее количество компаний принимают и идут навстречу Big Data. Так или иначе, хоть кажется, что большие данные существуют уже давно, на самом деле большим данным предстоит такой же путь развития, какой ожидал интернет в 1993 году. Большая революция Big Data все еще впереди, поэтому многое изменится в ближайшие годы.

2019-12-29

249

Обсуждений (0)

0.00 из 5.00 0 оценок

12 3 4

Обсуждение в статье: История Больших данных

Обсуждений еще не было, будьте первым... ↓↓↓