Большие данные: различия между версиями

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Версия от 12:46, 28 декабря 2011

Большие Данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения человеко-читаемых результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениями класса Business Intelligence^[1]^[2]^[3]. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop^[4].

В качестве определяющих характеристик для Больших Данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструтурированных данных)^[5]^[6].

История

Введение термина «Большие Данные» относят к Клиффорду Линчу, редактору журнала Nature, подготовившему к 3 сентября 2008 года специальный номера журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда»^[7]^[8].

Несмотря на то, что термин вводился в академической среде, и прежде всего, разбиралась проблема роста и многообрзия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки Больших Данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о Больших Данных, в том числе IBM^[9], Oracle^[10], Microsoft^[11], Hewlett-Packard^[12], EMC^[13], а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования^[5]^[14]^[15]^[16].

В 2011 году Gartner отмечает Большие Данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг)^[17]. Прогнозируется, что внедрение технологий Больших Данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов^[18].

Источники

В качестве примеров источников возникновения Больших Данных приводятся^[19]^[20] непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов, потоки сообщений из социальных сетей, метеорологические данные, данные дистанционного зондирования земли, потоки данные о местонахождении абонентов сетей сотовой связи, устройств аудио- и видеорегистрации. Развитие и начало широкого использования этих источников отмечается как триггер для проникновения технологий Больших Данных как в научно-исследовательскую деятельность, так и в коммерческий сектор и сферу государственного управления.

Методы анализа

Методы и техники анализа, применимые к Большим Данным, выделеные в отчёте McKinsey^[21]:

Методы класса Data Mining: обучение ассоциативным правилам (англ. association rule learning), классификация (методы категоризации новых данных на основе принципов категоризации, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ;
Краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц, привлечённых на основании публичной оферты, без вступления в трудовые отношения;
Смешение и интеграция данных (англ. data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа, в качестве примеров таких техник, составляющих этот класс методов приводятся цифровая обработка сигналов и обработка естественного языка (включая тональный анализ;
Машинное обучение, включая обучение с учителем и без учителя, а также не указано название статьи — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей (англ. constituent models, ср. со статистическим анcамблем в статистической механике);
Искусственные нейронные сети, cетевой анализ, оптимизация, в том числе генетические алгоритмы;
Распознавание образов;
Прогнозная аналитика;
Имитационное моделирование;
Пространственный анализ (англ. Spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию в данных;
Статистический анализ, в качестве примеров методов приводятся A/B-тестирование и анализ временных рядов;
Визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Технологии

Наиболее часто указывают в качестве базового принципа обработки Больших Данных в SN-архитектуру (англ. Shared Nothing Architecture), обеспечивающую массивно-параллельную обработку, масштабируемую без деградации на сотни и тысячи узлов обработки^{[источник не указан 4549 дней]}. При этом, McKinsey, кроме рассматриваемых большинством аналитиков технологий NoSQL, MapReduce, Hadoop, R, включает в контекст применимости для обработки больших данных также технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL^[22].

NoSQL

MapReduce

Hadoop

R

Аппаратные решения

Также существует ряд аппаратно программных комплексов, предоставляющих предконфигурированные решения для обработки больших данных — Aster MapReduce appliance (корпорации Teradata), Oracle Big Data appliance, Greenplum appliance (корпорации EMC, на основе решений поглощённой компании Greenplum). Эти комплексы поставляются как готовые к установке в центры обработки данных телекоммуникационные шкафы, содержащие кластер серверов и управляющее программное обеспечение для массово-параллельной обработки.

Аппаратные решения для аналитической обработки в оперативной памяти, в частности, предлагаемой аппаратно-программными комплексами SAP HANA (предконфигурированное аппаратно-программное решение для аналитической системы не указано название статьи) и Oracle Exalytics (на основе реляционной системы не указано название статьи и многомерной Essbase), также иногда относят к решениям из области проблематики Больших Данных^[23]^[24], несмотря на то, что такая обработка изначально не является массово-параллельной, а объёмы оперативной памяти одного узла ограничиваются несколькими терабайтами.

Кроме того, иногда к решениям для Больших Данных относят и аппаратно-программные комплексы на основе традиционных реляционных систем управления базами данных — Netezza, Teradata, Exadata, как способные эффективно обрабатывать терабайты и экзабайты структурированной информации, решая задачи быстрой поисковой и аналитической обработки огромных объёмов структурированных данных. Отмечается, что первыми массово-параллельными аппаратно-программными решениями для обработки сверхбольших объёмов данных были машины компаний не указано название статьи, впервые выпущенные в 1983 году, и Teradata (начали выпускаться в 1984 году, притом в 1990 году Teradata поглотила Britton Lee)^[25].

Аппаратные решения DAS — систем хранения данных, напрямую присоединённых к узлам — в условиях независимости узлов обработки в SN-архитектуре также иногда относят к технологиям Больших Данных. Именно с появлением концепции Больших Данных связывают всплеск интереса к DAS-решениям в начале 2010-х годов, после вытеснения их в 2000-е годы сетевыми решениями классов NAS и SAN^[26].

Примечания

↑ Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.
↑ PwC, 2010, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами., с. 42.
↑ McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.
↑ PwC, 2010, К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными, с. 42.
↑ ¹ ² Gartner, 2011.
↑ Канаракус, Крис. Машина Больших Данных (рус.). Сети, № 04, 2011. Открытые системы (1 ноября 2011). — «…большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов)». Дата обращения: 12 ноября 2011.
↑ Черняк, 2011, Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» […] осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Нефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.
↑ Пример употребления метафоры Big Oil (англ.), ср. также повесть «Большая руда», фильм «Большая нефть»
↑ Дубова, Наталья. Большая конференция о Больших Данных (рус.). Открытые системы (3 ноября 2011). — «На форуме IBM Information on Demand, собравшем более 10 тыс. участников, центральной темой стала аналитика Больших Данных». Дата обращения: 12 ноября 2011.
↑ Henschen, Doug. Oracle Releases NoSQL Database, Advances Big Data Plans (англ.). InformationWeek (24 октября 2011). Дата обращения: 12 ноября 2011.
↑ Finley, Klint. Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup (англ.). ReadWriteWeb (17 июля 2011). Дата обращения: 12 ноября 2011.
↑ Шах, Агам. HP меняет персональные компьютеры на Большие Данные (неопр.). Открытые системы (19 августа 2011). Дата обращения: 12 ноября 2011.
↑ EMC Tries To Unify Big Data Analytics (англ.). InformationWeek (21 сентября 2011). Дата обращения: 12 ноября 2011.
↑ Woo, Benjamin et al. IDC's Worldwide Big Data Taxonomy (англ.). International Data Corporation (1 октября 2011). Дата обращения: 12 ноября 2011.
↑ Evelson, Boris and Hopkins, Brian. How Forrester Clients Are Using Big Data (англ.). Forrester Research (20 сентября 2011). Дата обращения: 12 ноября 2011.
↑ McKinsey, 2011.
↑ Thibodeau, Patrick. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data (англ.). Computerworld (18 октября 2011). Дата обращения: 12 ноября 2011.
↑ Черняк, 2011, По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.
↑ McKinsey, 2011, pp. 7—8.
↑ Черняк, 2011.
↑ McKinsey, 2011, pp. 27—31.
↑ McKinsey, 2011, pp. 31—33.
↑ Черняк, 2011, Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.
↑ Darrow, Barb. Oracle launches Exalytics, an appliance for big data (англ.). GigaOM (2 октября 2011). Дата обращения: 12 ноября 2011.
↑ Черняк, 2011, …первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных.
↑ Черняк, Леонид. Большие данные возрождают DAS (рус.). «Computerworld Россия» , № 14, 2011. Открытые системы (5 мая 2011). Дата обращения: 12 ноября 2011.

Литература

Preimesberger, Chris Hadoop, Yahoo, 'Big Data' Brighten BI Future (англ.). EWeek (15 августа 2011). Дата обращения: 12 ноября 2011.
Черняк, Леонид. Большие Данные — новая теория и практика (рус.) // Открытые системы. СУБД. — М.: Открытые системы, 2011. — № 10. — ISSN 1028-7493.
Моррисон, Алан и др. Большие Данные: как извлечь из них информацию (рус.). Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3. PricewaterhouseCoopers (17 декабря 2010). Дата обращения: 12 ноября 2011.
Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data (англ.). Gartner (27 июня 2011). Дата обращения: 12 ноября 2011.
Manyika, James et al. Big data: The next frontier for innovation, competition, and productivity (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 августа 2011). Дата обращения: 12 ноября 2011.

Ссылки

[_31d4021a625b47d5-1] Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.

[_9ba417de453fb580-2] PwC, 2010, Термин «большие данные» характеризует совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами., с. 42.

[_31aab35709d145e2-3] McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.

[_9dbaad66cc5be1e5-4] PwC, 2010, К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными, с. 42.

[_131b942582c7ca60-5] ¹ ² Gartner, 2011.

[kanarakus-6] Канаракус, Крис. Машина Больших Данных (рус.). Сети, № 04, 2011. Открытые системы (1 ноября 2011). — «…большие данные как «три V»: volume («объем» — петабайты хранимых данных), velocity («скорость» — получение данных, преобразование, загрузка, анализ и опрос в реальном времени) и variety («разнообразие» — обработка структурированных и полуструктурированных данных различных типов)». Дата обращения: 12 ноября 2011.

[_2fa7884f6a65e7ba-7] Черняк, 2011, Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?» […] осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Нефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.

[8] Пример употребления метафоры Big Oil (англ.), ср. также повесть «Большая руда», фильм «Большая нефть»

[9] Дубова, Наталья. Большая конференция о Больших Данных (рус.). Открытые системы (3 ноября 2011). — «На форуме IBM Information on Demand, собравшем более 10 тыс. участников, центральной темой стала аналитика Больших Данных». Дата обращения: 12 ноября 2011.

[10] Henschen, Doug. Oracle Releases NoSQL Database, Advances Big Data Plans (англ.). InformationWeek (24 октября 2011). Дата обращения: 12 ноября 2011.

[11] Finley, Klint. Steve Ballmer on Microsoft's Big Data Future and More in This Week's Business Intelligence Roundup (англ.). ReadWriteWeb (17 июля 2011). Дата обращения: 12 ноября 2011.

[12] Шах, Агам. HP меняет персональные компьютеры на Большие Данные (неопр.). Открытые системы (19 августа 2011). Дата обращения: 12 ноября 2011.

[13] EMC Tries To Unify Big Data Analytics (англ.). InformationWeek (21 сентября 2011). Дата обращения: 12 ноября 2011.

[14] Woo, Benjamin et al. IDC's Worldwide Big Data Taxonomy (англ.). International Data Corporation (1 октября 2011). Дата обращения: 12 ноября 2011.

[15] Evelson, Boris and Hopkins, Brian. How Forrester Clients Are Using Big Data (англ.). Forrester Research (20 сентября 2011). Дата обращения: 12 ноября 2011.

[_b4fe06948fcc5fa0-16] McKinsey, 2011.

[17] Thibodeau, Patrick. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data (англ.). Computerworld (18 октября 2011). Дата обращения: 12 ноября 2011.

[_4c048b045687e42c-18] Черняк, 2011, По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.

[_bd755fb7b57abd99-19] McKinsey, 2011, pp. 7—8.

[_e7282cede1a1c243-20] Черняк, 2011.

[_fec15318ac7f8c5d-21] McKinsey, 2011, pp. 27—31.

[_2b3f7525ed0930e8-22] McKinsey, 2011, pp. 31—33.

[_4362865f4036e872-23] Черняк, 2011, Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.

[24] Darrow, Barb. Oracle launches Exalytics, an appliance for big data (англ.). GigaOM (2 октября 2011). Дата обращения: 12 ноября 2011.

[_25402cdb23d93e83-25] Черняк, 2011, …первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных.

[26] Черняк, Леонид. Большие данные возрождают DAS (рус.). «Computerworld Россия» , № 14, 2011. Открытые системы (5 мая 2011). Дата обращения: 12 ноября 2011.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

@@ Строка 166: / Строка 166: @@
  |accessdate  = 2011-11-12
  |lang        = en
- |ref         = Праймесбергер
+ |ref         = Праймесбергер2011
 }}
 * {{статья
@@ Строка 195: / Строка 195: @@
  |accessdate  = 2011-11-12
  |lang        = ru
- |ref         = PwC
+ |ref         = PwC2010
 }}
 * {{cite web
@@ Строка 206: / Строка 206: @@
  |accessdate  = 2011-11-12
  |lang        = en
- |ref         = Gartner
+ |ref         = Gartner2011
 }}
 * {{cite web
@@ Строка 218: / Строка 218: @@
  |lang        = en
  |format      = PDF
- |ref         = McKinsey
+ |ref         = McKinsey2011
 }}

Большие данные: различия между версиями

Версия от 12:46, 28 декабря 2011

Содержание

История

Источники

Методы анализа

Технологии

NoSQL

MapReduce

Hadoop

R

Аппаратные решения

Примечания

Литература

Ссылки

Навигация

Большие данные: различия между версиями

Версия от 12:46, 28 декабря 2011

История

Источники

Методы анализа

Технологии

NoSQL

MapReduce

Hadoop

R

Аппаратные решения

Примечания

Литература

Ссылки

Навигация

Поиск