Наука о данных

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Наука о данных (англ. data science, иногда «даталогия» — datalogy[1]) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Рассматривается как академическая дисциплина[2], а с начала 2010-х годов, во многом благодаря популяризации концепции «больших данных»[3], — и как практическая межотраслевая сфера деятельности, притом специализация «учёного по данным» (англ. data scientist) с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий[4][5].

История[править | править вики-текст]

Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA)[6], а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний[7] (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х[8]).

Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление[9][6], и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы[10][11].

В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.

Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata[12], корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных[13]. McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов[14], в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ[15].

В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных (англ. sexy) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях[16][5].

С 2013 учебного года Университет Данди, Оклендский университет, Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management)[17]. В том же году Вашингтонский университет, Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут, в том числе, выстроить учебные программы и создать возможности для академической карьеры в данной области[18].

Содержание[править | править вики-текст]

Диаграмма Конвея, дающая представления о навыках, необходимых для специалиста по науке о данных.

Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных[19], извлечение знаний из данных в обобщённой форме[20]. Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна[21], на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта (англ. substantive expertise), практического опыта в информационных технологиях (hacking skills) и знания математической статистики[22].

В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления[23]. В сравнении с классической статистикой, на методах которой во многом основывается и наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку[24]. В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных, отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами)[25].

Академические программы[править | править вики-текст]

В курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera выделены следующие разделы[26]:

Блок науки о данных программы магистерской программы по «науке о данных и менеджменту» Императорского колледжа включает подготовительный курс «продвинутой статистики» (англ. advanced statistics), непосредственно в курс по науке о данных входят следующие дисциплины:

После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками, управление активами и производные финансовые инструменты, а в консалтинговый — обработка больших массивов данных (англ. large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике.[17]

Программа Университета Данди делает упор на «большие данные», прежде всего, в противовес «табличной обработке», и фокусируется на интеллектуальном анализе данных, моделировании баз данных и хранилищ, статистике, в рамках программы изучаются языки SQL, MDX, R, Erlang, Java, инструменты Hadoop и NoSQL[27].

Примечания[править | править вики-текст]

  1. Пресс, 2012, The term “data science” (together with “Datalogy”)…
  2. Смит, 2006
  3. Дхар, 2003
  4. Дэвенпорт, 2012
  5. 1 2 Пресс, 2012
  6. 1 2 Смит, 2006, p. 164
  7. Наур, 1974, «Data science is the science of dealing with data, once they have been established, while the relation of data to what they represent is delegated to other fields and sciences»
  8. Пресс, 2012, The term “data science” (together with “Datalogy”) was first suggested by Peter Naur in the late 1960s
  9. Журавлёва, 2012, «По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники»
  10. Кливленд, 2001
  11. Пресс, 2012, The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”
  12. Archive of Past O’Reilly Conferences (англ.). O'Reilly Media (2012). Проверено 2 января 2013. Архивировано из первоисточника 27 января 2013.
  13. Simon Piff. Notes from the Data Science Summit: Making Sense of Big Data (англ.). Document at a Glance. IDC (1 July 2012). Проверено 8 декабря 2012. Архивировано из первоисточника 27 января 2013.
  14. Manyika, James et al. Big data: The next frontier for innovation, competition, and productivity (англ.) (PDF). McKinsey Global Institute, June, 2011. McKinsey (9 August 2011). Проверено 12 ноября 2011. Архивировано из первоисточника 11 декабря 2012.
  15. Steven Overly. As demand for big data analysts grows, schools rush to graduate students with necessary skills (англ.). Washington Post (16 September 2013). — «That demand was spelled out in a June 2011 report from the McKinsey Global Institute»  Проверено 31 декабря 2013.
  16. Дэвенпорт, 2012, «Goldman is a good example of a new key player in organizations: the „data scientist.“ It’s a high-ranking professional with the training and curiosity to make discoveries in the world of big data»
  17. 1 2 MSc Data Science & Management (англ.). Business School. Imperial College (1 January 2013). Проверено 18 января 2013. Архивировано из первоисточника 29 января 2013.
  18. UW, Berkeley, NYU collaborate on $37.8M data science initiative (англ.). University of Washington (12 November 2013). Проверено 31 декабря 2013.
  19. Жуков, 2013, с. 5
  20. Дхар, 2013, Data science is the study of the generalizable extraction of knowledge from data
  21. Впервые опубликована Дрю Конвеем (Drew Conway) в 2010 году
  22. Жуков, 2013
  23. Дхар, 2013, A common epistemic requirement in assessing whether new knowledge is actionable for decision making is its predictive power, not just its ability to explain the past
  24. Дхар, 2013, The short answer is data science is different from statistics <…> in several important ways <…> To start, the raw material, the “data”, part of data science, is increasingly heterogeneous and unstructured — text, images, video — often emanating from networks with complex relationships between their entities <…> most data generated by humans and computers today is for consumption by computers; that is, computers increasingly do background work for each other and make decisions automatically. This scalability in decision making has become possible because of big data that serves as the raw material for the creation of new knowledge
  25. Жуков, 2013, с. 8
  26. Bill Howe. Introduction to Data Science. Coursera (8 декабря 2012). Проверено 8 декабря 2012.
  27. MSc in Data Science (англ.). School of Computing. Dundee University (1 January 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)»  Проверено 18 января 2013. Архивировано из первоисточника 22 января 2013.

Литература[править | править вики-текст]