Наука о данных: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м Перемещение 2 интервики-ссылок в Викиданные (d:Q2374463)
Нет описания правки
Строка 8: Строка 8:
Однако, только 1990-е годы термин, обозначающий дисциплину, получил широкое употребление{{Sfn|Журавлёва|2012|loc=«По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники»}}{{Sfn|Смит|2006|p=164}}, и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в [[Университет Пердью|Университете Пердью]]), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы{{Sfn|Кливленд|2001}}{{Sfn|Пресс|2012|loc=The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”}}.
Однако, только 1990-е годы термин, обозначающий дисциплину, получил широкое употребление{{Sfn|Журавлёва|2012|loc=«По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники»}}{{Sfn|Смит|2006|p=164}}, и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в [[Университет Пердью|Университете Пердью]]), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы{{Sfn|Кливленд|2001}}{{Sfn|Пресс|2012|loc=The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”}}.


В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименовании дисциплины, а в январе 2003 года вышел первый номер [[The Journal of Data Science]] [[Колумбийский университет|Колумбийского университета]].
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер [[The Journal of Data Science]] [[Колумбийский университет|Колумбийского университета]].


Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «[[Большие данные|больших данных]]», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года [[O’Reilly Media|O’Reilly]] проводит серию крупных конференций по науке о данных — Strata<ref>{{cite web
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «[[Большие данные|больших данных]]», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года [[O’Reilly Media|O’Reilly]] проводит серию крупных конференций по науке о данных — Strata<ref>{{cite web

Версия от 14:55, 6 октября 2013

Наука о данных (англ. data science, иногда «даталогия» — datalogy[1]) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет традиционные методы информатики по проектированию и разработке баз данных, обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными.

Рассматривается как академическая[2] и как практическая дисциплина, притом специализация «учёного по данным» (англ. data scientist) с начала 2010-х годов считается одной из самых привлекательных и перспективных профессий[3][4].

История

Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA)[5], а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний[6] (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х[7]).

Однако, только 1990-е годы термин, обозначающий дисциплину, получил широкое употребление[8][5], и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы[9][10].

В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.

Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata[11], корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных[12].

В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных (англ. sexual) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях[13][4].

С 2013 учебного года Университет Данди и Оклендский университет запускают магистерские программы по науке о данных, а бизнес-школа Имперский колледж Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management)[14].

Содержание

В курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera выделены следующие разделы[15]:

Блок науки о данных программы подготовке магистров по науке о данных и менеджменту Императорского колледжа включает подготовительный курс «продвинутой статистики» (англ. advanced statistics, непосредственно в курс по науке о данных входят следующие дисциплины:

После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками, управление активами и производные финансовые инструменты, а в консалтинговый — обработка больших массивов данных (англ. large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике.[14]

Программа Университета Данди включает делает упор на «большие данные», прежде всего, в противовес табличным данным, и фокусируется на интеллектуальном анализе данных, моделировании баз данных и хранилищ, статистике, в рамках программы изучаются языки SQL, MDX, R, Erlang, Java, инструменты Hadoop и NoSQL[16].

Примечания

  1. Пресс, 2012, The term “data science” (together with “Datalogy”)….
  2. Смит, 2006.
  3. Дэвенпорт, 2012.
  4. 1 2 Пресс, 2012.
  5. 1 2 Смит, 2006, p. 164.
  6. Наур, 1974, «Data science is the science of dealing with data, once they have been established, while the relation of data to what they represent is delegated to other fields and sciences».
  7. Пресс, 2012, The term “data science” (together with “Datalogy”) was first suggested by Peter Naur in the late 1960s.
  8. Журавлёва, 2012, «По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники».
  9. Кливленд, 2001.
  10. Пресс, 2012, The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”.
  11. Archive of Past O’Reilly Conferences (англ.). O'Reilly Media (2012). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
  12. Simon Piff. Notes from the Data Science Summit: Making Sense of Big Data (англ.). Document at a Glance. IDC (1 июля 2012). Дата обращения: 8 декабря 2012. Архивировано 27 января 2013 года.
  13. Дэвенпорт, 2012, «Goldman is a good example of a new key player in organizations: the „data scientist.“ It’s a high-ranking professional with the training and curiosity to make discoveries in the world of big data».
  14. 1 2 MSc Data Science & Management (англ.). Business School. Imperial College (1 января 2013). Дата обращения: 18 января 2013. Архивировано 29 января 2013 года.
  15. Bill Howe. Introduction to Data Science. Coursera (8 декабря 2012). Дата обращения: 8 декабря 2012.
  16. MSc in Data Science (англ.). School of Computing. Dundee University (1 января 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения: 18 января 2013. Архивировано 22 января 2013 года.

Литература

  • Наур, Петер. 1.8. A Basic Principle of Data Science // Concise Survey of Computer Methods. — Lund, 1974. — 397 p. — (Studentlitteratur). — ISBN 91-44-07881-1.
  • William S. Cleveland. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics (англ.) // International Statistical Review : Journal. — Willey & Sons, 2001. — Vol. 69, issue 1. — P. 21–26. — ISSN 1751-5823. — doi:10.1111/j.1751-5823.2001.tb00477.x.
  • Е. Ю. Журавлёва. Эпистемический статус цифровых данных в современных научных исследованиях. Вопросы философии, №2, 2012, с. 113—123 (1 марта 2012). Дата обращения: 4 декабря 2012. Архивировано 27 января 2013 года.
  • Mike Lukides. What is data science? The future belongs to the companies and people that turn data into products (англ.). Radar. O’Reilly Media (2 июня 2010). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
  • Steve Lohr. For Today’s Graduate, Just One Word: Statistics (англ.). The New York Times (5 августа 2009). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
  • F. Jack Smith. Data Science as An Academic Discipline (англ.). Data Science Journal, Volume 5, 19, p. 163—164. CODADA (19 октября 2006). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
  • Thomas H. Davenport, D. J. Patil. Data Scientist: The Sexiest Job of the 21st Century (англ.). Harvard Business Review. Harvard University Press (1 октября 2012). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
  • Gil Press. Data Scientists: The Definition of Sexy (англ.). Forbes (27 сентября 2012). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.