Наука о данных: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
EmausBot (обсуждение | вклад) м Перемещение 2 интервики-ссылок в Викиданные (d:Q2374463) |
Нет описания правки |
||
Строка 8: | Строка 8: | ||
Однако, только 1990-е годы термин, обозначающий дисциплину, получил широкое употребление{{Sfn|Журавлёва|2012|loc=«По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники»}}{{Sfn|Смит|2006|p=164}}, и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в [[Университет Пердью|Университете Пердью]]), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы{{Sfn|Кливленд|2001}}{{Sfn|Пресс|2012|loc=The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”}}. |
Однако, только 1990-е годы термин, обозначающий дисциплину, получил широкое употребление{{Sfn|Журавлёва|2012|loc=«По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники»}}{{Sfn|Смит|2006|p=164}}, и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в [[Университет Пердью|Университете Пердью]]), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы{{Sfn|Кливленд|2001}}{{Sfn|Пресс|2012|loc=The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”}}. |
||
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии |
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер [[The Journal of Data Science]] [[Колумбийский университет|Колумбийского университета]]. |
||
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «[[Большие данные|больших данных]]», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года [[O’Reilly Media|O’Reilly]] проводит серию крупных конференций по науке о данных — Strata<ref>{{cite web |
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «[[Большие данные|больших данных]]», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года [[O’Reilly Media|O’Reilly]] проводит серию крупных конференций по науке о данных — Strata<ref>{{cite web |
Версия от 14:55, 6 октября 2013
Наука о данных (англ. data science, иногда «даталогия» — datalogy[1]) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет традиционные методы информатики по проектированию и разработке баз данных, обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными.
Рассматривается как академическая[2] и как практическая дисциплина, притом специализация «учёного по данным» (англ. data scientist) с начала 2010-х годов считается одной из самых привлекательных и перспективных профессий[3][4].
История
Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA)[5], а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний[6] (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х[7]).
Однако, только 1990-е годы термин, обозначающий дисциплину, получил широкое употребление[8][5], и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы[9][10].
В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.
Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata[11], корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных[12].
В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных (англ. sexual) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях[13][4].
С 2013 учебного года Университет Данди и Оклендский университет запускают магистерские программы по науке о данных, а бизнес-школа Имперский колледж Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management)[14].
Этот раздел не завершён. |
Содержание
В курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera выделены следующие разделы[15]:
- модели данных: отношения, ключ-значение, деревья, графы, изображения, тексты;
- реляционная алгебра и параллельное выполнение запросов;
- NoSQL-системы и хранилища «ключ-значение»;
- компромиссы между SQL-, NoSQL- и NewSQL-системами;
- проектирование алгоритмов для Hadoop (и для MapReduce в общем случае);
- базовый статистический анализ: семплирование, регрессии;
- введение в data mining: кластеризация, ассоциативные правила, деревья решений;
- приложения: социальные сети, биоинформатика, анализ текста.
Блок науки о данных программы подготовке магистров по науке о данных и менеджменту Императорского колледжа включает подготовительный курс «продвинутой статистики» (англ. advanced statistics, непосредственно в курс по науке о данных входят следующие дисциплины:
- машинное обучение;
- системы управления базами данных;
- инженерия программного обеспечения;
- анализ данных (англ. intelligent data) и вероятностный вывод (англ. probabilistic infernence), в описании дисциплины даются ссылки на байесовский вывод и алгоритмические методы моделирования, классификации и дискриминантного анализа данных на его основе;
- вероятностные модели и продвинутая статистика.
После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками, управление активами и производные финансовые инструменты, а в консалтинговый — обработка больших массивов данных (англ. large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике.[14]
Программа Университета Данди включает делает упор на «большие данные», прежде всего, в противовес табличным данным, и фокусируется на интеллектуальном анализе данных, моделировании баз данных и хранилищ, статистике, в рамках программы изучаются языки SQL, MDX, R, Erlang, Java, инструменты Hadoop и NoSQL[16].
Примечания
- ↑ Пресс, 2012, The term “data science” (together with “Datalogy”)….
- ↑ Смит, 2006.
- ↑ Дэвенпорт, 2012.
- ↑ 1 2 Пресс, 2012.
- ↑ 1 2 Смит, 2006, p. 164.
- ↑ Наур, 1974, «Data science is the science of dealing with data, once they have been established, while the relation of data to what they represent is delegated to other fields and sciences».
- ↑ Пресс, 2012, The term “data science” (together with “Datalogy”) was first suggested by Peter Naur in the late 1960s.
- ↑ Журавлёва, 2012, «По мнению Ф. Д. Смита, наука о данных до 1990 г. не имела названия, а начала развиваться с 1966 г., когда был учрежден междисциплинарный комитет Международного совета науки по данным для науки и техники».
- ↑ Кливленд, 2001.
- ↑ Пресс, 2012, The term “data science” ... was proposed by William S. Cleveland in 2001 as a new academic discipline, extending the field of statistics to incorporate “advances in computing with data.”.
- ↑ Archive of Past O’Reilly Conferences (англ.). O'Reilly Media (2012). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
- ↑ Simon Piff. Notes from the Data Science Summit: Making Sense of Big Data (англ.). Document at a Glance. IDC (1 июля 2012). Дата обращения: 8 декабря 2012. Архивировано 27 января 2013 года.
- ↑ Дэвенпорт, 2012, «Goldman is a good example of a new key player in organizations: the „data scientist.“ It’s a high-ranking professional with the training and curiosity to make discoveries in the world of big data».
- ↑ 1 2 MSc Data Science & Management (англ.). Business School. Imperial College (1 января 2013). Дата обращения: 18 января 2013. Архивировано 29 января 2013 года.
- ↑ Bill Howe. Introduction to Data Science . Coursera (8 декабря 2012). Дата обращения: 8 декабря 2012.
- ↑ MSc in Data Science (англ.). School of Computing. Dundee University (1 января 2013). — «A data scientist is a person who excels at manipulating and analysing data, particularly large data sets that don’t fit easily into tabular structures (so-called “Big Data”)». Дата обращения: 18 января 2013. Архивировано 22 января 2013 года.
Литература
- Наур, Петер. 1.8. A Basic Principle of Data Science // Concise Survey of Computer Methods. — Lund, 1974. — 397 p. — (Studentlitteratur). — ISBN 91-44-07881-1.
- William S. Cleveland. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics (англ.) // International Statistical Review : Journal. — Willey & Sons, 2001. — Vol. 69, issue 1. — P. 21–26. — ISSN 1751-5823. — doi:10.1111/j.1751-5823.2001.tb00477.x.
- Е. Ю. Журавлёва. Эпистемический статус цифровых данных в современных научных исследованиях . Вопросы философии, №2, 2012, с. 113—123 (1 марта 2012). Дата обращения: 4 декабря 2012. Архивировано 27 января 2013 года.
- Mike Lukides. What is data science? The future belongs to the companies and people that turn data into products (англ.). Radar. O’Reilly Media (2 июня 2010). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
- Steve Lohr. For Today’s Graduate, Just One Word: Statistics (англ.). The New York Times (5 августа 2009). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
- F. Jack Smith. Data Science as An Academic Discipline (англ.). Data Science Journal, Volume 5, 19, p. 163—164. CODADA (19 октября 2006). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
- Thomas H. Davenport, D. J. Patil. Data Scientist: The Sexiest Job of the 21st Century (англ.). Harvard Business Review. Harvard University Press (1 октября 2012). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.
- Gil Press. Data Scientists: The Definition of Sexy (англ.). Forbes (27 сентября 2012). Дата обращения: 2 января 2013. Архивировано 27 января 2013 года.