Pandas

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
pandas
Pandas logo.png
Тип

Библиотека для языка Python

Автор

Уэс Мак-Кинни[d]

Разработчик

Сообщество

Написана на

Python

Операционная система

Кроссплатформенное программное обеспечение

Последняя версия

0.19.2[1] (24 декабря 2016 года)

Лицензия

BSD

Сайт

pandas.pydata.org

pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.[2] Pandas предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации. Pandas распространяется под новой лицензией BSD[3].

Область применения[править | править вики-текст]

Несмотря на то, что Python в течение долгого времени успешно применяется для очистки[4] и подготовки данных, его использование при проведении анализа и моделирования затруднено. Зачастую требуется выполнять часть задач при помощи инструментов, отражающих специфику предметной области, таких как язык R. Возможности pandas восполняют описанный недостаток, позволяя полностью проводить все этапы анализа информации на Python.

Сейчас в pandas реализована лишь малая часть возможностей моделирования, однако работа в данном направлении находится в приоритете. На данный момент разработчики рекомендуют обратить внимание на такие пакеты, как statsmodels и Scikit-learn.

Возможности[править | править вики-текст]

Основные возможности библиотеки:[5]

  • Объект DataFrame для манипулирования индексированными массивами двумерных данных
  • Инструменты для обмена данными между структурами в памяти и файлами различных форматов
  • Встроенные средства совмещения данных и способы обработки отсутствующей информации
  • Переформатирование наборов данных, в том числе создание сводных таблиц
  • Срез данных по значениям индекса, расширенные возможности индексирования, выборка из больших наборов данных
  • Вставка и удаление столбцов данных
  • Возможности группировки позволяют выполнять трёхэтапные операции типа «разделение, изменение, объединение» (англ. split-apply-combine).
  • Слияние и объединение наборов данных
  • Иерархическое индексирование позволяет работать с данными высокой размерности в структурах меньшей размерности
  • Работа с временными рядами: формирование временных периодов и изменение интервалов и т. д.

Библиотека оптимизирована для высокой производительности, наиболее важные части кода написаны на Cython и C.[6]

История[править | править вики-текст]

Нуждаясь в быстром и гибком инструменте для количественного анализа финансовой информации, Уэс Мак-Кинни приступил к созданию pandas в 2008 году в компании AQR Capital Management. Перед уходом из AQR ему удалось убедить руководство позволить опубликовать исходный код библиотеки под свободной лицензией.

Другой работник компании, Чан Шэ, присоединился к проекту в 2012 году, став вторым главным разработчиком библиотеки. Примерно в то же время библиотека набрала популярность в среде Python-разработчиков, и к проекту присоединилось множество новых участников. Pandas считается одной из наиболее динамично развивающихся библиотек для анализа данных на Python.[источник не указан 541 день]

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]