Алгоритм сортировки

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Алгоритм сортировки — это алгоритм для упорядочивания элементов в списке. В случае, когда элемент списка имеет несколько полей, поле, служащее критерием порядка, называется ключом сортировки. На практике в качестве ключа часто выступает число, а в остальных полях хранятся какие-либо данные, никак не влияющие на работу алгоритма.

Формулировка задачи[править | править вики-текст]

Дан массив[1] A из n элементов[2]:

a_1, a_2,\dots, a_n,

Будем считать, что с каждым элементом a_i (помимо другой информации, не влияющей на сортировку) связан ключ k_i\in K. На множестве ключей K задано отношение порядка — линейного (или совершенного) упорядочивания, для которого были бы выполнены следующие условия:

  1. закон трихотомии: для любых x, y\in K либо x < y, либо x > y, либо x = y;
  2. транзитивность: для любых x, y, z\in K если x < y и y < z, то x < z.

Задачей сортировки по неубыванию является нахождение перестановки элементов p(1), p(2),\dots, p(n) с индексами от 1, 2,\dots, n, при которой ключи располагаются в порядке неубывания:

k_{p(1)} \leqslant k_{p(2)} \leqslant \dots \leqslant k_{p(n)}[3]

В результате работы алгоритма и применения перестановки получается отсортированный массив:

a_{p(1)}, a_{p(2)},\dots, a_{p(n)}

Аналогично можно определить сортировку по невозрастанию.

Оценка алгоритма сортировки[править | править вики-текст]

Алгоритмы сортировки оцениваются по скорости выполнения и эффективности использования памяти:

  • Время — основной параметр, характеризующий быстродействие алгоритма. Называется также вычислительной сложностью. Для упорядочения важны худшее, среднее и лучшее поведение алгоритма в терминах мощности входного множества A. Если на вход алгоритму подаётся множество A, то обозначим n = |A|. Для типичного алгоритма хорошее поведение — это O(n log n) и плохое поведение — это O(n2). Идеальное поведение для упорядочения — O(n). Алгоритмы сортировки, использующие только абстрактную операцию сравнения ключей всегда нуждаются по меньшей мере в Ω(n log n) сравнениях. Тем не менее, существует алгоритм сортировки Хана (Yijie Han) с вычислительной сложностью O(n log log n log log log n), использующий тот факт, что пространство ключей ограничено (он чрезвычайно сложен, а за О-обозначением скрывается весьма большой коэффициент, что делает невозможным его применение в повседневной практике). Также существует понятие сортирующих сетей. Предполагая, что можно одновременно (например, при параллельном вычислении) проводить несколько сравнений, можно отсортировать n чисел за O(log2 n) операций. При этом число n должно быть заранее известно;
  • Память — ряд алгоритмов требует выделения дополнительной памяти под временное хранение данных. Как правило, эти алгоритмы требуют O(log n) памяти. При оценке не учитывается место, которое занимает исходный массив и независящие от входной последовательности затраты, например, на хранение кода программы (так как всё это потребляет O(1)). Алгоритмы сортировки, не потребляющие дополнительной памяти, относят к сортировкам на месте.

Оптимальность O(n \log(n))[править | править вики-текст]

Задача сортировки в общем случае предполагает, что единственной обязательно наличествующей операцией для элементов является сравнение. Это делает невозможным реализацию алгоритма Хана, использующего арифметические действия. Рассмотрим схему алгоритма когда единственным возможным действием над элементами является их сравнение.
Пусть по ходу работы алгоритмом производится k сравнений. Ответом на сравнение двух элементов a и b может быть один из двух вариантов (a<b или a>b). Значит, всего возможно 2^k вариантов комбинаций ответов на k вопросов.
Количество перестановок из n элементов равно n!. Для того, чтобы можно было провести сюръекцию из множества ответов на сравнения в множество перестановок, количество сравнений должно быть не меньше, чем \log_2{n!} (это обеспечивается тем, что сравнение — единственная доступная операция).
Прологарифмировав формулу Стирлинга, можно обнаружить, что \log_2{n!}=\log_2{\left( \sqrt{2 \pi n}\left( \frac{n}{e} \right) ^ n \right)}=\log_2{\sqrt{2 \pi n}}+n\log_2{n}-n\log_2{e} \sim n\log_2{n}=O(n\log{n})

Свойства и классификация[править | править вики-текст]

  • Устойчивость (англ. stability) — устойчивая сортировка не меняет взаимного расположения элементов с одинаковыми ключами[3].
  • Естественность поведения — эффективность метода при обработке уже упорядоченных или частично упорядоченных данных. Алгоритм ведёт себя естественно, если учитывает эту характеристику входной последовательности и работает лучше.
  • Использование операции сравнения. Алгоритмы, использующие для сортировки сравнение элементов между собой, называются основанными на сравнениях. Минимальная трудоемкость худшего случая для этих алгоритмов составляет O(n log n), но они отличаются гибкостью применения. Для специальных случаев (типов данных) существуют более эффективные алгоритмы.

Ещё одним важным свойством алгоритма является его сфера применения. Здесь основных типов упорядочения два:

  • Внутренняя сортировка оперирует массивами, целиком помещающимися в оперативной памяти с произвольным доступом к любой ячейке. Данные обычно упорядочиваются на том же месте без дополнительных затрат.
    • В современных архитектурах персональных компьютеров широко применяется подкачка и кэширование памяти. Алгоритм сортировки должен хорошо сочетаться с применяемыми алгоритмами кэширования и подкачки.
  • Внешняя сортировка оперирует запоминающими устройствами большого объёма, но не с произвольным доступом, а последовательным (упорядочение файлов), то есть в данный момент «виден» только один элемент, а затраты на перемотку по сравнению с памятью неоправданно велики. Это накладывает некоторые дополнительные ограничения на алгоритм и приводит к специальным методам упорядочения, обычно использующим дополнительное дисковое пространство. Кроме того, доступ к данным во внешней памяти производится намного медленнее, чем операции с оперативной памятью.
    • Доступ к носителю осуществляется последовательным образом: в каждый момент времени можно считать или записать только элемент, следующий за текущим.
    • Объём данных не позволяет им разместиться в ОЗУ.

Также алгоритмы классифицируются по:

  • потребности в дополнительной памяти или её отсутствию
  • потребности в знаниях о структуре данных, выходящих за рамки операции сравнения, или отсутствию таковой

Список алгоритмов сортировки[править | править вики-текст]

В этой таблице n — это количество записей, которые необходимо упорядочить, а k — это количество уникальных ключей.

Алгоритмы устойчивой сортировки[править | править вики-текст]

  • Сортировка выбором (англ. Selection sort) — поиск наименьшего или наибольшего элемента и помещение его в начало или конец упорядоченного списка. Сложность алгоритма: O(n2).
  • Сортировка пузырьком (англ. Bubble sort) — для каждой пары индексов производится обмен, если элементы расположены не по порядку. Сложность алгоритма: O(n2).
  • Сортировка перемешиванием (англ. Cocktail sort). Сложность алгоритма: O(n2).
  • Гномья сортировка — схожа с сортировкой пузырьком и сортировкой вставками. Сложность алгоритма — O(n2).
  • Сортировка вставками (Insertion sort) — Определяем, где текущий элемент должен находиться в упорядоченном списке, и вставляем его туда. Сложность алгоритма: O(n2).
  • Сортировка слиянием (Merge sort) — выстраиваем первую и вторую половину списка отдельно, а затем объединяем упорядоченные списки. Сложность алгоритма: O(n log n). Требуется O(n) дополнительной памяти.
  • Сортировка с помощью двоичного дерева (англ. Tree sort). Сложность алгоритма: O(n log n). Требуется O(n) дополнительной памяти.
  • Сортировка Timsort (англ. Timsort) — комбинированный алгоритм (используется сортировка вставками и сортировка слиянием). Сложность алгоритма: O(n log n). Требуется O(n) дополнительной памяти. Разработан для использования в языке Python[4].
  • Сортировка подсчётом (Counting sort). Сложность алгоритма: O(n+k). Требуется O(n+k) дополнительной памяти.
  • Блочная сортировка (Корзинная сортировка, Bucket sort) — требуется O(k) дополнительной памяти и знание о природе сортируемых данных, выходящее за рамки функций «переставить» и «сравнить». Сложность алгоритма: O(n).

Алгоритмы неустойчивой сортировки[править | править вики-текст]

  • Сортировка Шелла (Shell sort). сложность алгоритма: O(n \log^2{n}); попытка улучшить сортировку вставками.
  • Сортировка расчёской (Comb sort) — сложность алгоритма: O(n \log{n})
  • Пирамидальная сортировка (сортировка кучи, Heapsort) — сложность алгоритма: O(n \log{n}); превращаем список в кучу, берём наибольший элемент и добавляем его в конец списка
  • Плавная сортировка (Smoothsort) — сложность алгоритма: O(n \log{n})
  • Быстрая сортировка (Quicksort), в варианте с минимальными затратами памяти — сложность алгоритма: O(n \log{n}) — среднее время, O(n^2) — худший случай; широко известен как быстрейший из известных для упорядочения больших случайных списков; с разбиением исходного набора данных на две половины так, что любой элемент первой половины упорядочен относительно любого элемента второй половины; затем алгоритм применяется рекурсивно к каждой половине. При использовании O(n) дополнительной памяти, можно сделать сортировку устойчивой.
  • Интроспективная сортировка (Introsort) — сложность алгоритма: O(n \log{n}), сочетание быстрой и пирамидальной сортировки. Пирамидальная сортировка применяется в случае, если глубина рекурсии превышает \log{n}.
  • Терпеливая сортировка (Patience sorting) — сложность алгоритма: O(n \log{n}) — наихудший случай, требует дополнительно O(n) памяти, также находит самую длинную увеличивающуюся подпоследовательность
  • Stooge sort — рекурсивный алгоритм сортировки с временной сложностью O(n^{\log_{1{,}5}{3}}) \approx O(n^{2.71}).
  • Поразрядная сортировка (она же цифровая сортировка) — сложность алгоритма: O(nk); требуется O(k) дополнительной памяти.

Непрактичные алгоритмы сортировки[править | править вики-текст]

  • Bogosort — O(n·n!) в среднем. Произвольно перемешать массив, проверить порядок.
  • Сортировка перестановкой — O(n·n!) — худшее время. Для каждой пары осуществляется проверка верного порядка и генерируются всевозможные перестановки исходного массива.
  • Глупая сортировка (Stupid sort) — O(n3); рекурсивная версия требует дополнительно O(n2) памяти
  • Bead Sort — O(n) or O(√n), требуется специализированное аппаратное обеспечение
  • Блинная сортировка (Pancake sorting) — O(n), требуется специализированное аппаратное обеспечение

Алгоритмы, не основанные на сравнениях[править | править вики-текст]

Прочие алгоритмы сортировки[править | править вики-текст]

См. также[править | править вики-текст]

Литература[править | править вики-текст]

  • Дональд Кнут Искусство программирования, том 3. Сортировка и поиск = The Art of Computer Programming, vol.3. Sorting and Searching. — 2-е изд. — М.: «Вильямс», 2007. — С. 824. — ISBN 5-8459-0082-4.
  • Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиффорд Штайн Алгоритмы: построение и анализ = INTRODUCTION TO ALGORITHMS. — 2-е изд. — М.: «Вильямс», 2006. — С. 1296. — ISBN 5-8459-0857-4.
  • Роберт Седжвик Фундаментальные алгоритмы на C. Анализ/Структуры данных/Сортировка/Поиск = Algorithms in C. Fundamentals/Data Structures/Sorting/Searching. — СПб.: ДиаСофтЮП, 2003. — С. 672. — ISBN 5-93772-081-4.
  • Magnus Lie Hetland Python Algorithms: Mastering Basic Algorithms in the Python Language. — Apress, 2010. — 336 с. — ISBN 978-1-4302-3237-7.

Примечания[править | править вики-текст]

  1. в зависимости от структуры данных: список, файл, …
  2. или объектов, записей, …
  3. 1 2 Кнут, 2007
  4. Hetland, 2010

Ссылки[править | править вики-текст]