Поисковая система

Материал из Википедии — свободной энциклопедии
(перенаправлено с «Поисковые системы»)
Перейти к: навигация, поиск
Поиск информации во всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х осуществлять поиск стало намного удобней.

Поиско́вая систе́ма — это программное обеспечение, состоящее из базы данных документов, снабженной пользовательским интерфейсом, которое разработано для поиска информации во всемирной паутине. Пользуясь поисковой системой, пользователи составляют свои собственные поисковые запросы с ключевыми словами[1], а не используют заранее предопределённые системой пути поиска[2].

Результаты поиска обычно представлены в серии результатов, часто называемых страницами результатов поисковой системы. Информация может быть совокупностью веб-страниц, изображений и других типов файлов. Основная задача поисковой системы заключается в выборе наилучшего возможного подмножества в ответ на конкретный запрос, то есть множества документов, которые наиболее соответствуют тому, что ищет пользователь (обычно в порядке убывания релевантности). [3] Полноценность поисковой системы зависит от релевантности результатов, которые она предоставляет.

По методам поиска и обслуживания поисковые системы разделяют на 4 типа: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы [⇨]. Сам механизм поиска состоит из трёх ключевых частей: поисковый робот, индексатор, поисковик [⇨].

По состоянию на 2014 год самой популярной поисковой системой в мире является Google, однако есть страны, где пользователи отдали предпочтение другим поисковикам. Так, например, в России Яндекс обгоняет Google больше, чем на 10%. [⇨]

Поисковые системы созданы, чтобы находить и выдавать пользователю релевантную информацию, но есть понятие пузырь фильтров.[⇨] Оно объясняет почему пользователь может не получить некоторую информацию. Так же стоит учитывать факт влияния различных факторов, таких как политические, экономические или социальные [⇨].

История[править | править вики-текст]

Хронология
Год Система Событие
1993 W3Catalog Запуск
Aliweb Запуск
JumpStation Запуск
1994 WebCrawler Запуск
Infoseek Запуск
Lycos Запуск
1995 AltaVista Запуск
Daum Основание
Open Text Web Index Запуск
Magellan Запуск
Excite Запуск
SAPO Запуск
Yahoo! Запуск
1996 Dogpile Запуск
Inktomi Основание
Рамблер Основание
HotBot Основание
Ask Jeeves Основание
1997 Northern Light Запуск
Яндекс Запуск
1998 Google Запуск
1999 AlltheWeb Запуск
GenieKnows Основание
Naver Запуск
Teoma Основание
Vivisimo Основание
2000 Baidu Основание
Exalead Основание
2003 Info.com Запуск
2004 Yahoo! Search Окончательный запуск
A9.com Запуск
Sogou Запуск
2005 MSN Search Окончательный запуск
Ask.com Запуск
GoodSearch Запуск
SearchMe Основание
2006 wikiseek Основание
Quaero Основание
Live Search Запуск
ChaCha Запуск (бета)
Guruji.com Запуск (бета)
2007 wikiseek Запуск
Sproose Запуск
Wikia Search Запуск
Blackle.com Запуск
2008 DuckDuckGo Запуск
Tooby Запуск
Picollator Запуск
Viewzi Запуск
Cuil Запуск
Boogami Запуск
LeapFish Запуск (бета)
Forestle Запуск
VADLO Запуск
Powerset Запуск
2009 Bing Запуск
KAZ.KZ Запуск
Yebol Запуск (бета)
Mugurdy Закрытие
Scout Запуск
2010 Яндекс Запуск
Cuil Закрытие
Blekko Запуск (бета)
Viewzi Закрытие
2012 WAZZUB Запуск
2014 Спутник Запуск (бета)

На ранней стадии разработки интернета был список веб-серверов под редакцией Тима Бернерса-Ли, размещённый на веб-сервере ЦЕРН. Остался один снимок списка в 1992 года, но поскольку всё больше веб-серверов переходило в онлайн, центральный список больше не мог поддерживаться на высоком уровне. На сайте NCSA о новых серверах объявили под заголовком «Что нового!» (англ. What's New!). [4]

Первым инструментом, используемым для поиска в Интернете, был Арчи (англ. archive), что расшифровывается как архив. Он был создан в 1990 году Аланом Эмтэджем, Биллом Хиланом и Дж. Питером Дойчем, студентами в области информатики в университете Макгилла в Монреале. Программа создавала доступную для поиска базу данных имён всех файлов, расположенных на общедоступных анонимных FTP-серверах; однако, Арчи не индексировал содержание этих сайтов, так как объем данных был небольшой и их можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher, созданного в 1991 году Марком П. Маккэхилом в университете Миннесоты, привело к двум новым поисковым программам, Veronica и Jughead. Как Арчи, они искали имена файлов и заголовки, сохраненные в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) обеспечила поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Jughead (англ.  Jonzy's Universal Gopher Hierarchy Excavation And Display) был инструментом для получения информации о меню от определенных Gopher-серверов. Хотя название поисковика Арчи не было ссылкой на цикл комиксов "Арчи", Veronica и Jughead — персонажи этого цикла образом ссылались на их предшественника.

Летом 1993 года не существовало ни одной поисковой системы для веб-сети, хотя многочисленные специализированные каталоги поддерживались вручную. Оскар Нирштрасс в Женевском университете написал ряд сценариев Perl, которые периодически копировали эти страницы и переписывали их в стандартный формат. Это сформировало основу для W3Catalog, первой примитивной поисковой системы сети, выпущенной 2 сентября 1993 года. [5]

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем из Массачусетского технологического института в июне 1993 года. Цель Wandex состояла в том, чтобы измерить размер всемирной паутины. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Aliweb не использовал поискового робота, но вместо этого зависел от получения уведомления от администраторов веб-сайтов на наличие на каждом объекте индексного файла в определенном формате.

JumpStation, [6] созданный в декабре 1993 года Джонатоном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота и использовал веб-форму в качестве интерфейса к его запросу. Таким образом, это был первый инструмент открытия ресурса интернета, который сочетал три существенных функции поисковой системы (проверка, индексация и поиск). Из-за ограниченных ресурсов, доступных на платформе, где система была запущена, ее индексация и, следовательно, поиск были ограничены названиями и заголовками, найденными в веб-страницах, которые находил поисковый робот.

Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994 году. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, который получил широкое распространение. В 1994 году был запущен и стал основным коммерческим начинанием «Lycos», разработанный в Университете Карнеги-Меллон.

Вскоре появилось множество других конкурирующих поисковых машин, таких, как «Magellan», «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги объединялись или добавляли к себе поисковых роботов с целью улучшение поиска.

В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала[7] с визуальной кластеризацией.

Поисковые системы также известны как одни из самых яркие звёзд в интернет-буме инвестирования конца 1990-х. [8] Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их первичного публичного предложения. Некоторые привели в нерабочее состояние их механизм результатов поиска и продавали выпуски только для предприятий, таких как Northern Light. Много поисковых компаний оказывались в пузыре доткомов, который достиг максимума в 1999 и закончился в 2001 году.

В 1996 году, Netscape хотел заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключил сделки сразу с пятью крупнейшими поисковыми системами: за $ 5 млн в год, каждая поисковая система была в ротации на поисковой странице Netscape. Этими системами были: Yahoo!, Magellan, Lycos, Infoseek и Excite.[9] [10]

Google принял идею продавать критерии поиска в 1998 году от небольшой компании поисковой системы, названной goto.com. Это движение имело значительный эффект на бизнес поисковых систем, который с трудом поднялся до одного из самых прибыльных бизнесов в Интернете. [11]

Поисковая система Google занимает видное положение с 2000 года. [12] Компания достигла лучших результатов поисков с инновациями под названием PageRank, как это объяснили основатели Google: Сергей Брин и Ларри Пейдж. [13] Этот итеративный алгоритм ранжирует веб-страницы основываясь на количестве гиперссылок между ними. Чем больше связей, тем «важнее» считается веб-страница. Google также поддержал минималистский интерфейс своей поисковой системы, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Фактически, поисковая система Google стала настолько популярной, что появились системы — имитации, такие как Mystery Seeker(Таинственный Ищущий).

Microsoft запустила поисковую систему Microsoft Network Search (сокращённо MSN Search) осенью 1998 года, используя результаты поиска от Inktomi. В начале 1999 года сайт начал отображать списки от Looksmart, смешанного с результатами Inktomi. MSN search использовал результаты поиска AltaVista, но это длилось недолго. В 2004 году Microsoft начала переход к поисковой технологии с использованием собственного поискового робота — msnbot. После проведения ребрендинга Microsoft 1 июня 2009 года была запущена поисковая система Bing. 29 июля 2009 Yahoo! и Microsoft подписали соглашение, согласно которому поиск Yahoo! приводился в действие технологией Microsoft Bing.

Как работает поисковая система[править | править вики-текст]

Высокоуровневая архитектура стандартного краулера

Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик[14].

Обычно системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется снова. [14]

Поисковые системы работают, храня информацию о многих веб-страницах, которые они получают от разметки HTML страниц. Поисковый робот или как его называют Краулер (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, еще не известных поисковой системе. Владелец сайта может исключить определенные страницы при помощи robots.txt, используя который можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, содержания страницы, заголовков или специальных полей — метатегов. Индексатор — модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Запрос от пользователя может быть отдельным словом. Индекс помогает находить информацию, касающуюся запроса, как можно быстрее. [15] Некоторые поисковые системы, такие как Google, хранят все или часть исходной страницы (называемый кэшем), а также информацию о веб-страницах, тогда как другие, такие как AltaVista, хранят каждое слово каждой страницы, которую они находят. Использование кэша страниц помогает ускорить извлечение информации с уже посещенных страниц.[15]

Поисковик работает над выходными файлами от индексатора. Он принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.[14]

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и предоставляет список наиболее подходящих веб-страниц, обычно с кратким пояснением, содержащим заголовок документа и иногда части текста.[15] Большинство поисковых систем поддерживает использование булевых операторов И, ИЛИ, НЕ, чтобы создать поисковый запрос. При их использовании, система будет искать слова или фразы точно так, как было введено. Некоторые поисковые системы работают с расширенной функцией, которая называется Proximity search. Она позволяет определять расстояние между ключевыми словами. [15]Есть также поиск, основанный на понятиях, он включает использование статистического анализа на страницах, содержащих слова или фразы, которые ищет пользователь. Подобные системы позволяют составлять запросы на естественном живом языке. Примером таких поисковых систем является сайт ask.com.

Полноценность поисковой системы зависит от релевантности результатов, которые она предоставляет. Миллионы веб-страниц могут включать определенное слово или фразу, и некоторые страницы могут быть более релевантными, популярными или авторитетными, чем другие. Большинство поисковых систем использует методы ранжирования, чтобы в первую очередь вывести «лучшие» результаты. То, как поисковая система решает, какие страницы более релевантны, и в каком порядке должны быть показаны результаты, значительно отличает одну систему от другой.[15] Интернет растёт с экспоненциальной скоростью, и вследствие этого развиваются новые методы поиска информации. Есть два основных типа поисковых систем: система предопределенных и иерархически упорядоченных ключевых слов и система, которая генерирует инвертированный индекс, анализируя тексты.

Типы поисковых систем[править | править вики-текст]

Существует четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. [1]

  • системы, использующие поисковых роботов
Эти системы состоят из 3 частей: краулер (бот, робот или паук), индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс является огромным набором копий веб-страниц. Цель программного обеспечения — оценивать результаты поиска. Благодаря тому, что поисковый робот в этом механизме постоянно исследует сеть, информация всегда обновлённая. Большинство современных поисковых систем являются системами данного типа.
Эти поисковые системы получают списки веб-страниц. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток — обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Также и ранжирование страниц не может быть изменено мгновенно. В качестве примеров таких систем можно привести каталог Yahoo, dmoz и Galaxy.
  • гибридные системы
Такие поисковые системы, как Yahoo, Google, MSN, сочетают в себе функции систем, использующие поисковых роботов, и систем, управляемых человеком, чтобы обеспечить эффективные результаты поиска.
  • мета-системы
Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее умными. Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler и Поиск MSN.

Рынок поисковых систем[править | править вики-текст]

Google — самая популярная поисковая система в мире с долей на рынке 68,69 %. Baidu занимает вторую позицию, однако с большим отставанием, всего 17,17 %. [16]

Самые популярные поисковые системы в мире [17]:

Поисковая система Доля рынка в июле 2014
Google 68.69 %
Baidu 17,17 %
Yahoo! 6.74 %
Bing 6.22 %
Excite 0.22 %
Ask 0,13 %
AOL 0,13 %

Европа и Азия[править | править вики-текст]

Восточноазиатские страны и Россия — те редкие представители, где Google не является самой популярной поисковой системой. Так, например, в Китае поисковая система Soso более популярна, чем Google.

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жителей. [18] Yahoo! Japan и Yahoo! Taiwan самые популярные системы для поиска в Японии и Тайване соответственно.[19] Яндексом пользуются 61,9 % пользователей в России, по сравнению с 28,3 % Google. [20]

Согласно данным LiveInternet в ноябре 2014 году об охвате русскоязычных поисковых запросов:

Некоторые из поисковых систем используют внешние алгоритмы поиска. Так, Qip.ru использует поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

Необычные поисковые системы[править | править вики-текст]

  • DuckDuckGo — гибридная поисковая система с политикой конфиденциальности пользователя и его поисковых запросов.
  • Koogle, с помощью которого ортодоксальные иудеи могли найти контент, признанный раввинами удовлетворяющим религиозным требованиям . [21]
  • Yauba — индийский поиск «для параноиков». В отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера.
  • TinEye — поисковая система, специализирующаяся на поиске изображений в Интернете.
  • Генон — поисковая система, собирающая и создающая контент у себя на сайте.
  • ImHalal — первый исламский поисковик, может отличить разрешённые для мусульман (халяльные) результаты поиска от запретных (харамных).

Поисковые системы, основанные на вере[править | править вики-текст]

Глобальное распространение интернета и увеличение популярности электронных устройств за последнее десятилетие в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента, способствовало развитию локальных поисковых систем, основанных на исламских традициях. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям избежать доступа к запрещённым сайтам, таким как сайты с порнографией, и позволяют им получать доступ только к сайтам, которые совместимы с исламской верой. Незадолго до мусульманского месяца Рамадан, в июле 2013 года, миру был представлен Halalgoogling — система, выдающая пользователям только халяльные ссылки[22], фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing. Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, причиной чего владелец назвал отсутствии финансирования.[23]

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim. Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь — в соответствии с последним сообщением от I’mHalal перед его закрытием — выступает с неправдоподобной до смешного идеей о том, что «следующий Facebook или Google может появиться только в странах Ближнего Востока, если вы поддерживаете вашу яркую молодёжь»[24]. Тем не менее, исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует «Законам Ислама», и классифицируют веб-сайты как «халяль» или «харам». Все существовавшие и существующие сейчас исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных и приносят прибыль при помощи основных интернет-гигантов, таких как Google, Yahoo и Bing с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, геях, азартных играх и каким-либо другим, тематика которых считается антиисламской. [24]

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle — еврейская версия Google и SeekFind.org — христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру.[25]

Персональные результаты и пузыри фильтров[править | править вики-текст]

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров»[26].

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения[27].

Предвзятость поисковых систем[править | править вики-текст]

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности исследования указывают на то, что на информацию, которую они предоставляют, оказывают влияние различные политические, экономические и социальные факторы. [28][29]

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах её обычного поиска. Удаление результатов поиска, не соответствующих местным законам, является примером влияния политических процессов. Например, Google не будет отображать определённые неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста является незаконным.[30]

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить ненормативные точки зрения в пользу более «популярных» результатов.[31] Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам.[29]

Поисковая бомба — один из примеров попытки управлять результатами поиска по политическим, социальным или коммерческим причинам.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • Risvik K. M., Michelsen R. Search engines and web dynamics (англ.) // Computer Networks : журнал. — 2002. — Т. 39. — № 3. — С. 289-302.
  • Tarakeswar M. K., Kavitha M. D. Search Engines:A Study (англ.) // Journal of Computer Applications (JCA) : журнал. — 2011. — Т. 4. — № 1. — С. 29-33. — ISSN 0974-1925.
  • Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5.
  • Gandal, Neil The dynamics of competition in the internet search engine market. — 2001. — Vol. 19. — P. 1103–1117. — DOI:10.1016/S0167-7187(01)00065-0
  • Liwen Vaughan, Mike Thelwall Search engine coverage bias: evidence and possible causes (англ.) // Information Processing & Management : журнал. — 2004. — Vol. 40. — P. 693–707. — DOI:10.1016/S0306-4573(03)00063-3
  • Lucas D. Introna, Helen Nissenbaum Shaping the Web: Why the Politics of Search Engines Matters (англ.) // The Information Society: An International Journal. — 2000. — Vol. 16. — DOI:10.1080/01972240050133634

Ссылки[править | править вики-текст]


  • FAQ. NetMarketShare. Проверено 23 ноября 2014.