Поисковая система

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Поиск информации во всемирной паутине был трудной и не самой приятной задачей, но с прорывом в технологии поисковых систем в конце 1990-х осуществлять поиск стало намного удобней.

Поиско́вая систе́ма — это программное обеспечение, состоящее из базы данных документов, снабженной пользовательским интерфейсом, которое разработано для поиска информации во всемирной паутине. Пользуясь поисковой системой, пользователи составляют свои собственные поисковые запросы с ключевыми словами[1], а не используют предварительно определенные путями поиска[прояснить](simply follow pre-specified search paths or hierarchy as in the case of certain catalogs.)[2].

Результаты поиска обычно представлены в серии результатов, часто называемых страницами результатов поисковой системы. Информация может быть совокупностью веб-страниц, изображений и других типов файлов. Основная задача поисковой системы заключается в выборе наилучшего возможного подмножества в ответ на конкретный запрос, то есть множества документов, которые наиболее соответствуют тому, что ищет пользователь (обычно в порядке убывания релевантности). [3]

Некоторые поисковые системы могут также находить информацию в базах данных или открытых каталогах. В отличие от веб-каталогов, которые обслуживаются только редакторами, поисковые системы также поддерживают информацию[прояснить] в реальном времени, выполняя алгоритм на поисковом роботе.

Существует 4 типа поисковых систем:[1]

  • системы, использующие поисковых роботов
Эти системы состоят из 3 частей: Краулер (бот, робот или паук), Индекс и программное обеспечение поисковой системы. Краулер нужен для обхода сети и создания списков веб-страниц. Индекс является огромным набором копий веб-страниц. Цель программного обеспечения — оценивать результаты поиска. Благодаря тому что поисковый робот в этом механизме постоянно исследует сеть, информация всегда обновлённая. Большинство современных поисковых систем являются системами данного типа.
Эти поисковые системы получают списки веб-страниц, создаваемые веб-мастерами. Каталог содержит адрес, заголовок и краткое описание сайта. Каталог ресурсов ищет результаты только из описаний страницы, представленных ему веб-мастерами. Достоинство каталогов в том, что что все ресурсы проверяются вручную, следовательно, и качество контента будет лучше по сравнению с результатами, полученными системой первого типа автоматически. Но есть и недостаток — обновление данных каталогов выполняется вручную и может существенно отставать от реального положения дел. Также и ранжирование страниц не может быть изменено мгновенно. В качестве примеров таких систем можно привести Yahoo, dmoz и Galaxy.
  • гибридные системы
В настоящее время такие поисковые системы, как Yahoo, Google, MSN, сочетают в себе функции систем на поисковом роботе[стиль!] и систем, управляемых человеком, чтобы обеспечить эффективные результаты.
  • мета системы
Эти поисковые системы были полезны, когда у каждой поисковой системы был уникальный индекс, и поисковые системы были менее опытными. Поскольку сейчас поиск намного улучшился, потребность в них уменьшилась. Примеры: MetaCrawler и Поиск MSN.

История[править | править вики-текст]

Хронология
Год Система Событие
1993 W3Catalog Запуск
Aliweb Запуск
JumpStation Запуск
1994 WebCrawler Запуск
Infoseek Запуск
Lycos Запуск
1995 AltaVista Запуск
Daum Основание
Open Text Web Index Запуск
Magellan Запуск
Excite Запуск
SAPO Запуск
Yahoo! Запуск
1996 Dogpile Запуск
Inktomi Основание
Рамблер Основание
HotBot Основание
Ask Jeeves Основание
1997 Northern Light Запуск
Яндекс Запуск
1998 Google Запуск
1999 AlltheWeb Запуск
GenieKnows Основание
Naver Запуск
Teoma Основание
Vivisimo Основание
2000 Baidu Основание
Exalead Основание
2003 Info.com Запуск
2004 Yahoo! Search Окончательный запуск
A9.com Запуск
Sogou Запуск
2005 MSN Search Окончательный запуск
Ask.com Запуск
GoodSearch Запуск
SearchMe Основание
2006 wikiseek Основание
Quaero Основание
Ask.com Запуск
Live Search Запуск
ChaCha Запуск (бета)
Guruji.com Запуск (бета)
2007 wikiseek Запуск
Sproose Запуск
Wikia Search Запуск
Blackle.com Запуск
2008 DuckDuckGo Запуск
Tooby Запуск
Picollator Запуск
Viewzi Запуск
Cuil Запуск
Boogami Запуск
LeapFish Запуск (бета)
Forestle Запуск
VADLO Запуск
Powerset Запуск
2009 Bing Запуск
KAZ.KZ Запуск
Yebol Запуск (бета)
Mugurdy Закрытие
Goby Запуск
2010 Яндекс  (англ.) Запуск
Cuil Закрытие
Blekko Запуск (бета)
Viewzi Закрытие
2012 WAZZUB Запуск
2014 Спутник Запуск (бета)

На ранней стадии разработки интернета был список веб-серверов, под редакцией Тима Бернерса-Лии размещённых на веб-сервере ЦЕРН . Один исторический снимок списка в 1992 году остался, но поскольку все больше веб-серверов переходило в онлайн, центральный список больше не мог поддерживаться на высоком уровне. На сайте NCSA о новых серверах объявили под заголовком "Что-то новое!"(англ. What's New!). [4]

Первым инструментом, используемым для поиска в Интернете, был Арчи (англ. archive), что расшифровывается как архив. Он был создан в 1990 году Аланом Эмтэджем, Биллом Хиланом и Дж. Питером Деучем, студентами информатики в университете Макгилла в Монреале. Программа создавала доступную для поиска базу данных имён всех файлов, расположенных на общедоступных анонимных FTP-серверах; однако, Арчи не индексировал содержание этих сайтов, так как объем данных был небольшой и их можно было легко найти вручную.

Подьём Gopher, созданного в 1991 году Марком П. Маккэхилом в университете Миннесоты, привел к двум новым поисковым программам, Veronica и Jughead. Как Арчи, они искали имена файлов и заголовки, сохраненные в индексных системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) обеспечила поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Jughead (англ.  Jonzy's Universal Gopher Hierarchy Excavation And Display) был инструментом для получения информации о меню от определенных Gopher-серверов. Хотя название поисковика Арчи не было ссылкой на цикл комиксов Арчи, Veronica и Jughead - персонажи этого цикла, таким образом ссылались на их предшественника.

Летом 1993 года, ни одной поисковой системы для веб-сети не существовало, хотя многочисленные специализированные каталоги поддерживались вручную. Оскар Нирстрэсз в Женевском университете, написал ряд сценариев Perl, которые периодически зеркально отражали эти страницы и переписывали их в стандартный формат. Это сформировало основу для W3Catalog, первой примитивной поисковой системы сети, выпущенной 2 сентября 1993 года. [5]

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем из Массачусетского технологического института в июне 1993 года. Цель Wandex состояла в том, чтобы измерить размер всемирной паутины. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Aliweb не использовал поискового робота, но вместо этого зависел от получения уведомления от администраторов веб-сайтов на наличие на каждом объекте индексного файла в определенном формате.

JumpStation, [6] созданный в декабре 1993 года Джонатоном Флетчером, использовал поискового робота для поиска веб-страницы и построения её индекса, и использовал веб-форму в качестве интерфейса к его запросу. Таким образом, это был первый инструмент открытия ресурса интернета, который сочетал три существенных функции поисковой системы (проверка, индексация и поиск). Из-за ограниченных ресурсов, доступных на платформе, где система была запущена, ее индексация и, следовательно, поиск были ограничены названиями и заголовками, найденными в веб-страницах, которые находил поисковый робот.

Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен и стал основным коммерческим начинанием «Lycos», разработанный в Университете Карнеги-Меллон.

Вскоре появилось множество других конкурирующих поисковых машин, таких, как «Magellan», «Excite», «Infoseek», «Inktomi», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали с популярными интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность.

В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 года была открыта поисковая машина Яндекс. 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник.

Большую популярность получили методы кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivisimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала[7] с визуальной кластеризацией.

Поисковые системы также известны как одни из самых яркие звезды в интернет-безумстве инвестирования, которое произошло в конце 1990-х. [8] Несколько компаний вышли на рынок эффектно, получив рекордную прибыль во время их первичного публичного предложения. Некоторые привели в нерабочее состояние их механизм результатов поиска и продавали выпуски только для предприятий, таких как Северное сияние. Много поисковых компаний оказывались в пузыре доткомов, который достиг максимума в 1999 и закончился в 2001 году.

В 1996 году, Netscape хотел заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключил сделки сразу с пятью крупнейшими поисковыми системами: за $ 5 млн в год, каждая поисковая система будет в ротации на поисковой странице Netscape. Этими системами были: Yahoo!, Magellan, Lycos, Infoseek и Excite.[9] [10]

Google принял идею продавать критерии поиска в 1998 году от небольшой компании поисковой системы, названной goto.com. Это движение имело значительный эффект на бизнес поисковых систем, который с трудом поднялся до одного из самых прибыльных бизнесов в Интернете. [11]

Приблизительно в 2000 году поисковая система Google занимала видное положение. [12] Компания достигла лучших результатов поисков с инновациями под названием PageRank, как это объяснили Сергей Брин и Ларри Пейдж, позднее основатели Google. [13] Этот итеративный алгоритм ранжирует веб-страницы основываясь на количестве, и PageRank других веб-сайтов и страниц, которые связаны гиперссылками. Чем больше связей, тем "важнее" считается веб-страница. Google также поддержал минималистский интерфейс своей поисковой системы. В отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал. Фактически, поисковая система Google стала настолько популярной, что появились системы - имитации, такие как Mystery Seeker(Таинственный Ищущий).

Microsoft сначала запустила поисковую ситему Microsoft Network Search (сокращённо MSN Search) осенью 1998 года, используя результаты поиска от Inktomi. В начале 1999 года сайт начал отображать списки от Looksmart, смешанного с результатами Inktomi. В течение короткого времени в 1999, используемые результаты Поиска MSN AltaVista были вместо этого. В 2004 году Microsoft начала переход к своей собственной поисковой технологии с пользованием собственного поискового робота - msnbot. Microsoft провёл ребрендинг, и 1 июня 2009 года была запущена поисковая система Bing. 29 июля 2009 Yahoo! и Microsoft завершили соглашение, согласно которому поиск Yahoo! приводился в действие технологией Microsoft Bing.

Рынок поисковых систем[править | править вики-текст]

Google - самая популярная поисковая система в мире с долей на рынке 68,69 %. Baidu занимает вторую позицию, однако с большим отставанием, всего 17,17%. [14]

Самые популярные поисковые системы в мире [15]:

Поисковая система Доля рынка в июле 2014
Google 68.69%
Baidu 17.17%
Yahoo! 6.74%
Bing 6.22%
Excite 0.22%
Ask 0.13%
AOL 0.13%

Европа и Азия[править | править вики-текст]

Восточноазиатские страны и Россия - те редкие представители, где Google не является самой популярной поисковой системой. Так, например, в Китае поисковая система Soso более популярна, чем Google.

В Южной Кореи поисковым порталом собственной разработки, Naver, пользуется около 70% жителей. [16] Yahoo! Japan и Yahoo! Taiwan самые популярные системы для поиска в Японии и Тайване, соответственно.[17] Яндексом пользуются 61,9 % пользователей в России, по сравнению с 28,3% Google. [18]

Согласно данным LiveInternet в ноябре 2014 году об охвате русскоязычных поисковых запросов:

Некоторые из поисковых систем используют внешние алгоритмы поиска. Так, Qip.ru использует поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

Необычные поисковые системы[править | править вики-текст]

  • DuckDuckGo — гибридная поисковая система с политикой конфиденциальности пользователя и его поисковых запросов.
  • Koogle, с помощью чего ортодоксальные иудеи могли найти контент, признанный раввинами удовлетворяющим религиозным требованиям . [19]
  • Yauba — индийский поиск «для параноиков». В отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера.
  • TinEye — поисковая система, специализирующаяся на поиске изображений в Интернете.
  • Генон — поисковая система, собирающая и создающая контент у себя на сайте.
  • ImHalal — первый исламский поисковик, может отличить разрешённые для мусульман (халяльные) результаты поиска от запретных (харамных).

Поисковые системы, основанные на вере[править | править вики-текст]

Глобальное распространение интернета и увеличение популярности электронных устройств за последнее десятилетие в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента, способствовало вере сторонников в «мечту» о собственных поисковых системах, основанные на вере, то есть Исламе. А также возможности появления фильтров поисковых систем, которые помогут пользователям избежать доступа к запрещенным сайтам, таким как сайты с порнографией, и позволят им получать доступ только к сайтам, которые совместимы с исламской верой. Незадолго до мусульманского месяца Рамадан, в июле 2013 года миру был представлен Halalgoogling в подарок от Халяль своим пользователям [20], который собирает результаты от других поисковых систем, таких как Google и Bing. Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I’mHalal, предназначенный для обслуживания интернетом Ближнего Востока. Но этот поисковый сервис пришлось закрыть, причиной чего владелец назвал отсутствии финансирования. [21]

Отсутствие инвестиции и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьезного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одним из которых был Muxlim. Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь — в соответствии с последним сообщении от I’mHalal перед его закрытием — выступает с неправдоподобной до смешного идеей о том, что «следующий Facebook или Google может прийти только из стран Ближнего Востока, если вы поддерживаете вашу яркую молодёжь»[22]. Тем не менее, исламские эксперты в области Интернета уже в течение многих лет занимаются определением того, что соответствует или не соответствует «Законам Ислама», и классифицируют веб-сайты как «халяль» или «харам». Все существовавшие и существующие сейчас исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных и приносят прибыль с помощью основных интернет-гигантов, таких как Google, Yahoo и Bing с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, геях, азартных играх и каких-либо других, тематика которых считается антиисламской. [22]

Другой религиозно-ориентированной поисковой системой является Jewogle, которая является еврейской версией Google, и еще одна это SeekFind.org, которая является христианским сайтом, включающая в себя фильтры, предотвращающие пользователей от того в интернете, что подрывает или ослабляет их веру.[23]

Персональные результаты и пузыри фильтров[править | править вики-текст]

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с прошлыми интересами пользователя. Этот эффект получил название «пузырь фильтров»[24].

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования гражданского мнения[25].

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Литература[править | править вики-текст]

  • Risvik K. M., Michelsen R. Search engines and web dynamics (англ.) // Computer Networks : журнал. — 2002. — Т. 39. — № 3. — С. 289-302.
  • Tarakeswar M. K., Kavitha M. D. Search Engines:A Study (англ.) // Journal of Computer Applications (JCA) : журнал. — 2011. — Т. 4. — № 1. — С. 29-33. — ISSN 0974-1925.
  • Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5.
  • Gandal, Neil The dynamics of competition in the internet search engine market. — 2001. — Vol. 19. — P. 1103–1117. — DOI:10.1016/S0167-7187(01)00065-0

Ссылки[править | править вики-текст]

  • FAQ. NetMarketShare. Проверено 23 ноября 2014.