Пользователи интернета каждый день обращаются к поисковикам, даже не догадываясь, каким сложным процессом является выдача результатов поиска.
Задача поисковых систем состоит в том, чтобы предоставить пользователям интересующую их информацию. Научить всех пользователей делать запросы, соответствующие принципу поисковой системы, невозможно. Поэтому разработчики поисковиков пытаются сделать свои творения более «умными», подогнать алгоритм и принципы работы поисковой системы под требования пользователей.
Почти все популярные среди пользователей интернета поисковые системы имеют свою особую структуру, но есть ряд компонентов, общих для всех поисковых машин. Суть отличий в структуре поисковиков состоит в способе реализации взаимодействия этих компонентов. Помним, что сервер и его качество и мощности, также могут помогать или мешать правильной индексации.
Принцип работы большинства поисковых систем состоит в предварительном индексировании страниц.
Модуль индексирования составляют три вспомогательные программы:
Spider – в переводе с английского звучит как паук, это робот, который скачивает веб-страницы и извлекает из них внутренние ссылки. Spider работает таким образом: робот передает на сервер запрос “get/path/document”, а также другие команды HTTP-запроса. В результате получает текстовый поток, содержащий служебную информацию и сам документ. Скачивание осуществляется с целью уменьшить сетевой трафик при максимальной полноте поиска.
Crawler — робот, который автоматически переходит по всем ссылкам, найденным на страницах. Crawler хранит список URL и регулярно выкачивает документы, которые им соответствуют. Если в документе появилась новая ссылка, робот добавляет ее в свой список.
Indexer (индексатор) — робот, который подвергает анализу скачанные пауками страницы. Анализируются такие составляющие страницы, как ссылки, текст, заголовки, теги и другие.
Индекс поисковых систем – это их база данных, массив информации, который хранит параметры скачанных и обработанных модулем индексирования страниц. База данных каждой поисковой системы периодически обновляется.
А теперь дело за пользователем: на стартовой странице поисковой системы маршрутизатор предлагает вам задать запрос для поиска информации, после чего запрос отправляется на поисковый сервер.
Важнейшим элементом поисковой системы является поисковый сервер, поскольку от алгоритмов, лежащих в основе его функционирования, зависит скорость и качество поиска.
Рассмотрим, каким образом работает поисковый сервер:
• Запрос пользователя подвергается морфологическому анализу. Поиск соответствующих документов, среди содержащихся в базе.
• Полученные данные отправляются модулю ранжирования, который определяет степень релевантности страниц.
• После этого создается сниппет – заголовок и краткая аннотация документа.
• Проделав все вышеперечисленные операции, система выдает результаты поиска.
Как видим поиск информации в интернете – более сложный механизм, чем может показаться простому пользователю.