Общие принципы работы поисковых систем
В поисковую систему входят следующие составляющие:
Spider (паук) – это программа на подобие браузера, при помощи которой скачиваются веб-страницы.
Indexer (индексатор) – программа при помощи которой анализируются веб-страницы скаченные пауком.
Crawler (краулер) – программа при помощи которой можно автоматически проходить по всем ссылкам, которые найдутся на странице.
База данных – это хранилище где хранятся скаченные и обработанные страницы.
Система выдачи результатов – программа при помощи, которой извлекаются результаты поиска из баз данных.
Веб-сервер – осуществляет взаимодействие между пользователями и остальными компонентами.
Паук (Spider) – программа при помощи которой можно скачать веб-страницы таким же способом, что и браузер. Отличие заключается в том, что браузер показывает информацию, которая содержится на странице (текстовая, графическая и т.д.), в то время как у паука нет никаких визуальных компонентов и напрямую работает с html-текстом.
Краулер (Crawler) – заключается в выделении всех ссылок, присутствующих на странице. Его задачей является – определение, куда далее должен следовать паук, на основании ссылок или исходя из задуманного списка адресов. Краулер следует по найденным ссылкам и ищет новые документы, ещё неизвестные поисковым системам.
Индексатор. Индексатор разбирает страницы на части и затем анализирует их. Выделяет и анализирует элементы страницы (к примеру текст, html-теги, заголовки и т.д.).
Система выдачи результатов. Занимается упорядочиванием страниц. Также она отбирает какие страницы подходят под запрос пользователя и в какой последовательности они будут отсортированы. Происходит это благодаря алгоритмам упорядочивания поисковых систем. Эта информация является интересной для нас – и именно с этой составляющей поисковых систем работает оптимизатор, стараясь улучшить позиции сайтов при выдаче. Далее мы более подробно рассмотрим все факторы, которые влияют на упорядочивание результатов.
Веб-сервер. На сервере сущестувет html-страница с полем для ввода, куда пользователь может ввести интересующие его поисковые термины. Веб-сервер выдает результаты пользователям в виде html-страниц.
Есть, что сказать? Не стесняйтесь, оставьте свой отзыв!