Как устроены поисковые машины?

В этой статье мы попробуем разобраться, как работают поисковые машины (ПМ), из каких основных компонентов они состоят и за что каждый из них отвечает. Я думаю, данная статья будет интересна для тех, кто задается вопросом каким образом сайты появляются в результатах поиска по какому либо поисковому запросу.
Поисковая система состоит из отдельных компонентов.
1.Краулер (Crawler) – это программа, которая в автоматическом режиме, заходит на сайт и собирает все ссылки найденные на нем. Выделяет новые ссылки, которые еще не проиндексированы и сортирует их по некоторому алгоритму, чтобы представить поисковому пауку.
2.Паук (Spider) – тоже программа, которая пользуясь предоставленными краулером ссылками, заходит на них и скачивает страницы по указанным ссылкам. Паук представляет из себя нечто вроде простейшего браузера. Чтобы иметь примерное представление, как видит поисковый паук сайты, можно воспользоваться простым браузером lynx.
3.Индексатор (Indexer) – программа, которая анализирует скаченные пауком страницы. Происходит разделение страниц на элементы и в соответствии с различными атрибутами указанными в HTML коде, такие как, заголовки, ссылки, элементы <strong> и т.д.
4.База данных (БД) – это место хранения всех данных собранных предыдущими компонентами в т.ч. и проиндексируемых страниц. База данных самое ответственное звено в поисковой системе требующее значительных ресурсов.
5.Система выдачи результатов – извлекает результаты поиска из БД.
6.Поисковые алгоритмы – фактически это мозг поисковой машины. Под алгоритмами ПМ подразумевают сложные математические методы при помощи которых происходит сортировка результатов поиска. Поисковые алгоритмы у каждой поисковой системы свои, в этом легко убедиться осуществив поиск по одному и тому же слову в разных поисковых машинах и сравнить результаты. Алгоритмы держаться в строгом секрете и постоянно изменяются и совершенствуются.
Надеюсь данная статья помогла вам упорядочить свои знания в области работы поисковых машин и будет полезной.