Главная FDMua.com :: Разработка сайтов, дизайнов, систем управления контентом (CMS) и продвижение сайта (SEO). Поддержка сайта в процессе его развития. Разработка сайтов, дизайнов, CMS. Написать письмо Translate a Web page . English

Разработка сайтов, дизайнов, систем управления контентом (CMS) и продвижение сайта (SEO)!
Наши услуги по разработке и созданию сайтов

Проверка индексации сайта в поисковиках

Система управления сайтом

CMS-SEO-FDMua

О нас

Cтатьи:  веб-мастеру
Архитектура метапоисковых систем
В данной статье на примере метапоисковой системы MetaPing рассматривается архитектура метапоисковых систем и основные принципы их работы и построения.
Легкий AJAX в массы
При использовании библиотеки xAJAX требуется ОЧЕНЬ мало знаний по javascript, однако при использовании других библиотек я бы сказал что требуются солидные знания javascript. Я полагаю что интеграция Prototype.js в библиотеку xAJAX сделала бы его еще лучше, и разработчикам пришлось бы сталкиваться с javascript еще меньше. Хорошо что все это планируется в новых версиях xajax. Учитывая все это, я полагаю xAJAX это наиболее подходящий выбор для PHP разработчиков, которые будут интегрировать в свои вебприложения Ajax.
Оптимизация сайта, продвижение и раскрутка – трактовка терминов.
Оптимизация сайта, продвижение и раскрутка – трактовка терминов. В рунете профессия «оптимизатор сайтов» имеет широкое и не всегда верное значение из-за восприятия терминов «оптимизация сайтов», «продвижение сайтов» и «раскрутка сайтов» как синонимов.
Архив статей веб-мастеру
Cтатьи:  веб-дизайнеру
Логотипы как это делается. Ч.3
Не является ни для кого секретом, что каждый человек имеет индивидуальное, субъективное мировосприятие. Одни и те же знаки у разных людей, в силу различного опыта, образования, круга общения и пр. и пр. могут вызывать абсолютно разные (зачастую противоположные по своему значению) ассоциации, а значит - и разные эмоции. Казалось бы, невозможно предугадать "уровень распущенности" миллионов потребителей.
Логотипы как это делается. Ч.2
Покончив с анализом, приступим к более творческому процессу - собственно созданию (ваянию, клепанию, рисованию, и т.д.) логотипа.
Архив статей по дизайну


Код нашей кнопки:
Направления работы
Поиск по сайту fdm-design:
 найти: 
Идеал - туристическая компанияУправление разделом - Добавить статьи
Создаем веб-сайты - приемлемая цена, эксклюзивный дизайн, удобное управление сайтом (CMS), качественное программирование.

Статьи веб-мастеру & веб-дизайнеру

Рубрики:

Поисковые машины и их описание

Рубрика: Поисковые машины
[Просмотров: 2421] [Рейтинг: 3.00]
Комментарии

Поисковые машины

Введение

Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день "ползают" по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать "submit" и увидеть, какие страницы удовлетворяют его запросу.
Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.
Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.
Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера?
Ну, разумеется, широко известные и часто используемые.
Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами:-) Итак, для начала определимся с терминологией.
Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.
Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo.
Конструкция страниц значения не имеет.
Далее речь пойдет в основном о поисковых машинах.

Altavista

Система открыта в декабре 1995. Принадлежит компании DEC С 1996 года сотрудничает с Yahoo

Excite Search

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 - приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.
Существует в этой системе и каталог - Excite Reviews. Попасть в этот каталог - удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

HotBot

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

InfoSeek

Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время "Ultrasmart/Ultraseek" содержит порядка 50 миллионов URL.
Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek
Существует отдельный от поисковой машины каталог InfoSeek Select.

Lycos

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

OpenText

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

WebCrawler

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online
Существует каталог WebCrawler Select.

Yahoo

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo - Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.
Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц. Ниже приведена сравнительная таблица основных поисковых машин. Прочерк означает неизвестные или неисследованные значения.

Тип поисковой машины

"Полнотекстовые" поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. "Абстрактные" поисковые машины создают некий экстракт каждой страницы.
Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер

Размер поисковой машины определяется количеством проиндексированных страниц. Приведенные в таблице значения не слишком точны, но могут прояснить некоторые моменты. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Период обновления

Поскольку Веб изменяется непрерывно, поисковые машины индексируют все без учета даты. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть однодневной давности, а могут быть и месячной давности, а то и больше.
Вот некоторые причины, по которым это происходит:

  • некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
  • другие чаще могут "ползать" по наиболее популярным страницам сети, чем по другим.

Дата индексирования документа

Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой "свежести" ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Глубина индексирования

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.
Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

  • не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле )
  • использование imagemap без дублирования их обычными ссылками

Поддержка фреймов

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Поддержка ImageMap

Тут примерно та же проблема, что и с фреймовыми структурами серверов

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Частота появления ссылок

Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит тратить время на индексирование такого документа.

"Способность к обучению"

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко - реже.

Контроль индексации

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Перенаправление (redirect)

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Стоп-слова

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

Spam-штрафы

Все крупные поисковые системы "не любят", когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

Поддержка META-тагов

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают. Как использовать метаданные можно прочитать в статьях "Несколько слов о работе роботов поисковых машин" и "Использование META-тагов".

Title

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Description

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины - можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

Удаление старых данных

Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес. Возможны два действия: просто удалить старое содержание и переписать файл robots.txt.

  • удаление содержимого: когда поисковая машина попытается реиндексировать документы и не найдет их, старые ссылки в индексе будут удалены. В этом случае все зависит от периода обновления данных для поисковой машины.
  • robots.txt: когда поисковая машина запросит этот файл и "увидит", что сервер весь закрыт от индексации, то все ссылки на файлы этого сервера будут удалены из индекса.

Имя поискового робота

В этом пункте указаны имена роботов, которыми они отвечают на HTTP-запрос. Полезно для написания robots.txt. Подробнее смотри "Robots Exclusion Standard"

Calafia Consulting

Зарубежные поисковые машины

Altavista Excite HotBot InfoSeek Lycos OpenText WebCrawler
Тип Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая Абстрактная Полнотекстовая Полнотекстовая
Размер 30 миллионов 55 миллионов 54 миллиона 20-50 миллионов 20-25 миллионов 5 миллионов 2 миллиона
Период обновления от 1 дня до 3 месяцев 1 - 3 недели не позднее 3 недель от минут до месяца ещемесячное обновление 1 - 4 недели еженедельное обновление
Дата индексирования документа Да Нет Да Нет Нет Нет Нет
Указанные (submitted) страницы 1 день 1 неделя 3 недели 1 месяц 1 месяц 2 - 4 недели 2 - 4 недели
Неуказанные (non-submitted) страницы 1 - 3 месяца 3 недели 3 недели 1 месяц 1 месяц 2 4 недели 2 4 недели
Глубина индексирования Неограничена Неограничена Неограничена Неограничена Неограничена
-
Ограничена популярностью того или иного сервера
Поддержка фреймов Нет Да Нет Да Да Нет Нет
Поддержка ImageMap Да Нет Нет Да Да Нет Да
Защищенные паролями директории и сервера Нет Да Нет Да Да Нет Нет
Частота появления ссылок Нет Нет Да Нет Да Нет Да
"Обучаемость" Да Нет Да Да Нет Нет Нет
Контроль индексации robots.txt robots.txt (в будущем и метаданные) И то, и другое robots.txt robots.txt robots.txt И то, и другое
Перенаправление (redirect) Поддерживает Поддерживает
-
-
-
-
Поддерживает
Стоп-слова Да Да Да Нет Да Нет Нет
Влияние на алгоритм определения релевантности Нет
-
Ключевые слова в метаданных Нет Нет Нет Частота появления ссылок
Spam-штрафы Да Да Да Да Да Да Да
Поддержка META-тагов Да Нет Да Да Да Нет Только NOINDEX таг
Title Заголовок страницы или No Title Заголовок страницы или Untitled Заголовок страницы или URL Заголовок страницы или первая строка документа Заголовок страницы или первая строка документа Первые 100 символов из документа Заголовок страницы или URL
Description Метатаг или первые несколько строк из документа Формируется из наиболее релевантных к запросу фраз документа Метатаг или первые несколько строк документа Метатаг или первые 200 символов после тага Метатаг или экстакт из содержимого страницы Первые 100 символов документа Создается из содержания; обещается поддержка метатагов в будущем
Проверка статуса URL Да Нет Нет Нет Да Нет Да
Удаление старых данных Удалить содержимое и указать новый адрес Удалить содержимое или переписать robots.txt Переписать robots.txt Удалить содержимое и указать новый адрес или переписать robots.txt
-
-
-
Имя поискового робота (Spider User Agent) Scooter Architext Spider Slurp the Web Hound Side winder T-rex
-
Spidey

Calafia Consulting
Информация приведена по состоянию на начало 1998 года.

Российские поисковые машины

Небольшая преамбула к этому документу, касающаяся самой молодой и самой перспективной, на мой взгляд, поисковой машины Яndex.

Сейчас на yandex.ru первая страница работает в режиме обработки запроса на естественном языке. Такой возможности нет у других поисковых систем (это больше, чем просто поиск по всем словам, указанным в запросе, а поиск с "пониманием"). В этом режиме вообще нет языка запросов. При этом желающие указывать в запросе логические операторы, могут пользоваться расширенным поиском со страницы http://yandex.ru/advanced.html

На странице выдачи результатов добавлена возможность <Найти похожие документы>, чего опять же нет у других российских поисковых систем.

Со 2-го февраля 1998 года в поисковой системе Яndex появилась возможность осуществлять повторный поиск только в найденных документах (нужно в случае, если найденно слишком много документов для уточнения запроса). Это некоторый эквивалент опции Refine Альтависты.

Russian Express TELA поиск Rambler Яndex Апорт Поиск
Тип Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая Полнотекстовая
Размер 500.000 140.094 2.500.000 2.000.000 2.600.000
Период обновления 20 дней 3-4 недели 1 раз в неделю перманентно раз в сутки (от 10 до 40 тысяч документов)
Дата обновления Нет, в проекте да Да Да, при расширенной выдаче результатов Да Да
Указанные (submittes) страницы 20 дней - 7-14 дней 1-2 дня 1-15 дней
Неуказанные (non-submitted) страницы 20 дней - до 3 месяцев в зависимости от популярности документов лимитируется скоростью обновления индекса
Глубина индексирования 5.000 документов на глубину 150 20 документов неограничена неограничена неограничена
Поддержка фреймов Да Да Да Да Да
Поддержка ImageMap Да Да Да Да Да
Индексирование защищенных паролями директорий и серверов Возможно Нет Возможно Возможно Нет
Учет популярности документа при реиндексировании Нет (в проекте - да) Нет Нет Да Нет
Использование robots.txt Да robots.txt - да

META - нет

Да Да Да
Влияние на алгоритм определения релевантности Нет Пока нет, в проекте - META-Keywords Нет и не будет Пока не поддерживаются Пока не поддерживаются
Title пока URL title title или URL и относительная мера релевантности title и URL title
Description META-таг Description и часть текста документа Первые строки документа Первые 512 байт документа исключая meta, javascript, images... Существуют еще две формы вывода описания - короткая и длинная Выдаются первые 1024 байт текста, мера релевантности, дата создания и объем документа Предложения, содержащие слова запроса (1, 3 или до 10)
Контроль за индексацией Нет Явно - нет, косвенно - указав в качестве критерия URL Да (См. подробнее) Пока нет Да (См. подробнее)
Имя поискового робота www.search.ru - StackRambler/1.2 YandexWeb Aport

Составил Андрей Аликберов, ЦИТ. Последние изменения 6 января 1998 года

Достижение оптимального индексирования Вашего сервера поисковыми машинами

Нет никакого волшебства и секретных методов для того, чтобы заставить страницу появиться в начале листинга любой поисковой машины. Каждая поисковая машина определяет релевантность по-своему. В довершение всего появляются новые страницы, старые обновляются - соответственно меняется и листинг.

Ниже предлагаются несколько общих советов, которые могут помочь Вам увеличить появление Ваших страниц в листингах поисковых машин. Часто это очень простые идеи, которые были выпущены из виду. Все эти советы расширены дополнительной информацией о дизайне и управлении страницами (в разрезе поисковых машин).

Общие советы

На вашей странице должен быть текст.

Поскольку поисковые машины индексируют именно текст (извините за прописные истины). Страница с недостаточным количеством текста имеет мало шансов попасть в список ответа на запрос пользователя.
Не забывайте, что текст на картинке не может быть распознан поисковой машиной, поэтому рекомендуется записывать в таг ALT не только название рисунка, но и важнейшие слова из него (если они есть). Часто встречающаяся ошибка - большой сложный рисунок, содержащий множество ключевых слов, выносится вебмастером в отдельный HTML-файл. Это понятно: не хочется перегружать файл с текстом такой громадиной. Однако в это отдельном файле есть только заголовок, собственно сам рисунок, и далеко не всегда - подпись к рисунку из пары-тройки слов. А представляете, если в ALT и META записаны все слова из рисунка!
Кстати говоря, существует такое понятие, как спамминг - к примеру: когда люди повторяют слова маленьким фонтом или цветом фона страницы, чтобы не было заметно через броузер. Этими хитростями действительно обманываются поисковые машины. Ожидается, что поисковые машины будут учитывать подобные вещи при индексации страниц.

Принцип перевернутой информационной пирамиды.

Газетчики очень хорошо знают как это делается. Грубо говоря, необходимо в начале документа выдавать его "изюминку". Это полезно как для людей, так и для поисковых машин. Однако то, что видно человеку в шапке документа, в исходнике не всегда находится в начале. К примеру, при табличной организации документа его релевантность некоторому запросу может оказаться ниже, чем при простой страничной организации того же самого документа. Вывод прост: включите аннотацию документа в начало документа и в META-таги (газетчики всегда пишут после заголовка статьи пару абзацев жирным шрифтом, после чего идет собственно статья) или упростите дизайн страницы (если это возможно).

Тщательно выбирайте ключевые слова.

Фокус двух или трех ключевых слов может оказаться более сильным аргументом в определении релевантности запросу, чем слова в заголовке или документе. Часто ключевые слова имеются в тексте, но не в заголовке документа.
Использование синонимов в ключевых словах не обязательно окажется решающим фактором при определении релевантности. Часто одно "экстра-слово" лучше помогает, чем подборка синонимов. Кстати, это не означает, что плохо записывать несколько таких "экстра-слов".

Указывайте ключевые страницы Вашего сервера.

Большинство поисковых машин индексируют страницы по гипертекстовым ссылкам из указанной (submitted) страницы. Иногда они, правда, ошибаются, поэтому полезно указывать первые три уровня дерева страниц сервера или те страницы, которые наилучшим образом отражают суть сервера.
В статье Характеристики основных поисковых машин можно почерпнуть более подробные сведения об основных поисковых машинах.

Необходимо наличие ссылок на внутренние страницы.

Опять прописная истина, но поисковые машины отыскивают страницы именно по гипертекстовым ссылкам. Вообще говоря, чем больше ссылок внутри дерева документов на сервере, тем больше вероятность того, что ни одна страница не будет забыта при индексировании. Верно и обратное: если есть ссылки на другие, внешние сервера, то есть вероятность, что поисковый робот уйдет по этим ссылкам, не до конца проиндексировав страницы.

Фреймы могут погубить Ваши усилия.

Некоторые поисковые машины не могут проводить индексацию по ссылкам из FRAMESET. Чтобы избежать этого необходимо обеспечить альтернативный вход и индексацию страниц, использовать META-таги или упростить дизайн. Более подробно об этом можно прочитать ниже.

"META-миф".

META-таги могут помочь контролировать действия поисковых роботов и машин, однако некоторые машины "умеют" работать со всеми тагами, некоторые - только с несколькими тагами, остальные и вовсе на воспринимают подобные вещи. Отсюда следует вывод, что использование META-тагов НЕ ГАРАНТИРУЕТ, что Ваши страницы окажутся первыми в списке ответов на пользовательский запрос к машине. Детали можно понять, прочитав статью "Несколько слов о роботах поисковых машин".

Интерактивность. Что может быть лучше? Однако...

Генерация страниц через CGI или необходимость использования баз данных? Ожидается, что некоторые поисковые машины не будут индексировать подобные страницы. Рекомендации могут быть следующими: создание статических страниц везде, где это возможно, использование баз данных для обновления уже существующих и при этом статических(!) страниц, ни в коем случае не генерировать их на лету. Еще одна деталь: очень плохо относятся поисковые роботы к специальным символам в URL, особенно к символу '?'

Забудьте про спамминг.

С одной стороны спамминг - это не этично, с другой - никто кроме вебмастера не сможет точнее определить суть сделанных им документов. Альтернативные формы паблисити на сети описаны ниже.

Будьте бдительны!

Если ваши страницы уже попали в индексы поисковых машин, проверяйте это не реже раза в неделю. Иногда случаются странные вещи. Страницы исчезают из индексов. Линки становятся искаженными. Если Вы заметили подобные вещи - укажите страницы поисковой машине еще раз.

Повторное указание страниц.

Многие поисковые машины сейчас индексируют сайты в соответствии с их изменением. Это хорошо, если сайт редко изменяется, и реиндексация его один-два раза в год - нормально. Если же сайт изменяется часто, рекомендуется регулярно указывать страницы поисковым машинам, раз в один-два месяца. Это может гарантировать, что содержимое индекса в поисковых машинах не будет отличаться от реального содержания страниц.

Итоги.

Поисковые машины это основной путь, по которому люди могут зайти на Ваш сайт, однако не единственный. К числу оставшихся путей можно отнести традиционную рекламу, средства массовой информации, почтовые рассылки и информация из телеконференций, рекламные сети, веб-каталоги и ссылки с других серверов. Зачастую эти пути далеко не так эффективны, как при использовании поисковых машин.

Копирование фреймов

Note: Этот материал предназначен для тех, кто достаточно хорошо знаком с фреймовыми структурами. Если это не так, рекомендую ознакомиться сначала с информацией о фреймах и их использовании ниже.

Большинство поисковых машин не умеют работать с фреймовыми структурами. Они не будут проверять ссылки, определенные в структуре FRAMESET. Для того чтобы поисковые машины отработали таки ссылки из FRAMESET следует предпринять специальные меры по дублированию ссылок из FRAMESET в конструкции NOFRAMES. Теперь подробнее: В большинстве случаев фреймовые структуры используются для обеспечения удобства навигации внутри сервера. В маленьком фрейме делаются ссылки на разделы сервера, в большом отображаются собственно документы с информацией. То есть с помощью маленького фрейма идет управление переходами по большому. Рассмотрим простой пример. Имеется структура из двух окон: в одном отображается навигационное меню, во втором - информация по каждому из пунктов.
Поисковые машины похожи на уже устаревшие версии броузеров типа первых Netscape Navigator и MS Internet Explorer, которые еще не умели работать с фреймами. Когда робот заходит на управляющий фреймами файл, он видит только содержимое NOFRAMES, а именно строку "Извините! Для просмотра этого сайта необходимы броузеры, поддерживающие фреймы!". Вы думаете, подобное способствует успешной индексации сервера? Ни одной ссылки нет, идти роботу некуда. Соответственно он вносит в индекс поисковой машины эту строчку и отваливает, а сотни Ваших прекрасных и полезных страниц оказываются для него не видны.
Одним из решений подобной проблемы могут быть META-данные для этой страницы, однако это лишь частичное решение, поскольку не все поисковые машины поддерживают META-таги. Кроме того, не забывайте про людей, пользующихся старыми версиями броузеров. Ведь они увидят все ту же единственную строку, и пойти дальше им некуда! Им остается лишь нажать кнопку "Back".
Второе решение таково: в содержимое NOFRAMES вставляется полный каталог документов Вашего сервера или что-либо в этом роде. Получается типичная карта сервера, пусть не такая симпатичная как с использованием фреймов, зато и люди видят, куда им дальше податься и роботы поисковых машин могут идти по ссылкам и индексировать содержимое. У этого решения есть два узких места:

  1. Вебмастеру при обновлении сервера приходится следить за корректностью фреймовой части и не забывать обновлять содержимое NOFRAMES.
  2. Если человек попал не на заглавную страницу сервера, он увидит документы без фреймов. А если в документе нет навигационных средств (ссылок дальше), получается ситуация "Dead end". Поэтому при создании сервера с использованием фреймов не забывайте включать средства навигации в каждый документ!

Мой Вам совет: используйте фреймы только тогда, когда без них уже ну никак нельзя обойтись.

Источники информации о фреймах и их использовании

Проверка статуса URL

В одних поисковых машинах довольно просто проверить насколько глубоко проидексирован сервер, в других - сложнее. Ниже описаны возможные способы проверки для различных поисковых машин

Alta Vista
В этой поисковой машине проверку статуса URL осуществить довольно просто - достаточно набрать в строке запроса:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

В первом случае будут выданы все проиндексированные страницы сервера. Во втором - только страницы Windows-кодировки. В третьем - есть ли в индексе AltaVista файл index.shtml из указанной директории

Excite
Так же просто как и в AltaVista проверяется статус URL в поисковой машине Excite. Достаточно набрать URL. Например:

http://citforum.ru/win/database/articles/art_1.shtml

HotBot
Несколько по-другому проверяется статус URL в поисковой машине HotBot. Это делается так:

  • Введите URL в поле запроса
  • Измените опцию "all of the words" на "links to this URL"

Infoseek

http://www.infoseek.com/Forms?&sv=IS&lk=noframes&pg=special.html

<

WebCrawler
WebCrawler предоставляет возможность проверить статус URL на странице:

http://www.webcrawler.com/WebCrawler/Status.html

Rambler
В этой поисковой машине статус URL можно проверить двумя способами.

  • В разделе "Расширеный поиск" путем указания имени сервера в качестве маски в одной из опций
  • Можно набрать $URL:www.citforum.ru в обычном поле запроса

Aport
Для проверки статуса URL в этой поисковой машине есть специальный запрос url=www.citforum.ru/*

Измерение популярности

Лучший способ определить как люди попадают на Ваш сервер - посмотреть файл статистики (если конечно он содержит поле HTTP_REFERER). Можно сделать это и с помощью поисковых машин. Общий для всех машин способ - набрать имя сервера, однако в этом случае в результаты запроса попадут и страницы самого сервера. Более продвинутые способы проверки наличия ссылок на Ваш сервер с других изложены ниже.

Alta Vista
Чтобы проверить наличие ссылок на Ваш сервер с других достаточно набрать в окне запроса:

link:citforum.ru

Excite
Просто наберите URL Вашего сервера в окне запроса

HotBot
Наберите URL Вашего сервера в окне запроса и смените опцию "all of the words" на "links to this URL"

Infoseek
Поисковая машина Infoseek предоставляет возможность измерить популярность сервера на странице"Special Searches":

http://www.infoseek.com/Forms?&sv=IS&lk=noframes&pg=special.html

WebCrawler
Как и на InfoSeek здесь есть специальная страница:

http://www.webcrawler.com/WebCrawler/Links.html

Чего люди хотят от этой жизни, что спрашивают..

Списки наиболее популярных запросов к поисковым машинам можно посмотреть:

  1. За рубежом:
    • WebCrawler Search Ticker
      Вам понадобится броузер с поддержкой Java чтобы увидеть это во всей своей красе

    • Magellan Search Voyeur
      20 случайно выбранных запросов в реальном времени.
    • Yahoo Top 200 Search Words
      200 самых популярных запросов к Yahoo
  2. У нас:
    • Top 100 Search Word
      Статистика частоты упоминания слов в запросах к поисковой машине Rambler
Источник: www.citforum.ru
Поисковые cистемы обычно состоят из трех компонент: агент (паук или кроулер), который перемещается по Сети и собирает информацию; база данных, которая содержит всю информацию, собираемую пауками; поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.







FDMua.com предлагает полный сервис по разработке сайтов, систем управления контентом за приемлемую цену.  Web-дизайн и создание сайта любой сложности (веб-дизайн сайтов, разработка сайтов, web программирование), поддержка сайта.
© 2005 - 2009 FDM-Design.
Создание сайтов, дизайнов, систем управления сайтами CMS.
E-mail: Заполнить форму заказа услуг
Яндекс цитирования Rambler's Top100
Кодекс оптимизатора
Render time: 0.151 sec