Как ведут себя пользователи поисковиков и что нам с этим делать?
Как ведут себя пользователи поисковиков? На что они обращают внимание в первую очередь? Какие шаги предпринять для того, чтобы оказаться на первых строчках выдачи и чтобы привлечь целевую аудиторию? Ни для кого не секрет, что оптимизация сайта для поисковых машин является мощным средством привлечения клиентов на сайт. Удивляет другое – отсутствие серьезных общедоступных исследований в области продвижения интернет-ресурсов с помощью поисковиков.
Регистрация на поисковиках – через тернии к звездам
Перед тем как приступить к регистрации ваших веб-страниц на поисковых машинах, очень важным является качество вашего сайта. Его степень определяют несколько разнородных факторов. Одним из таких факторов является полнота веб-проекта, наличие и готовность всех предусмотренных по плану страниц. Для проверки целостности сайта пройдитесь по всем ссылкам на всех страницах (это весьма реально даже для сайта величины 50-100 страниц). Убедитесь в том, что ...
Советы по выбору доменного имени для сайта
Необходимость иметь своё собственное доменное именя не может быть переоценена. Если вы имеете бизнес в интернете, но не имеете своего собственного домена - вы теряете тысячи долларов. Почему? Потому что, пока у вас нет собственного домена, клиенты, приобретая у вас товары не чувствуют доверия к вам. Чтобы осуществлять долгосрочные продажи, необходимо иметь собственную репутацию в сети. И доменное имя - это первый шаг. Итак, теперь вы знаете, что вам необходим домен, но как его назвать?
Логотипы как это делается. Ч.3
Не является ни для кого секретом, что каждый человек имеет индивидуальное, субъективное мировосприятие. Одни и те же знаки у разных людей, в силу различного опыта, образования, круга общения и пр. и пр. могут вызывать абсолютно разные (зачастую противоположные по своему значению) ассоциации, а значит - и разные эмоции. Казалось бы, невозможно предугадать "уровень распущенности" миллионов потребителей.
Логотипы как это делается. Ч.2
Покончив с анализом, приступим к более творческому процессу - собственно созданию (ваянию, клепанию, рисованию, и т.д.) логотипа.
Рейтинг CTR - один из самых известных инструментов оценки эффективности баннера, хотя его повсеместное использование представляется мне не вполне адекватным задачам, ставящимся перед рекламными кампаниями.
Очевидно, что простой расчет "количество показов на странице деленное на количество переходов со страницы" дает цифру говорящую скорее о среднем CTR баннеров, показываемых на этой странице, а не о достоинствах или недостатках данной страницы. Более того -- очевидно, что CTR сайта величина относительная. Действительно -- никто не может сказать заранее, сколько раз щелкнут по произвольному баннеру на конкретной странице - можно только предположить, что эта цифра будет где-то рядом со средним значением CTR баннера. На самом деле рекламодателю интересно, улучшает эта конкретная страница показатель его баннера или ухудшает, и термин CTR баннера явно про это.
Собственно, при такой постановке задачи, расчеты для первого приближения становятся достаточно простым делом -- нужна только достаточно объемная статистика. Средний CTR сайта рассчитывается как отношение среднего CTR пакета баннеров к CTR этого же пакета на этой странице. Эта цифра имеет положительное или отрицательное значение и говорит на сколько процентов изменяется значение CTR для среднестатистического баннера, размещенного на этой странице.
Однако, подобная цифра не отражает в полной мере привлекательность (или непривлекательность) страницы для рекламодателя. Очевидно, что для более правдоподобной оценки необходим, как минимум, еще один показатель -- CTR совпадения аудитории. Опытные рекламщики понимают -- программы, например, более эффективно рекламировать на страницах, посвященных программам же, или, к примеру, компьютерам. В этих случаях целевая аудитория баннеров и страницы совпадает и CTR таких баннеров поднимается. Расчет этого коэффициента также очевиден -- отношение CTR тематического баннера к CTR пакета на данной странице.
После проведения всех этих расчетов мы получаем 2 цифры, смыл которых можно во вполне доступной форме объяснить любому желающему. Например:
Страница "Наши Услуги"
CTR
-10%
целевой CTR
+25%
заявленная аудитория
студенты-ядерщики
что по-русски означает -- средне-статистический баннер нажимается на этой странице на 10% реже чем в среднем, но, если при этом целевые аудитории совпадают, процент нажатий на баннер возрастет на 15% (-10+25=15). Если Вас интересуют студенты ядерщики - однозначно это та страница, которая Вам нужна, если нет -- лучше сюда не соваться.
Замечу, что ситуация с полярными CTR страницы, то есть, когда одно значение меньше нуля, а второе больше представляется мне не таким уж и надуманным. И, что самое интересное, из понимания этой ситуации видно и другое, крайне важное понимание - CTR, как показатель качества, пригоден только при работе на целевую аудиторию. Казалось бы - достаточно разместить баннер только на страницах с совпадающей целевой аудиторией, и эффективность вашей рекламы возрастет. Но при этом очевидно, что Вы сознательно ограничиваете ареал распространения рекламируемых страниц. Что, тактически, не обязательно оправдано - замечено, что внутри целевой аудитории информация имеет тенденцию распространятся значительно быстрее, чем в среднем. Один человек из целевой аудитории, попавший на Ваши страницы, в крайне короткий срок приведет за собой целый куст посетителей, автоматически снижая эффективность каждого следующего показа вашего баннера. Именно эффективность, а не CTR, поскольку клик в баннер человека, который завтра о вашей стран ице узнает САМ, это понижение эффективности рекламы. Остается вопрос - насколько Вам интересно привлечение людей извне целевой аудитории. При серьезном размышлении ответ может серьезно не совпасть с первоначальным. К примеру, вы формулируете целевую аудиторию, как "люди, желающие приобрести шуршунчика через интернет". Конечно, сайт "Кто такой шуршунчик?" будет давать Вам довольно эффективные клики. Но изрядная часть аудитории ничего не знает сейчас о шуршунчиках, а некоторые захотят его иметь только в следующем году, когда Ваша рекламная кампания закончится. Показ этой аудитории, пока еще нецелевой, вашего баннера не эффективен с точки зрения CTR, однако через некоторое время его эффект может быть куда более значительным, чем эффект от целевых показов.
Справедливости ради, надо заметить, что подобный эффект ОЧЕНЬ зависит от баннера, который вы размещаете.
Все очень просто, как я уже говорил, поисковые машины могут дать до сорока процентов трафика к сайту. А чтобы это происходило, необходимо, чтобы Ваш сайт был правильно проиндексирован, а для этого необходимо знать, как это делается.
А делается это следующим образом: либо робот поисковой машины сам добирается до вашего сайта, либо Вы сами указываете сайт в соответствующем интерфейсе (AddUrl), который наличествует в любой уважающей себя поисковой машине. Первый вариант страдает затянутостью (пока еще робот доберется, может через день, может через год: Internet-то большой). Второй - требует затратить некоторое время (разнообразный софт для автоматической регистрации Вашего сайта в туче поисковых машин нам ничего не дает - машины-то импортные).
Чтобы все произошло в лучшем виде требуется:
на сайте должет быть хоть какой-нибудь текст. Картинки и тест на них поисковые машины игнорируют. Правда, можно продублировать текст в атрибуте alt тага img
В каждом документе сайта ОБЯЗАТЕЛЬНО должны присутствовать осмысленный заголовок (title), ключевые слова (keywords) и краткое описание (description). Это только пишут, что поисковые машины - полнотекстовые, на самом деле это не так.
Изготовление файла robots.txt (особенно, если у вас есть собственный сервер типа www.name.ru).
Прописка вручную в каждой интересующей Вас поисковой машине и последующий контроль индексирования Вашего сайта.
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Сама тема «разбор запросов, заданных на естественном языке» — это не будущее, а прошлое поисковых систем, из тех времен, когда проектировщики поисковиков еще не знали, как же на самом деле массовый пользователь будет пользоваться их детищем. Теперь, когда строка запроса — рабочий инструмент у пол-миллиарда человек, иллюзии развеялись.
На «естественном языке», точнее на том, что под этим многие понимают — длинные сочинительно-вопросительные конструкции — люди вопросы не задают, не задавали и задавать не будут никогда. Причина проста: людям свойственно экономить свои силы и время.
Реальная задача, стоящая перед пользователем: за минимальное число нажатий клавиш на клавиатуре и минимальное количество секунд, (например за 180, как в Кубке Яндекса), получить пертинентный, то есть удовлетворяющий прагматике (!) запроса ответ.
Таким образом, речь можно вести только о понимании телеграфного стиля общения, рваного синтаксиса и т.д. Это понимание демонстрируют многие поисковые системы. Мы в Яндексе наивно полагаем, что продвинулись дальше многих по данному пункту.
Разбор запросов в Яндексе существует уже давно. И люди этим активно пользуются, что видно по прямому эфиру (списку запросов, сделанных за последний час —http://www.yandex.ru/last20.html):
оборудование для катания с гор
Юридические энциклопедии
master of orion 3
toshiba ноутбук сервис-центр
топленое свинное сало
образец подписи в. яковлева
расписание поездов из Москвы
Что касается приведенного примера, то по результатам поиска на запрос «Где взять телепрограмму?» видно, что запрос не очень удачен — в найденных документах в основом обсуждается, где взять телевизионные программы, чтобы наполнить эфир. Лучше спросить «где взять программу передач?». А еще лучше вопрос уточнить: «программа передач на неделю» или «программа передач ОРТ».
А вот 10 первых по популярности запросов со словом «телепрограмма» (то есть то, как люди на самом деле спрашивают):
телепрограмма 4919
телепрограмма на неделю 345
телепрограмма на сегодня 139
новогодняя телепрограмма 89
телепрограмма орт 85
телепрограмма москва 83
телепрограмма окна 79
телепрограмма жди меня 76
телепрограмма нтв 67
телепрограмма стань звездой 54
Если посмотреть результаты поиска по этим запросам на Яндексе, видно, что проблема, поставленная в вопросе, несколько надумана.
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Вообще говоря, взаимодействие человека и компьютера на естественном языке, и, в частности, естественная «беседа» с поисковыми системами являются давней, но, к сожалению, до сих пор не реализованной мечтой. Рискуя навлечь на себя гнев многочисленных апологетов систем искусственного интеллекта, скажем также, что, несмотря на множество красивых и внешне правильных идей о его, искусственного интеллекта, реализации, вряд ли когда-либо в обозримом будущем он будет реализован. Однако дела обстоят не так плохо, поскольку реализация истинного машинного интеллекта для ответов на большинство вопросов пользователя вовсе не нужна. Нужно лишь приблизительно моделировать поведение разумного компонента при вычислении запроса.
Уже сейчас Рамблер пытается распознать, что именно интересует пользователя, а также тематику поискового запроса. Например, при поиске человека по его имени и фамилии (Иван Федоров), запускается специальный модуль, который оптимизирован именно под эту задачу. Аналогичные модули есть для поиска сайтов (www.somesite.ru), обработки запросов, содержащих числа (15 олимпиада), и т. д. Количество и «интеллект» таких модулей мы собираемся наращивать одновременно с совершеноствованием ядра поисковой машины.
Недавно мы начали классифицировать поисковые запросы и учитывать результаты классификации при ранжировании. Благодаря такому учету нам удалось сократить в ответах поисковика количество страниц, которые плохо соответствуют запросу.
Таким образом, некоторое приближение к ответам на естественноязыковые запросы существует уже сейчас, а необходимость корректно отвечать пользователю, задавшему вопрос «Не могли бы Вы, Ваши специалисты или Ваша поисковая машина помочь мне найти в Интернет или других изданиях цену на дрова?», весьма сомнительна в практическом отношении, хотя, конечно, представляет академический интерес.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Разбор запросов на естественном языке понемногу улучшается год от года. У Лайкоса, в силу его многоязычности (допускаются запросы на десятках языков и выбор языка, на котором должны быть найдены страницы), эта задача не в списке особо приоритетных — слишком трудно и дорого решать ее для всех языков.
Если речь идет о более-менее полноценном, хотя бы отдаленно сравнимом с человеческим, понимании любых запросов на естественном языке, то нет. А различные частичные решения возможны и реально применяются в поисковых системах.
Алексей Чуксин, директор по рекламе и маркетингу ЗАО «МЕТА»:
Такой разбор обеспечить возможно и работы по обработке запросов на естественном языке ведутся во всем мире. Однако, как показывает анализ статистики запросов крайне малое пользователей задает запрос на естественном языке. Пользователю проще написать запрос «телепрограмма» или перейти в соответствующую рубрику каталога, чем писать длинную фразу «Где взять телепрограмму». Т.е. на наш взгляд эта проблема сейчас не является первоочередной для повышения качества поиска. Думаем, что актуальной она станет с развитием голосового ввода данных, когда от поисковых систем потребуется обрабатывать запросы, заданные голосом.
Q: В прессе много говорилось о том, что Рамблер стал индексировать любые динамические страницы. Практика показывает, что это не так. Некоторые сайты действительно индексируются (например, www.artus.ru), а некоторые — нет (например, www.sanmix.ru). В ближайше
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Мы постепенно ослабляем ограничения на «динамические» страницы для всех без исключения сайтов. Осенью мы ослабили ограничения для сайтов, построеных на ASP (то есть, для URL, содержащих подстроку «.asp?»). Недавно ослабили ограничение на PHP. Через некоторе время ограничений не останется вовсе.
Рамблер во многих случаях снимает такие ограничения для сайтов, которые содержат, по мнению наших редакторов, уникальную информацию и/или являются популярными ресурсами. Также такие «послабления режима» возможны по просьбе авторов сайтов.
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Мы скоро выложим (собираемся оформить страницу и написать лицензию) программу морфологического разбора "mystem" в публичный некоммерческий доступ. После опубликования принципов работы, возможно, откроем и коды.
Однако алгоритмы ранжирования и подавления спама или непотизма ни одна поисковая система не откроет никому и никогда.
Вы думаете уже все в подрядке? Как бы не так. Если ссылка на Ваш сайт в ответе поисковой машины выводится на втором экране -"это так же плохо, как если бы ссылки вообще не было" (Danny Sullivan, searchenginewatch.com)
Иначе говоря, просто указать страницу в AddURL недостаточно. Необходимо заранее подготовить документ так, чтобы на соответствующие запросы к поисковой машине в ее ответе на запрос ссылка на Ваш документ находилась если не первой, то хотя бы в первой десятке ссылок (а лучше, если в этой десятке было несколько ссылок на Вашы документы:-). Что значит "подготовить"? Это чисто технический вопрос, ничего сверхестественного. Просто в секции HEAD каждого документа Вашего сайта стоит указать "говорящий" Title, KeyWords, Description и Robots.
Title: заголовок документа. Хороший осмысленный заголовок может заставить пользователя из множества других выбрать именно Вашу ссылку. Зачастую видишь примерно следующие заголовки: "Содержание" - чего, зачем - непонятно, не возникает желания проверять. Другой случай: на всех страницах сайта в качестве заголовка - "Добро пожаловать в компанию ..." - тоже не слишком привлекательно проверять все таким образом озаглавленные документы. Представьте себе, что выбран режим поиска по заголовкам, без описания каждого документа.
KeyWords: ключевые слова. Именно содержимое этого контейнера влияет на релевантность документа запросу поиска.
<meta name=keywords content="разделенный запятыми список ключевых слов и устойчивых словосочетаний">
Сколько ни говорят, что поисковые машины - полнотекстовые, это не совсем верно, а вот содержимое этого контейнера точно попадет в индекс поисковой машины. К сожалению, создатели одной из крупнейших отечественных поисковых машин Rambler, не хотят отрабатывать этот контейнер. А зря.
в поле content не должно быть знаков конца строки, кавычек и других специальных символов, регистр символов роли не играет
не рекомендуется повторять одни и те же ключевые слова по нескольку раз, это может быть воспринято как spam и страница рискует быть удаленной из индекса поисковой машины.
не стоит делать одинаковые keywords для разных страниц Вашего сайта. Это, конечно проще, но содержимое самих документов различное. Если очень хочется автоматизировать этот процесс, можно написать программку, которая прописывала бы в это поле все выделенные блоки документа, например, то что стоит между тагами H, I и B.
если строка в content слишком длинная, не возбраняется сделать еще несколько аналогичных конструкций.
вообще говоря, общий объем ключевых слов одного документа может достигать до 50% объема этого документа.
Description: краткое описание документа. Довольно полезный контейер, его содержимое используется как краткое описание релевантных документов в ответе современных поисковых машин. Если этого контейнера нет, то выдаются некоторое количество строк с начала документа. Соответственно, не редкая катина, когда в самом начале документа расположен JavaScript, и вместо нормального описания выдается абракадабра в виде куска скрипта.
в поле content не должно быть знаков конца строки, кавычек и других специальных символов.
желательно, чтобы здесь была осмысленная аннотация документа из пары-тройки человеческих предложений, чтобы пользователь поисковой машины помимо заголовка смог понять смысл документа.
к сожалению, отечественные поисковые машины пока не умеют работать с этим контейнером, хотя божатся, что в скором времени научатся.
На первом месте с колоссальным отрывом от остальных идет Altavista. Эта поисковая машина лидировала еще до того как там появился поиск по различным языкам (в том числе - по русскоязычным документам). Ну оно и понятно - прекрасный, легкодоступный сервер, давно работает (с начала 1996 года), огромная база документов (свыше 50 миллионов адресов). Следует также учесть, что русскоязычные пользователи находятся не только в России, но и в Болгарии, Чехии и Словакии, в Польше, Израиле, Германии, не говоря уже о бывших республиках СССР - Украина, Белоруссия ... (Особо хочу сказать о прибалтах: это они при встрече на улицах какого-нибудь Каунаса или Таллинна не знают русского языка, а перед монитором, особенно если очень нужно, очень даже знают:-)) Так вот всем этим пользователям удобнее пользоваться Альтавистой, а не нашими отечественными машинами - ближе, все таки...
Следующая по популярности поисковая машина, как ни странно, самая молодая в России - Яndex. Как мне говорил Алекей Амилющенко (компания Comptek) на сегодняшний день там наблюдается в среднем 72000 запросов в суткии и есть тенденция +10% в неделю (данные от 7.04.98). Мне кажется, Яndex наиболее перспективная российская поисковая машина. С комптековской системой разбора "великого и могучего" русского языка Яndex вполне может выйти победителем в конкуренции со вторым китом в этой сфере - Рамблером.
Рамблер - третья серьезная поисковая машина для русскоязычных пользователей. Главное, что мне в ней не нравится, так это игнорирование содержимого конструкции <meta name=keywords content=...>. (Это я не придумал, это сказал Дмитрий Крюков из компании Stack Ltd.) Наверное, именно из-за отказа учитывать ключевые слова, в результатах запросов выдаются такой странный набор ссылок. Второй недостаток чисто интерфейсного характера - результаты постоянно выдаются в кодировке КОИ, независимо от того, что выбрано пользователем перед этим. Третий недостаток: спайдер Рамблера работает по протоколу HTTP 0.9, что приводит к ошибкам индексирования, т.е. если на одном IP-адресе живут несколько виртуальных серверов, Рамблер видит только первый, а все остальные считает просто синонимами. Ну да ладно, будем надеяться, что это вскоре исправят.
Ну и на последнем месте по моему рейтингу идут Апорт-Поиск, который очень странно индексирует сервера, РусИнфОил, который регулярно закрывается на реконструкции и ТЕЛА-Поиск - красивый и почти бесполезный прибамбас для сервера www.dux.ru.
Вы спросите: а в списке были еще HotBot и метапоисковая машина Следопыт компании "Медиалингва"? Я их не забыл, просто HotBot непонятно почему оставляет в моих логах толпу записей, что не может быть случайными залетами не понимающих русского языка иностранцев (с других импортных машин таких залетов гораздо меньше), а "Следопыт" я еще недостаточно серьезно изучил.
Ну хорошо, Вы прочитали все, что было выше и так и сделали. Что же дальше? А дальше будет долгая, нудная и, главное, регулярная проверка на предмет того, как обстоят дела. Как ни печально, а придется уделять этому внимание хотя бы потому, что документы временами пропадают из поисковых машин. Почему? Знать бы... Итак, в хороших поисковых машинах можно посмотреть какие документы и сколько их в текущее время находится в индексе. Вот как это делается: В этой поисковой машине проверку статуса URL осуществить довольно просто - достаточно набрать в строке запроса:
Alta Vista url: citforum.ru url:citforum.ru/win/ url:citforum.ru/win/internet/index.shtml
В первом случае будут выданы все проиндексированные страницы сервера. Во втором - только страницы Windows-кодировки. В третьем - есть ли в индексе AltaVista файл index.shtml из указанной директории
Яндекс использует несколько роботов для разных случаев:
Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот. Посещает сайт примерно раз в месяц;
Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок. Заходит только на файлы картинок. Для своей работы использует результаты работы робота (1);
Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов. Нерегулярно посещает страницы сайта, которые подозревает на предмет дублирования информации. Изредка посещает уже "склеенные" страницы для проверки на предмет убирания дублирования. Важно! Если главные страницы двух сайтов признаются дублями, с большой долей вероятности робот считает все страницы сайта дублями (что не всегда верно);
Yandex/1.03.003 (compatible; Win16; D)—- робот, обращающийся к странице при добавлении ее через форму "Добавить URL". Ходит только по команде человека (при сабмите формы "Добавить URL"). Каждый вносимый адрес посещает дважды (почему?). Иногда в один из разов представляется как AddUrl;
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова». Заходит на страницы сайта асинхронно каждый раз, как человек в результатах поиска нажмет ссылку "показать найденные слова" напротив адреса этой страницы. Хитрость: Поисковую фразу, по которой найден сайт, и номер страницы результатаов поиска можно узнать, если анализировать Referer картинок, которые показываются на этой странице;
Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам и очень аккуратно (на одном из сайтов за период октябрь-декабрь 2004 г. запросил всего 71 страницу; за один сеанс запрашивал не более 7-и страниц). Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр.
IP-адреса роботов Яндекса со временем меняются. Смысла их отслеживать практически нет.
Робот Google представляется всегда одинаково—Googlebot/2.1 (+http://www.google.com/bot.html). Ходит он с разных адресов (если быть совсем точным, ходит сразу много роботов).
N.B. Указанные строки передаются роботами через поле User-Agent заголовка запроса и сохраняются сервером в логах. Как следствие, можно отлавливать роботов как "на лету", так и анализировать их поведение постфактум Источник: Автор: Андрей Хроленок
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Этот вопрос не по адресу. С точки зрения поисковой системы, все усилия вебмастера для «лучшего нахождения сайта» — есть нежелательный эффект, который необходимо элиминировать.
... Мы вас испытывали, — продолжал Воланд, — никогда и ничего не просите! Никогда и ничего, и в особенности у тех, кто сильнее вас.
Перефразируя Булгакова: «Никогда не накручивайте свой рейтинг...»
Что касается конкретики, таг «meta» поисковые системы чаще всего в рейтинге совершенно не учитывают. Но ничто не мешает вам поступить так, как советует стандарт HTML: написать в description внятное индивидуальной описание темы страницы, а в keywords — перечислить несколько самых важных слов.
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Поисковая система Рамблер, разбирая и индексируя документы, игнорирует содержимое тэгов <META...>, за исключением тех, которые указывают на использование кодировки, например, UTF-8. Такое решение было продиктовано прежде всего заботой о пользователе, так как нерадивые (или чересчур рьяные) вебмастера считают своим долгом указать в списке ключевых слов каждого созданного документа все известные им наиболее частые слова запросов к поисковым машинам, не имеющие обычно никакого отношения к содержимому документа.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Быть аккуратным с указанием кодировки (charset) в мета. До сих пор многие вебмастера указывают жестко одну кодировку, хотя умный русский Апач отдает кодировку в зависимости от агента - в итоге наблюдается конфликт между результатами определения языка специализированным модулем и данными из META (которые многоязычный FAST учитывает). Результат — абракадабра на странице результатов поиска.
Keywords тэг FAST не учитывает, поскольку им настолько часто злоупотребляют, что его учет снижает в итоге релевантность. Description — используется на странице выдачи результатов в описании найденного ресурса, но НЕ влияет на определение релевантности и НЕ учитывается при ранжировании.
Существует довольно распостраненное среди новичков заблуждение, что задача хорошего позиционирования сайта в поисковых системах сводится к вставке на страницы неких мета-тагов. На самом деле, грамотное составление мета-тагов keywords и description полезно, но имеет второстепенное значение, некоторые поисковые системы эти таги вообще не учитывают, а те что учитывают (к ним относится, в частности, Апорт) не придают ему большого значения.
Алексей Чуксин, директор по рекламе и маркетингу ЗАО <МЕТА>:
В связи с тем, что значительно число вебмастеров пытаются фальсифицировать данные в мета-тегах. Наша поисковая система не учитывает эти данные при определении порядка выдачи документов.
Апорт индексирует только документы в формате html. Документы некоторых других форматов могут быть найдены по тексту ссылок на них из html документов.
Алексей Чуксин, директор по рекламе и маркетингу ЗАО <МЕТА>:
В интернете наша поисковая система индексирует сейчас только html-документы. У нас есть решения, используемые нашими корпоративными заказчиками, позволяющие осуществлять поиск не только по html документам, но и по документам форматов txt, rtf, doc, dot, xls и другим популярным офисным форматам.
Можно, и даже нужно! Первое действие, которое для этого нужно совершить, это написать файл robots.txt и положить его в корень Вашего сервера. Этот файл популярно объясняет роботу поисковой машины что надо индексировать, а что не стоит. Например, зачем индексировать служебные файлы, типа статистических отчетов? Или результаты работы скриптов? Более того, многие "умные" машины просто не станут индексировать сервера, не найдя robots.txt. Кстати, в этом файле можно указать разные маски индексирования для разных поисковых машин.
Подробнее об этом можно прочитать в моем переводе "Standard for Robots Exclusion". Второе действие: снабдить страницы сайта МЕТА-тагами Robots. Это более гибкое средство управления индексацией, чем robots.txt. В частности, в этом таге можно предписать роботу поисковой машины не уходить по ссылкам на чужие сервера, например, в документах со списками ссылок. Формат этого безобразия таков:
<META NAME="ROBOTS" CONTENT="robot_terms">
robot_terms - это разделенный запятыми список следующих ключевых слов (заглавные или строчные символы роли не играют): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.
NONE
говорит всем роботам игнорировать эту страницу при индексации (эквивалентно одновременному использованию ключевых слов NOINDEX, NOFOLLOW).
ALL
разрешает индексировать эту страницу и все ссылки из нее (эквивалентно одновременному использованию ключевых слов INDEX, FOLLOW).
INDEX
разрешает индексировать эту страницу
NOINDEX
неразрешает индексировать эту страницу
FOLLOW
разрешает индексировать все ссылки из этой страницы
NOFOLLOW
неразрешает индексировать ссылки из этой страницы
Если этот мета-таг пропущен или не указаны robot_terms, то по умолчанию поисковый робот поступает как если бы были указаны robot_terms=INDEX, FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое слово ALL, то робот поступает соответственно, игнорируя возможно указанные другие ключевые слова.. Если в CONTENT имеются противоположные по смыслу ключевые слова, например, FOLLOW, NOFOLLOW, то робот поступает по своему усмотрению (в этом случае FOLLOW).
Если robot_terms содержит только NOINDEX, то ссылки с этой страницы не индексируются. Если robot_terms содержит только NOFOLLOW, то страница индексируется, а ссылки, соответственно, игнорируются.
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Подробности поведения робота - без комментариев.
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Поисковые системы, и Рамблер в том числе, ориентированы прежде всего на web-документы, так что форматирование имеет не последнее значение. Конечно, оно учитывается при вычислении релевантности.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Q: На практике (на своих сайтах) замечено, что паук АПОРТа плохо индексирует сайты. Как правило паук не индексирует больше 400 страниц, даже при повторном индексировании паук не заходит на остальные страницы. С чем связано такое явление? (для справки, все ст
Q: При предоставлении информации существуют несколько очень важных факторов (на мой взгляд):
законность информации, достоверность информации, актуальность информации.
По каждому пункту у меня имеются отдельные вопросы:
Считаете ли Вы, что поисковые системы не должны (или не имеют права) предоставлять ссылки на страницы с содержанием, которое противоречит законам и моральным нормам? Если да, то будете ли Вы создавать такую поисковую систему, которая не будет выдавать ссылки на похабщину, порно и др.?
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Здесь есть несколько аспектов, среди которых один — ответственность поисковой системы.
Мы считаем, что ПС — автоматическая система, и в этом смысле не несет равной автору ответственности за содержание выдаваемой информации. Кроме того, мы не считаем себя вправе цензурировать содержание Интернета.
Однако с точки зрения пользовательского сервиса мы делаем все, чтобы помочь той очистке, о которой Вы говорите. В частности, мы первая и до сих пор (вот уже 4 года) единственная в России ПС, реализующая порно-фильтрацию при использовании «Семейного Яндекса» (family.yandex.ru). В настоящее время мы работаем над фильтрацией фашистских сайтов.
При хостинге сайтов у себя (на Народе) мы придерживаемся другой политики — не разрешаем размещать содержание, «которое противоречит законам и моральным нормам» (см. Пользовательское соглашение http://www.yandex.ru/info/agreement.html).
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Поисковая система в настоящий момент является своего рода оглавлением к большой-большой книге, или даже библиотеке, которая называется Интернет, поэтому вопрос о том, стоит ли находить по нецензурным запросам нецензурные документы, сродни вопросу о том, следует ли выносить нецензурные слова в алфавитный индекс книги :-).
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Это реализуемо только в некоторых пределах — так называемые семейные фильтры имеются во многих системах и до некоторой степени справляются со своими обязанностями. О законах и моральных нормах труднее говорить, ибо они меняются не только от страны к стране (а поиск даже на одном языке в современном мире неизбежно глобален), но и в зависимости от, например, религии. Для ортодоксального иудея ссылки на рецепты блюд из свинины, например, могут быть достаточно оскорбительны. Однако отфильтровать их, угадав религиозную принадлежность пользователя, вряд ли возможно.
Я не думаю, что поисковые системы должны заниматься цензурой. В то же время, предоставление пользователю возможности исключения из поиска документов «только для взрослых» по его желанию, безусловна полезна.
Считаете ли Вы, что поисковые системы должны содержать в своей БД ссылки только на страницы с достоверной информацией (или иметь такую опцию, чтобы пользователь сам для себя решал: - искать достоверное, - или нет)? Если да, то как по Вашему, данная концепция реализуема или это невозможно?
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Достоверность — это один из факторов, влияющих на ранжирование при анализе социальной сети.
Например, на выявление и удаление из результатов поиска (или понижение ранга) не оригинальных (скопированных) материалов нацелены процедуры выявления и удаления точных и неточных дубликатов и зеркал.
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Оценка достоверности информации в автоматическом режиме в настоящий момент вряд ли возможна, так как для этого требуется сформулировать соответствующие критерии, которые сработали бы практически для любого текста; ожидать же, что программный комплекс, даже имеющий в своем составе самое мощное лингвистическое ядро, справится с задачей, непосильной даже для человека, по меньшей мере рано.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Нет, не считаем. Мы не беремся работать «министерством правды».
Достоверность определить, конечно, нельзя, можно только попытаться оценить ее по некоторым косвенным признакам (к примеру, информация с корпоративного сайта известной компании заслуживает доверия в большей степени, чем информация с домашней странички Васи Пупкина). Не думаю, что в этом есть смысл, так как критерии по которым можено провести такую оценку слишком грубые.
Считаете ли Вы, что поисковые системы должны иметь более развитое средство (чем указание при поиске «даты документа»), позволяющее пользователю находить только ссылки на странице с актуальной информацией? Если да, то Вы работаете над этим? Я считаю, что ПС предоставляют информацию в виде: ссылок на источник и выдержки из данного источника (которую так же можно отнести к одному из перечисленным мною факторам).
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Да, мы активно работаем над проблемой выявления, индексации и ранжирования «новой» актуальной информации.
Пока существенных результатов мы не добились, но готовим продвижение в сторону вовлечения в анализ социальной сети фактора «новизны».
Кроме того, с 2000-го года в параллельной выдаче Яндекса присутствует лента новостных агентств (более 50 участников), что частично снимает проблему «новизны».
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Актуальность информации достигается в настоящий момент увеличением частоты обхода сети Интернет поисковой системой.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Задачу частично решает отдельный поиск по новостям, в котором очень часто переиндексируется некоторый набор явно заданных источников. В FAST эта опция реализована, планируется ее появление на российском Лайкосе.
Q: Сколько человеко-часов в месяц ваша компания тратит на совершенствование алгоритмов поиска (или разработку новых стратегий поиска) и сколько — на сопутствующие «навороты» типа дизайна и доп. сервисов?
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Над совершенствованием алгоритмов индексирования и поиска работает немного человек: основных алгоритмистов в поиске примерно пятеро-шестеро. Много их и не может быть.
Если считать со всей «обвязкой» (например: локальный софт — Сайт, Бар, поисковые проекты — Каталог, Маркет, Новости, Энциклопедии, Картинки, и т.д.), в которой много своих алгоритмических задач, то получается больше — человек 12.
Но Яндекс это не только поиск и не только поисковые проекты, у нас есть еще и Почта и Народ, и много чего еще. И там тоже масса нетривиальных задач и алгоритмов. Одна борьба с почтовым спамом чего стоит! А всего программистов в Яндексе около 30.
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Основные усилия мы тратим именно на совершенствование поиска. Это и улучшение качества поиска и увеличение производительности поисковой системы. На дизайн и дополнительные сервисы ресурсов выделяется меньше.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Огромный объем работы по совершенствованию алгоритмов и новых подходов к поиску ведется FAST-ом (а именно его индекс использует в своем поиске Лайкос). Речь идет о десятках сотрудников, работающих на этим полный рабочий день в Норвегии и США, о заказах некоторых работ университетам... Трудно перевести все это в точную цифру человеко-часов. Дизайном и дополнительными сервисами поиска (например, наш Популяриметр, оптимизация выдачи поиска картинок и пр.) в головном офисе «Лайкос Европа» занимаются 2-3 человека.
Q: Учитывают ли поисковые роботы HTML-тэги, добавляющие структурную информацию в текстовые фразы? А конкретнее тэги <EM> и <STRONG>, предписанные стандартом для выделения? Если да, то в какой степени эти тэги усиливают значимость («вес») заключенного в них текста? Хотя бы в сравнении с тэгами <I> и <B>, которые они призваны заменить?
Для проверки статуса URL в этой поисковой машине есть специальный запрос url=www.citforum.ru/*
В этой поисковой машине статус URL можно проверить двумя способами. WebCrawler предоставляет возможность проверить статус URL на странице: В поисковой машине Infoseek для проверки статуса URL существует отдельный интерфейс с целым набором настроек: Несколько по-другому проверяется статус URL в поисковой машине HotBot. Это делается так: Так же просто как и в AltaVista проверяется статус URL в поисковой машине Excite. Достаточно набрать URL. Например:
Сайт целиком и полностью посвященный виду рукоделия Вышивка крестиком и всему, что с ней связано! Вышивание крестом – великолепное и самое популярное рукоделие. Некоторые вышивальщицы остаются верны этому шву навсегда. Вышивки крестом смотрятся эффектно, особенно тогда, когда крестик выглядит идеально. Набор схем по вышивке в формате *.xst
www.artgorizont.com
Продажа. Картины, живопись, графика, рисунки, скульптура. Современное искуство: живопись и скульптура. Художники: классики и современники.