Возможно ли в ближайшем будущем обеспечить разбор запросов (вопросов) заданных естественным языком? Например, «Где взять телепрограмму?» |
| [ Рубрика: Поисковые машины
| Комментарии ]
|
Илья Сегалович, руководитель отдела поисковых систем компании «Яндекс»:
Сама тема «разбор запросов, заданных на естественном языке» — это не будущее, а прошлое поисковых систем, из тех времен, когда проектировщики поисковиков еще не знали, как же на самом деле массовый пользователь будет пользоваться их детищем. Теперь, когда строка запроса — рабочий инструмент у пол-миллиарда человек, иллюзии развеялись.
На «естественном языке», точнее на том, что под этим многие понимают — длинные сочинительно-вопросительные конструкции — люди вопросы не задают, не задавали и задавать не будут никогда. Причина проста: людям свойственно экономить свои силы и время.
Реальная задача, стоящая перед пользователем: за минимальное число нажатий клавиш на клавиатуре и минимальное количество секунд, (например за 180, как в Кубке Яндекса), получить пертинентный, то есть удовлетворяющий прагматике (!) запроса ответ.
Таким образом, речь можно вести только о понимании телеграфного стиля общения, рваного синтаксиса и т.д. Это понимание демонстрируют многие поисковые системы. Мы в Яндексе наивно полагаем, что продвинулись дальше многих по данному пункту.
Разбор запросов в Яндексе существует уже давно. И люди этим активно пользуются, что видно по прямому эфиру (списку запросов, сделанных за последний час —http://www.yandex.ru/last20.html):
- оборудование для катания с гор
- Юридические энциклопедии
- master of orion 3
- toshiba ноутбук сервис-центр
- топленое свинное сало
- образец подписи в. яковлева
- расписание поездов из Москвы
Что касается приведенного примера, то по результатам поиска на запрос «Где взять телепрограмму?» видно, что запрос не очень удачен — в найденных документах в основом обсуждается, где взять телевизионные программы, чтобы наполнить эфир. Лучше спросить «где взять программу передач?». А еще лучше вопрос уточнить: «программа передач на неделю» или «программа передач ОРТ».
А вот 10 первых по популярности запросов со словом «телепрограмма» (то есть то, как люди на самом деле спрашивают):
- телепрограмма 4919
- телепрограмма на неделю 345
- телепрограмма на сегодня 139
- новогодняя телепрограмма 89
- телепрограмма орт 85
- телепрограмма москва 83
- телепрограмма окна 79
- телепрограмма жди меня 76
- телепрограмма нтв 67
- телепрограмма стань звездой 54
Если посмотреть результаты поиска по этим запросам на Яндексе, видно, что проблема, поставленная в вопросе, несколько надумана.
Андрей Коваленко, ведущий разработчик компании «Рамблер»:
Вообще говоря, взаимодействие человека и компьютера на естественном языке, и, в частности, естественная «беседа» с поисковыми системами являются давней, но, к сожалению, до сих пор не реализованной мечтой. Рискуя навлечь на себя гнев многочисленных апологетов систем искусственного интеллекта, скажем также, что, несмотря на множество красивых и внешне правильных идей о его, искусственного интеллекта, реализации, вряд ли когда-либо в обозримом будущем он будет реализован. Однако дела обстоят не так плохо, поскольку реализация истинного машинного интеллекта для ответов на большинство вопросов пользователя вовсе не нужна. Нужно лишь приблизительно моделировать поведение разумного компонента при вычислении запроса.
Уже сейчас Рамблер пытается распознать, что именно интересует пользователя, а также тематику поискового запроса. Например, при поиске человека по его имени и фамилии (Иван Федоров), запускается специальный модуль, который оптимизирован именно под эту задачу. Аналогичные модули есть для поиска сайтов (www.somesite.ru), обработки запросов, содержащих числа (15 олимпиада), и т. д. Количество и «интеллект» таких модулей мы собираемся наращивать одновременно с совершеноствованием ядра поисковой машины.
Недавно мы начали классифицировать поисковые запросы и учитывать результаты классификации при ранжировании. Благодаря такому учету нам удалось сократить в ответах поисковика количество страниц, которые плохо соответствуют запросу.
Таким образом, некоторое приближение к ответам на естественноязыковые запросы существует уже сейчас, а необходимость корректно отвечать пользователю, задавшему вопрос «Не могли бы Вы, Ваши специалисты или Ваша поисковая машина помочь мне найти в Интернет или других изданиях цену на дрова?», весьма сомнительна в практическом отношении, хотя, конечно, представляет академический интерес.
Андрей Себрант, генеральный продюсер, директор по стратегии Lycos-Russia:
Разбор запросов на естественном языке понемногу улучшается год от года. У Лайкоса, в силу его многоязычности (допускаются запросы на десятках языков и выбор языка, на котором должны быть найдены страницы), эта задача не в списке особо приоритетных — слишком трудно и дорого решать ее для всех языков.
Михаил Костин, руководитель проекта «Апорт»:
Если речь идет о более-менее полноценном, хотя бы отдаленно сравнимом с человеческим, понимании любых запросов на естественном языке, то нет. А различные частичные решения возможны и реально применяются в поисковых системах.
Алексей Чуксин, директор по рекламе и маркетингу ЗАО «МЕТА»:
Такой разбор обеспечить возможно и работы по обработке запросов на естественном языке ведутся во всем мире. Однако, как показывает анализ статистики запросов крайне малое пользователей задает запрос на естественном языке. Пользователю проще написать запрос «телепрограмма» или перейти в соответствующую рубрику каталога, чем писать длинную фразу «Где взять телепрограмму». Т.е. на наш взгляд эта проблема сейчас не является первоочередной для повышения качества поиска. Думаем, что актуальной она станет с развитием голосового ввода данных, когда от поисковых систем потребуется обрабатывать запросы, заданные голосом.
Источник: http://www.webclub.ru/events/searchenginequestions/q1.html
|