"Апорт", "Русская машина поиска" и другие

Поисковые системы Интернет (search engines) предназначены для разыскания сведений по узкой тематике, которую невозможно выявить с помощью электронных справочников (см. предыдущий урок). Внутреннее устройство, а также достоинства и недостатки систем подобного рода детально освещены в одной из наших предыдущих публикаций (Библиотека 1997, N5 С.53-56). Там же приведен перечень наиболее мощных поисковых машин глобального масштаба, позволяющих выявлять информацию во всех уголках киберпространства.

В настоящей статье рассматриваются поисковые системы специально предназначенные для выявления сведений на российских серверах или представленной на русском языке. Все их объединяет возможность обработки материалов во всех кириллических кодировках. Однако по мощности и уровню предлагаемого сервиса русскоязычные поисковые системы значительно отличаются друг от друга.

К лидирующей группе в настоящее время относятся системы Rambler, “Апорт” и “Яndex”. Среди фаворитов выделяется Rambler (http://www.rambler.ru), ставший первой профессиональной отечественной поисковой системой. Эта система, созданная специально для выявления материалов на серверах в пределах бывшего СССР, ныне обеспечивает полнотекстовый поиск на 2.000.000 страниц, расположенных на более чем 10500 web-узлах России и стран ближнего зарубежья. Ежедневно количество проиндексированных страниц увеличивается в среднем на 10 тысяч. Помимо web-серверов, обследуется также недельный архив телеконференций иерархии relcom.*.

Система имеет дружественный интерфейс, предлагающий воспользоваться простой или углубленной формой запроса (Advanced query). Лучше сразу обратиться к последней, так как при простом запросе (основное меню) возможности детализации запроса минимальны, а результат будет органичен максимум 15 ссылками.

Механизм составления углубленного запроса реализован через меню. Пользователю предлагается ввести запрос, состоящий из одного или нескольких терминов и определить следующие параметры:


Помимо этого можно также уточнить поисковое предписание по дате последнего обновления документа и указать термины, появление которых в источнике должно быть исключено.

Rambler обладает близким к оптимальному выводом результатов поиска. Даже в нормальной форме ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа, еще и внушительных размеров резюме, из которого можно получить представление о том в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Блок искусственного интеллекта Rambler производит ранжирование результатов в зависимости от частоты употребления и местоположения искомых терминов (термин из названия или заголовка “весит” больше чем из основного текста). Поэтому в начале списка представлены ссылки на источники, соответствующие запросу в максимальной степени. система сконструирована таким образом, что один и тот же документ в различных кодировках показывается только один раз, а его конкретные адреса суммируются в списке, идущим за резюме. Это позволяет избавиться от множественного дублирования одних и тех же документов и в значительной степени сокращает время на анализ полученных результатов.

Главный недостаток Rambler заключается в невозможности осуществлять поиск по целой фразе или хотя бы указывать в запросах предельное расстояние искомых терминов друг от друга. Случайное сочетание совершено не связанных слов, например в начале и в конце текста, приводит к выдаче ссылок на документы, совершенно не релевантные запросу. Несмотря на это Rambler является одним из самых посещаемых узлов российской части Интернет, прежде всего за счет большого объема накопленной информации.

Поисковая система “Апорт” (http://www.aport/ru) снабжена массой различных возможностей, заставляющих отнести ее к числу самых удобных для пользователя. Объем накопленной информации, составляющий ныне сведения о более чем миллионе страниц с 10500 российских серверов, также внушает уважение.

Одно из главных достоинств “Апорт” состоит в широких возможностях составления запроса. Помимо традиционных операторов “И” и “ИЛИ”, поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько “рядом” каждый раз определяется пользователем. Так запрос “{3, библиотечные каталоги}” выявит все документы, в которых указанные слова (даже их производные) встречаются в пределах трех соседствующих предложений, а запрос “[4, географические карты]” отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. За счет этого пользователь застрахован от большой доли информационного шума, возникающего при случайном сочетании ключевых слов.

“Апорт” предлагает также возможность автоматического перевода запроса с русского на английский язык и наоборот. В поисковую строку можно ввести термины на любом из двух языков и выбрать из меню условие: искать только на английском, на английском и русском, только на русском. Ранжированные ссылки в результатах поиска включают название файла, дату и время его последнего обновления, адрес или адреса источника с указанием оригинальной кодировки и степень соответствия запросу. Также сообщается количество искомых терминов на данной странице, а сами ключевые слова выводятся в окружающем контексте, что помогает определить насколько найденный документ релевантен запросу.

Так же как Rambler, “Апорт” способен выделять один и тот же документ в различных кодировках и выдавать ссылку на него лишь один раз, перечисляя конкретные адреса в списке URL. При этом, однако, вовремя не удаляются сведения об устаревших версиях одной и той же страницы, которые перечисляются как существующие, имея разницу лишь в дате обновления. Еще одним мелким недостатком “Апорт” является не всегда корректная обработка названий страниц, из-за чего в результатах поиска часто указывается “документ без названия”, в то время как метки title на большинстве таких страниц содержат важные данные.

Поисковая система Яndex (http://yandex.ru) относится к новейшим разработкам, однако в настоящее время количество обследованных серверов уже превысило 9000, что говорит о высокой скорости ее поискового робота. Помимо серверов доменов “ru” и ”su” Яndex индексирует содержание зарубежных русскоязычных web-узлов.

Главной отличительной чертой этой системы является глубокий морфологический анализ обрабатываемых терминов. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить запрос максимально точно. Допустимо, к примеру, задать употребление термина только в определенном падеже, указать на каком расстоянии от другого слова или сочетания он должен находиться в тексте и какие термины этот текст ни в коем случае не должен содержать. Для этого, однако, необходимо освоить правила формирования углубленных поисковых предписаний, которые включают чуть ли не все специальные символы компьютерной клавиатуры (среди знаков, используемых в запросах ~,&,!,/,:,<>,(),|,$). В данном случае разработчики несколько переусердствовали, что, впрочем, не мешает использовать сокращенный перечень условий поиска, также позволяющий составить запрос достаточно полно. Яndex обладает хорошим механизмом распознавания одного документа в нескольких кодировках или на зеркальных серверах. Безусловным его достоинством является оригинально сконструированный механизм выдачи результатов. Щелчок мышью по названию выявленной страницы приводит к ее загрузке в “фирменном исполнении” Яndex. В этом случае оригинальный вид документа дооснащается специальными стрелками, которые “подсвечивают” все искомые термины и позволяют быстро двигаться от одного их вхождения к другому, что очень удобно как с точки зрения определения степени соответствия смысла документа запросу, так и в плане экономии времени. При обращении же к адресу, система отправляет пользователя непосредственно к оригиналу страницы.

Вслед за лидирующей российской тройкой идут еще несколько поисковых средств, среди которых “Русская машина поиска” (http://search.interrussia.com), “TELA-поиск” (http://tela.dux.ru/) и Russian Internet Search (http://www.search.ru). Среди них определенные надежды подает лишь “Машина”, разработчики которой в последний месяц закрыли доступ к системе и судя по всему занимаются ее коренной переработкой. Пока же все эти сервера не отличаются ни широтой поиска, ни комфортностью и могут быть использованы лишь в качестве дополнения к ведущим поисковым средствам.

В заключении стоит отметить, что поисковый сервис в русскоязычном блоке Интернет развивается стремительно. Нет сомнения, что в ближайшем будущем существующие системы будут усовершенствованы и к ним добавятся новые, которые, впитав опыт предшественников, смогут предоставлять пользователям гораздо больше возможностей.

Вернуться в список публикаций      Вернуться на первую страницу


Last Updated: Saturday, November 07, 1998