Поиск информации

Стремительное проникновение технологий глобальных компьютерных сетей практически во все виды деловой, научной, образовательной и досуговой деятельности становится очевидной приметой нынешнего времени. Ресурсы Интернет уже давно перестали быть просто красивой игрушкой, превратившись в крайне ценный, а зачастую и просто незаменимый инструмент повседневной работы людей многих профессий. Сверхбыстрый рост объемов информации в сетях сделали Интернет совершенно необозримым океаном разнообразнейших данных, важность которых растет пропорционально их объему. Достаточно сказать, что многие зарубежные компании, государственные учреждения, научные организации и университеты уже переориентировались на предоставление всей исходящей документации через сети, вместо выпуска дорогостоящих и не столь оперативных печатных изданий.

Естественно такая ситуация ставит проблему создания средств, позволяющих легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. Серьезное отношение к работе в Интернет предполагает переход от концепции "найти хоть что-нибудь", к концепции "найти все что есть" вернее все, что представляет интерес для удовлетворения именно данного запроса. В этих обстоятельствах списки серверов по определенной тематике, которыми пестрят руководства по работе в Интернет полутора - двухлетней давности, уже не могут дать исчерпывающих сведений. Ситуация в киберпространстве меняется столь быстро, что такие списки безнадежно устаревают уже в момент своего выхода в свет. Помимо того, поддерживать их в актуальном состоянии становится все труднее из-за обвального роста новых и новых узлов.

Наиболее предпочтительным в этом случае является обращение к специальным поисковым средствам Интернет, в задачу которых как раз и входит текущее выявление необходимых сведений в безбрежном океане информационной вселенной. Практически все они разработаны и поддерживаются западными и прежде всего американскими коммерческими фирмами, получающими доход от рекламы, вкрапливаемой в их интерфейс. Естественно, что обращение к ним требует хотя бы минимального владения английским языком.

Условно инструменты поиска подразделяются на поисковые средства справочного типа (directories) и поисковые системы в чистом виде (search engines). Первые подобны глобальным электронным справочникам, имеющим привычную логико-тематическую структуру, что позволяет ориентироваться в ресурсах Интернет в пределах отдельных отраслей знания. Вторые представляют собой системы, действующие по аналогии с традиционными базами данных, когда при вводе термина выдается перечень документов, содержащих искомое определение. Деление же это условно потому, что практически все средства справочного типа обладают некоторой возможностью непосредственного поиска, а многие поисковые системы снабжены небольшими справочниками.

Среди первой группы выделяются такие справочники как Yahoo (http://www.yahoo.com), Lycos (http://www.lycos. com), InfoSeek (http://www.infoseek.com) и Galaxy (http://galaxy.einet.net). Наиболее простым является Yahoo, предназначенный для первичного ознакомления с потенциалом глобальных сетей. При его загрузке на экран выводится самый общий перечень областей человеческой деятельности: ИСКУССТВО, ОБРАЗОВАНИЕ, БИЗНЕС, ЕСТЕСТВЕННЫЕ НАУКИ, СОЦИАЛЬНЫЕ НАУКИ и т.д. Входя в любое раздел пользователь последовательно видит все более и более дробную его детализацию, пока не дойдет до конкретных учреждений или лиц. Так, например, пункт меню "Библиотеки" разворачивается в перечень библиотек по типу, отраслевой принадлежности и местоположению. Выбор из меню университетских библиотек в США приводит в выводу на экран списка всех библиотек американских университетов и т.д. Такая иерархическая структура дает возможность шаг за шагом обследовать интересующие разделы киберпространства будь то физика, история, биология, география, музыка или спорт, последние новости или справочные издания. Справочник Yahoo обладает также примитивной возможностью непосредственного поиска, когда с клавиатуры вводится конкретный запрос, однако его потенциал крайне ограничен и может принести результат только в случае если осуществляется поиск весьма крупного объекта, имеющего свои собственные Web-страницы.

Аналогичными характеристиками обладают также электронные справочники Lycos, InfoSeek и Galaxy. В каждом из них используется своя уникальная систематическая иерархия, которая более других подходит для знакомства с конкретной отраслью. На взгляд библиотекаря-профессионала все эти классификации далеко не идеальны, а порой и весьма причудливы, поскольку разработаны людьми далекими от систематизации знаний.

Особенностью Lycos, который по уверениям его создателей отражает до 90 процентов сведений о WWW, является его способность осуществлять непосредственный поиск терминов, помимо основного названия и подзаголовков Web-страницы, еще и в 20 первых строках ее текста, а также вывод на экран сведений о размере файла, его точном названии и электронном адресе. Впрочем, эти возможности системы обнаруживаются только после нажатия надписи Customize your search (появляется расширенное меню для ввода запроса).

Отличительные черты InfoSeek заключаются в дополнительных функциях меню, позволяющих удовлетворять наиболее часто возникающие вопросы, как например, поиск электронных адресов лиц, сведений о предпринимательских компаниях или о текущих новостях. В процессе поиска система также ненавязчиво предлагает полезные ссылки на темы, связанные с основной, что облегчает выбор нужного источника. Следует учесть, что данная система выдает только первых 100 документов по запросу. Чтобы получить исчерпывающую информацию необходимо подписаться на ее использование уже за соотвестсвующую плату.

Поисковые системы (search engines) распространены в гораздо большем количестве нежели электронные справочники и число их продолжает увеличиваться. Работа с ними требует серьезных навыков, поскольку простой ввод искомого термина в поисковую строку может привести к получению в ответ списка из сотен тысяч документов, содержащих данное понятие. Поисковые системы по существу представляют собою базы данных слов, полученных при периодическом сканировании виртуального информационного пространства. С помощью специальных компьютерных программ поисковые системы регулярно обследуют Интернет (главным образом World Wide Web и Usenet), выявляя все существующие, и, в особенности, новые и обновленные источники и удаляя сведения о вышедших из употребления. Этот колоссальный материал, с указанием ссылки на то где хранится каждое слово, содержится в виде гигантских индексных файлов, к которым и происходит обращение при конкретном запросе. Достоинства и недостатки поисковых систем складываются из нескольких важнейших характеристик. Принципиальным вопросом является то, насколько полно та или иная система обследует тексты, т.е. все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, резюме, первых двух страниц текста и т.д. Важно также как часто происходит обновление данных, каким образом системы "взвешивают" понятия, определяя их соответствие данному запросу. Безусловно не последнюю роль играет простота и информативность интерфейса, возможность использовать булевые операторы и операторы расстояния, дополнительные сервисные функции.

По этим параметрам среди доброй сотни поисковых систем выделяются несколько наиболее популярных источников, позволяющих выявлять информацию с высокой степенью полноты и точности запросу. К таковым относятся Alta Vista (http://www.altavista.digital.com), HotBot (http://www.hotbot.com), OpenText (http://www.opentext. com), WebCrawler (http://www.webcrawler.com), Excite (http://www.excite.com), Magellan (http://www.mckinley. com), MetaCrawler (http://www.metacrawler.com).

К числу самых признанных принадлежит Alta Vista, мощнейший аппаратный и программный потенциал которой позволяет проводить поиск по любому слову из текста Web-страницы или статьи в телеконференции. Как явствует из ее преамбулы, Alta Vista содержит сведения о 30 миллионах Web-страниц и статьях из 14 тысяч телеконференций. Данная система использует довольно сложный механизм составления запроса, включающий комбинации отдельных слов, словосочетаний и знаков пунктуации: кавычек, точки с запятой, двоеточия, скобок, плюса и минуса или привычных булевых операторов AND, OR, NOT и NEAR (последние в рамках усложненного поиска - Advanced search). Их сочетание дает возможность наиболее точно составить поисковое предписание. Так, знак плюс, стоящий перед словом означает, что этот термин обязательно должен присуствовать в документе, знак минус, наоборот, - отсевает все материалы, содержащие это понятие. Система допускает поиск по целой фразе (в этом случае все словосочетание заключается в кавычки), а также поиск с усечением окончаний, при этом в конце слова ставится "*". Например для получения сведений обо всех русскоязычных документах, имеющих отношение к библиотечному делу, достаточно ввести "библиот*". Поиск же данных по теме "виртуальные библиотеки в России" предполагает более усложненный вариант запроса: [виртуальн* near библиот* and Росси*]. Пользователям также предоставлена возможность ограничивать запрос по дате создания/последнего обновления документа.

Поиск по всем словам текста декларирован и в HotBot, который на сегодня является самым мощным поисковым средством именно для World Wide Web (содержит сведения о 54 миллионах документов). Углубленный поиск - Expert Search в HotBot дает поразительно широкие возможности для детализации запроса. Это достигается за счет использования многоступенчатого меню, предлагающего различные варианты составления поискового предписания. Можно осуществить поиск по сочетанию в документе нескольких различных терминов, поиск по отдельной фразе, поиск конкретного лица или электронного адреса. Для детализации запроса возможно применение условий SHOULD - "может содержать", MUST -"должен обязательно содержать", MUST NOT - "не должен содержать" по отношению к каким-либо понятиям. Кроме этого, HotBot предоставляет возможность ограничить поиск по дате создания или последнего обновления документа, по географическому местоположению сервера, по типу искомых файлов и т.д. Данная система имеет понятный и удобный интерфейс, и также допускает поиск на русском языке. Единственным ее недостатком является, пожалуй, отсуствие возможности усечекать окончания ключевых слов.

Интересным поисковым средством является Excite, также обеспечивающий полнотекстовый поиск на более чем 50 миллионах Web-страниц. Особенность работы с ним заключается в том, что запросы в эту систему водятся на естественном языке (конечно же на английском) так, как если бы мы спрашивали человека. Специальная система, сконструированная на основе Интеллектуального извлечения понятий (Intelligent Concept Extraction) анализирует запрос и выдает ссылки на релевантные, по ее компьютерному мнению, документы. Практика, однако, показывает, что Excite корректно обрабатывает только односложные запросы. Для получения информации по многосложной тематике лучше пользоваться другими поисковыми средствами.

Последней из современных систем, обеспечивающих поиск по всем словам текста является OpenText. Пользователь, однако, может по желанию ограничить рамки поиска только главными и наиболее значимыми фрагментами Web-страницы: заглавием, первым заголовком, резюме, электронным адресом (URL). Это очень удобно, если требуется найти лишь главные работы по какой-либо широкой тематике. Как и в предыдущих случаях наиболее трудные запросы выполняются с помощью усложненного поиска - Power Search. Его интерфейс позволяет довольно просто составить поисковое предписание, используя многоступенчатое меню. Это меню представляет собой строки для ввода терминов с указанием того в каких полях должны содержаться искомые данные в сочетании с привычными операторами AND (и), OR (или), BUT NOT (но не), NEAR (рядом с) и FOLLOWED BY (следует за). Так запрос об использовании CD-ROM в массовых библиотеках будет иметь следующий вид:


Из примера видно, что OpenText допускает усечение окончаний ключевых слов по символу "*". К его безусловным достоинствам относятся и такие сервисные возможности как корректирование запроса в процессе поиска (можно добавить или удалить любые термины дабы расширить поиск или сузить уже отобранное подмножество), а также просмотр контекста, в котором искомые слова употреблены на Web-странице. Все указанные характеристики относятся к поиску именно информации в WWW. Для извлечения сведений из телеконференций Usenet OpenText обладает отдельной упрощенной системой ввода запроса.

В отличии от предыдущих систем, стремящихся максимально расширить своих информационные границы, навигационная служба Magellan принципиально обследует не все серверы, а только те, которые являются наиболее ценными в информационном отношении (какие именно - определяет специальная редколлегия, состоящая из экспертов). Таким образом гарантируется некий качественный отбор информации, но с другой стороны так же "гарантируется" и неполнота получаемых сведений. Magellan относительно старая система, поэтому ее синтаксис намного беднее, чем у ее более молодых собратьев. В поисковом предписании используются лишь знаки "+" и "-", первый из которых ставится перед словом, которое обязательно должно присутствовать в документе, а второй - перед термином, появление которого в искомом тексте должно быть исключено. Magellan имеет хорошую справочную часть. Можно даже утверждать, что поисковые характеристики и детализация справочника у него равноценны. Это средство является одним из немногих, простирающих свои возможности за пределы WWW и Usenet. Его программы обследуют также узлы, поддерживающие Gopher, FTP и Telnet приложения, что в некоторых случаях заметно расширяет поиск.

Эти же приложения, кстати, до сего времени поддерживаются одним из ветеранов поисковой деятельности Интернет - WebCrawler. В этом заключается наверное единственное достоинство данного средства, поскольку его поисковые возможности значительно ниже уже рассмотренных средств навигации.

Различия в стратегии, широте охвата и просто в мощности разных систем порой приводят к тому, разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на применении потенциала других поисковых систем. К таковым, в частности, относится MetaCrawler, главное достоинство которого заключаются в умении рассылать вводимые в него запросы по другим системам, а затем суммировать результаты. Таким образом пользователь, вводя поисковое предписание в MetaCrawler фактически одновременно обращается к десятку различных поисковых систем. Этим гарантируется "объективность" полученных результатов, однако, учитывая уже упоминавшиеся различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Естественно, что для российских пользователей большое значение имеет возможность находить русскоязычные материалы. Помимо уже упоминавшихся Alta Vista и HotBot, допускающих использование ключевых слов на кириллице, такой возможностью обладают отечественные системы "Паук" (http://spider.raser.ru) и "Новый русский поиск" (http://www.openweb.ru/koi8/cgi-bin), созданные специально для разыскания материалов, находящихся на наиболее известных российских серверах. Их потенциал пока значительно уступает зарубежным аналогам, однако на сегодняшний день это пока все средства подобного рода.

К общим моментам, на которые стоит обратить внимание при работе со всеми поисковыми системами является их способность выдавать в первую очередь, т.е. в начале списка результатов, ссылки на документы, наиболее релевантные запросу. Рейтинг соответсвия определяется на основе частоты употребления искомых терминов, их расположения в тексте и т.д. Поэтому когда результаты поиска исчисляются сотнями ссылок, высока вероятность, что наиболее интересные материалы будут содержаться в первых нескольких десятках.

Помимо этого многие системы обладают специальной функцией "похожие страницы" (в английском переводе "Similar Pages", в Excite - "More Like This", в "Новом русском поиске" - "Документы-образцы"). Эта функция удобна для конкретизации результатов поиска и ее смысл заключается в отборе документов, похожих по содержанию именно на конкретную Web-страницу. Так, например, при поиска сведений о знаменитом баскетболисте Майкле Джордане (Michael Jordan), среди выявленных ссылок будут сведения и об Иордании, стране, которая в английском написании также имеет вид "Jordan". Для того чтобы отсеить эти записи надо на одной из ссылок бесспорно относящихся к Майклу Джордану указать названную функцию, т.е. щелкнуть мышью на строку "Similar Pages.

К сожалению, некоторые из поисковых систем при запросе, содержащем несколько терминов руководствуются известным принципом "на безрыбье и рак рыба", выдавая вначале сведения о документах, включающих все термины, а затем и ссылки на Web-страницы, содержащие два из трех или даже один из трех искомых терминов. Системы как бы "забывают" об условии сообщать данные только при условии сочетания всех терминов, причем пользователи остаются в полном неведении относительно этой особенности. Таковы, например, HotBot, Magellan и OpenText.

Список навигационных систем далеко не исчерпывается приведенными примерами. Наряду с развитием универсальных поисковых орудий, начинают также создаваться поисковые средства узкой отраслевой направлености, индексирующие материалы информационной вселенной, например, только в области юриспруденции. Изменения, направленные на совершенствование поисковых орудий происходят довольно часто и каждая вновь появившаяся система уже как правило в чем-то превосходит предыдущие, учитывая как позитивный так и негативных опыт предшественников.

Нет сомнений, что в перспективе поисковые системы Интернет будут наращивать как аппаратно-программую мощность, позволяющую им оперативно обследовать самые отдаленные уголки киберпространства, так и свои искусственно-интеллектуальные способности, обеспечивающие более точный и взвешенный результат поиска. Все это само по себе повысит удобство работы в глобальных сетях, сделает Интернет еще более доступным и привлекательным средством информационных обменов.

Степанов Вадим Константинович
Доцент МГУК

Шаргородска Ольга (США)
Библиотекарь/Менеджер баз данных
Гарвардский институт международного развития

Вернуться в список публикаций      Вернуться на первую страницу


Last Updated: Sunday, October 20, 1996