Коммерческие полнотекстовые базы данных и их использование

Во второй половине 1990-х годов Интернет стал интенсивно наполняться серьезным содержанием. Виртуальная среда, обеспечивающая практически моментальный и достаточно надежный доступ к ресурсам из любой точки планеты, явилась катализатором развития различных форм электронного бизнеса, среди которых наибольшее распространение получили продажа товаров (электронные магазины), заказ авиа- и железнодорожных билетов, резервирование мест в отелях, электронное банковское и биржевое обслуживание.

Одними из первых оценили преимущества Интернет и компании, специализирующиеся на производстве и продаже различного рода баз данных. Созданием подобных баз с начала 1980-х годов занимались множество зарубежных корпораций, главным продуктом которых была информация. Существовали фактографические базы данных, содержащие фактические сведения (в основном статистику), библиографическую информацию (сведения о документах) и полнотекстовые (полные тексты книг и статей из газет, журналов и сборников). Среди наиболее известных производителей и поставщиков баз данных выделялись LEXIS/NEXIS, Knight Ridder, Silver Platter, EBSCO, STN, Wilson’s.

С распространением Интернет информационный бизнес приобрел невиданные до сего времени масштабы. Для производителей информационных продуктов Сеть явилась абсолютно идеальной средой ведения бизнеса: корпорации получили возможность вести обслуживание клиентов, где бы те ни находились и, что крайне важно, Сеть позволила оказывать информационные услуги клиентам напрямую, обходясь без каких-либо посредников в лице библиотек или каких-либо иных информационных учреждений.

Наибольший интерес для пользователей безусловно представляют полнотекстовые базы данных, содержащие тексты книг, статей из журналов, газет и сборников, сообщения информационных агентств, аналитические отчеты различного рода финансовых учреждений. Получение доступа к этим базам в значительной степени меняет подходы к информационной работе в целом, так как позволяет обходиться без обращения к печатным оригиналам изданий, и, следовательно, избавляет от необходимости посещения библиотек.

Поставщики доступа постоянно работают над расширением числа и отраслевого спектра баз данных, стремясь удовлетворить растущий спрос. Если на заре этого вида бизнеса в 1960 годы создание полнотекстовых электронных собраний начиналось с правовой и экономической областей, в 1980-90-е года были освоены естественные, точные и наиболее динамично развивающиеся гуманитарные дисциплины, то в настоящее время очередь дошла до коллекций редких и старопечатных книг известных библиотек, полных собраний сочинений античных и средневековых авторов, поэтических антологий и подобных им материалов.

Технологически формирование полнотекстовых баз данных производится двумя способами. Первый заключается в сканировании печатных оригиналов и помещении в базу электронных копий документов, выполненных в большинстве случаев в формате PDF. Эти документы воспроизводятся (читаются) с использованием бесплатно распространяемой программы Adobe Acrobat, которую можно без труда выгрузить из Интернет или найти на большинстве выпускаемых в настоящее время компакт-дисков (в этом случае диск маркируется специальным логотипом Adobe Acrobat). Сканирование печатных оригиналов применяется при оцифровывании готовых собраний, находящихся, как правило, в фондах крупнейших библиотек.

Второй метод - покупка электронной копии книги, газеты или журнала непосредственно у издателя. По предварительному договору издательство передает электронную версию документа (чаще всего готовый оригинал-макет) поставщику и получает определенный процент от средств, полученных за обращение к поставленным файлам. Загрузка документов в систему осуществляется, как правило, в момент опубликования печатного издания или даже ранее. Этот способ применяется при работе с периодическими изданиями и сообщениями агентств новостей.

После загрузки в базу информационный массив автоматически индексируется с помощью специального механизма, после чего электронные документы становятся доступными для поиска и выгрузки.

Естественно, что обращение к подобным базам данных платное и цена доступа бывает порой весьма высока. Однако возможность получения практически любых данных непосредственно на своем рабочем месте, которое может, кстати сказать, находится в любой точке земного шара, где есть доступ к Интернет, привлекает все большее число пользователей, среди которых безусловное лидерство держат крупные компании, деятельность которых основывается главным образом на анализе информации.

Одним из примеров представленных в Интернет коммерческих полнотекстовых баз данных служит база “История женского движения: 1543-1945” (Women’s History Online 1543-1945), принадлежащая ныне компании Chadwyck-Healey. Начало созданию этого собрания было положено еще в конце прошлого века, когда голландский врач Алетта Якобс Герритсен (Aletta Jacobs Gerritsen) приступила к систематическому коллекционированию книг и периодических изданий, касающихся проблем нарождающегося феминистического движения и защиты прав женщин. Со временем ее последователи завершили эту работу в 1945 году и с этого времени Gerritsen Collection (по имени основателя) является самым фундаментальным собранием документов по различным аспектам истории женского движения. В ней содержатся материалы, публиковавшиеся в течении четырех веков (с 1543 по 1945 годы) на 15 языках. Объем базы в ее современном состоянии превышает два миллиона страниц (именно страниц, целых документов намного меньше). Среди прочих, в коллекции отражены редкие и ценные материалы, которые сегодня можно найти лишь в небольшом числе зарубежных библиотек. Компанией Chadwyck-Healey было произведено сканирование данной коллекции, после чего она стала принципиально доступна для пользователей всего мира.

Для обращения к Gerritsen Collection в адресной строке браузера необходимо набрать адрес: http://gerritsen.chadwyck.com. Система имеет англоязычный интерфейс. Первая страница содержит общие сведения о базе с указанием режимов ее возможного использования (в левом верхнем углу экрана). Существует несколько вариантов работы с источниками. Наиболее простым является общий обзор коллекции, которая поделена на две основные части: книги и периодические издания. Для обращения к книжной коллекции необходимо щелкнуть мышью по ссылке Browse books, для обращения к периодике - Browse periodicals.

Доступ непосредственно к источникам, как и в любой другой коммерческой базе, осуществляется по предварительно полученному имени пользователя (User Name) и паролю (Password). Компанией Bell & Howell, которая недавно была приобретена Chadwyck-Healey специально для российских библиотекарей любезно предоставлены единое имя и пароль доступа. В ... Имя пользователя: ...; пароль: welcome. Данное имя и пароль необходимо вводить в предназначенные для этого строки всякий раз, когда система их запрашивает (обычно это бывает один раз в начале сеанса работы с базой при обращении к данным).

Получив доступ, можно ознакомиться с перечнем имеющихся книг или периодических изданий. Книги расположены в соответствии c тематическими разделами и более подробными предметными рубриками (Subject Headings), а периодические издания - в алфавите названий. После каждого подраздела указывается количество включенных в него документов. Эти режимы, по сути, имитирует обычное библиотечное собрание, где из общего массива выбирается конкретное издание, которое можно просмотреть целиком или прочитать отдельные главы или статьи. При этом сами издания предстают перед пользователем постранично в виде сканированных копий.

Основным способом работы с базой является непосредственный поиск. Обращение к этому режиму осуществляется щелканьем мышью по надписи Search. Поисковый интерфейс Women’s History Online выполнен на высоком профессиональном уровне, позволяющем учесть практически все потенциальные интересы пользователей.

Прежде всего пользователю предлагается выбрать часть фонда, в которой предполагается осуществлять поиск. В верхней части экрана специальной фишкой можно отметить книжное собрание (Search books only) или фонд периодических изданий (Search periodicals only). По умолчанию поиск производится в обеих базах (Search all documents).

Поисковое предписание (запрос) вводится в соответствующие поля. В случае, если поиск осуществляется по ключевым словам, термины вводятся в строку Keyword, по автору - Author, заглавию книги из статьи - Book or Article Title, издательству - Publisher, месту публикации - City of Publication. Поля “Издательство” и “Место издания” имеют предварительно сформированные указатели (index), которые содержат все отраженные в базе издательства и места изданий. Для получения соответствующих перечней надо просто щелкнуть мышью по надписи index.

Запрос может быть также ограничен периодом выхода документов в свет. Для этого в поле Year of Publication необходимо задать требуемый временной промежуток. Такая же опция существует и для языка издания: по требованию клиента система может выдавать документы только на английском, немецком или голландском языках. Существуют также дополнительные поисковые критерии (внизу экрана на салатовом фоне), позволяющие конкретизировать поиск для книг конкретным предметным разделом или предметной рубрикой, для периодических изданий - отдельным названием газеты/журнала или жанром публикации.

Поиск может осуществляться как по отдельным словам, так и по их сочетаниям или даже точным фразам. Для поиска по отдельным словам искомый термин просто вводится в соответствующее поле, после чего нажимается кнопка Search. Однако такой вариант приносит, как правило, огромное число ссылок, поэтому гораздо чаще запрос включает несколько слов или точное выражение. Например, документы, в которых затрагиваются вопросы контроля рождаемости (birth control) будут выявлены по запросу [birth AND control] в поле Keyword. Запрос по проблеме “защита женственности и феминизм” будет иметь более сложный вид: [“defense of womanhood” NEAR:10 feminism] При этом точная фраза “защита женственности”- заключается в кавычки, оператор NEAR:10 обозначает, что слово feminism должно находится в документе не более чем на расстоянии 10 слов указанной фразы.

Следует учитывать, что при вводе терминов в поле Keyword поиск будет производиться по всему тексту документа. Полный перечень языка запросов можно получить, щелкнув по ссылке Help в левой стороне экрана (на салатовом фоне).

Результаты поиска выдаются в виде списка библиографических записей. Ссылка включает имя автора произведения, его заглавие и выходные данные: для книг место и год издания, для периодики - название журнала, год, номер и количество страниц. Поскольку даже при четко сформулированном запросе нередко в список результатов попадают документы, не соответствующие интересу пользователя, в начале каждой записи находится специальный бокс, предназначенный для отметки данного документа как релевантного (соответствующего запросу). Можно отметить любое количество документов и в дальнейшем работать уже только с этим списком. К сервисным функциям относится возможность сортировки результатов по релевантности (степени соответствия запросу), в алфавите авторов, заглавий, в прямой или обратной хронологии выхода в свет.

В списке результатов каждая библиографическая запись имеет также гипертекстовые ссылки Full Citation и Page Image. Щелчок мышью по первой из них приведет к появлению полного библиографического описания источника, по второй - обеспечит переход к непосредственному просмотру текста документа.

Текст предстает перед пользователем в виде сканированной копии или в виде файла в формате PDF (внизу страницы). Распространенность PDF в Сети обуславливается его способностью представлять документ точно в том виде, как он представлен в печатной копии, с сохранением колонок, таблиц, иллюстраций и т.д. Для чтения этих файлов необходимо установить Adobe Acrobat (ссылка на него есть на первой странице Women’s History Online в самом низу экрана), если это еще не сделано.

Используемая в базе данных стандартная система просмотра позволяет увеличивать изображение в два или в четыре раза. Для этого в пункте меню Zoom надо установить степень увеличения - 200% или 400%. “Листание” документа легко производится путем ввода номера соответствующей страницы в окошко, предваряемое надписью Go To. Таким способом можно перейти к просмотру любой страницы издания.

Документ можно не только просматривать в онлайновом режиме, но и сохранить на собственном компьютере для дальнейшей работы. Выгрузка текста легко осуществляется с помощью функции Download. Щелчок мышью по соответствующей надписи приводит к появлению интерфейса выгрузки. На странице указываются библиографические данные документа и размер файла. Пользователю предлагается выбрать выгружать ли весь документ (в этом случае необходимо проставить “фишку” у варианта “Download entire article”) или ограничиться выгрузкой лишь определенных страниц (в этом случае маркируется вариант “or page range” и в строке указываются номера требуемых страниц). После этого надо нажать кнопку Download и указать место на диске своего компьютера для сохранения файла. Все документы выгружаются в формате Adobe Acrobat.

Работа с базой “История женского движения” дает всестороннее представление об источниках подобного рода. В перспективе их применение будет составлять все более заметную часть в обслуживании читателей библиотек. Несомненно, что в будущем доступ к полнотекстовым коммерческим базам данных будет включатся в бюджеты библиотек, как часть расходов, затрачиваемая на комплектование фонда. Некоторые библиотеки западных стран, и прежде всего библиотеки американских университетов, уже сегодня обеспечивают такой доступ, который постепенно становится стандартной библиотечной услугой.


Вернуться в список публикаций      Вернуться на первую страницу


Last Updated: Sunday, December 23, 2001

© 1997-2001 Вадим Степанов