Электронные издания



         

Организация хранения и поиска электронных изданий - часть 3


Действительно, любая книга, в том числе - в электронном виде, представляет собой слабо структурированный набор символов, организованных в слова, предложения, разделы, параграфы и главы. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Встречаются многоуровневые индексы, в которых на верхнем уровне расположен словарь или поисковый индекс слова. В нем каждому значащему слову соответствует указатель на расположенный на следующем уровне список местонахождений или индекс ссылок, в котором содержатся адрес издания и, иногда, позиция слова внутри документа.

Многие из читателей, вероятно, использовали полнотекстовый поиск, работая в сети Интернете поисковыми серверами. В этом случае в специальное поле поиска вводится конструкция из некоторого количества слов или фраз, иногда связанных друг с другом знаками логических операций. Соответствующий механизм на сервере автоматически проверяет содержимое ссылок на документы, содержащихся в его базе данных и выдает результат поиска в виде списка подходящих или релевантных документов.

Можно сформулировать четыре основных отличия полнотекстовой выборки от атрибутивной:

  • полнотекстовая выборка отвечает на запросы с меньшей точностью;

    выборка вероятностная, а недетерминированная;

    критерием правильности выборки является не точное совпадение, а лишь пригодность извлеченного из базы издания;

    время поиска и извлечения издания больше зависит не оттехничес- ких средств, а от качества формулирования запроса и скорости анализа пользователем пригодности извлеченных из базы изданий.

    Нетрудно понять, что первой модели наилучшим образов соответствует атрибутивный поиск, а второй - полнотекстовый. Принципиальное отличие между этими двумя методами поиска состоит в том, что результат применения атрибутивного поиска детерминированный, в то время как полнотекстовый поиск следует характеризовать как вероятностный, т. е.


    Содержание  Назад  Вперед