Электронные издания



         

Организация хранения и поиска электронных изданий - часть 5


Чаще всего применяется

Булевы модели поиска
Булевы модели поиска, использующие в качестве основы логические конструкции, т. е. слова или фразы (последние заключаются обычно в круглые скобки), объединенные знаками логических операций И (AND, &), ИЛИ (OR) и НЕ (NO). Входящие в конструкцию смысловые элементы, т. е. слова и фразы, если последние рассматриваются как единое целое, обычно называют термами. Если в результате запроса поисковая система выдала чрезмерно большой список документов, запрос можно попытаться усложнить, включив в него большее количество термов и операторов И, предполагающих одновременное наличие в документе базовых слов и фраз. Наоборот, если найдено небольшое количество пригодных (релевантных) документов, запрос можно упростить, исключив из него отдельные конструкции с оператором И (или добавив конструкции с оператором ИЛИ).

Специальное программное обеспечение может обеспечить автоматическую оценку степени полезности каждого из извлеченных изданий. Эта оценка делается на основе частоты, с которой встречаются в издании термы, используемые в запросе. Результаты обычно сортируются по степени релевантности. Такая модель поиска используется, в частности, на поисковом сервере Rambler.

Векторная модель поиска основана на представлении каждого отдельного издания некоторым вектором в N-мерном пространстве. Запрос также представляется в виде вектора. Степень полезности документа, определяется как его близость в указанном N-мерном пространстве к вектору запроса. Количественная оценка близости выражается косинусом угла между этими векторами и изменяется в пределах от 0 до 1.

Векторная модель поиска обязательно подразумевает последовательные итерации. В начале поиска пользователь из всего множества выбранных изданий определяет некоторые как нужные, полезные. На основании этого выбора вырабатывается уточненное положение вектора запроса

Эффективность - главный критерий при определении применяемого метода полнотекстовой выборки. Эффективность поиска издания можно описать двумя характеристиками: точность и охват.


Содержание  Назад  Вперед