Электронные издания



         

Организация хранения и поиска электронных изданий - часть 6


Точность ? определяется отношением числа релевантных документов R к общему количеству документов в выборке N (|?=R/N). Охват а характеризуется отношением числа релевантных документов в выборке R к общему числу релевантных документов в базе данных Т (a=R/T).

В случае идеального поиска все выбранные документы полностью пригодны и исчерпывают список пригодных документов в базе данных, т. е. а=1 и ?=1. Однако многочисленные исследования, выполненные различными специалистами, показали что точность и охват связаны друг с другом обратной зависимостью, а максимальное значение суммы ?+а близко к 1,4. Сказанное иллюстрируется графиком, представленным на рис. 7.1

Рис. 07.01.
.

Такой результат выглядит вполне осмысленным. Действительно, если мы хотим увеличить точность р мы должны как можно более точно сформулировать запрос, включив в него большое количество различных термов, связанных с помощью операторов И, чтобы исключить возможность попадания в результаты поиска непригодных документов. Однако в этом случае общее количество выбранных изданий не может быть большим, точнее - оно будет малым. Естественно, что не все релевантные документы, содержащиеся в базе данных, попадут в число выбранных.

Наоборот, если мы хотим увеличить охват, т. е. постараться выбрать наибольшее количество релевантных изданий из общего их числа в базе, следует сформулировать запрос как можно шире. В этом случае в выборку неизбежно попадет значительное число непригодных изданий, т. е. точность окажется сравнительно малой величиной.

В последнем случае увеличение количества выбранных изданий неизбежно увеличит время обработки результатов поиска. Реально, если количество выбранных изданий составляет сотни значений, то время оценки их пригодности становится чрезмерно большим, в результате пользователь утомляется, внимание его рассеивается, что неизбежно приводит к неточностям и ошибкам.

Таким образом, атрибутивная выборка выглядит гораздо предпочтительнее как с точки зрения эффективности и скорости выборки, так и экономии дискового пространства.


Содержание  Назад  Вперед