В случае идеального поиска все выбранные документы полностью пригодны и исчерпывают список пригодных документов в базе данных, т. е. а=1 и ?=1. Однако многочисленные исследования, выполненные различными специалистами, показали что точность и охват связаны друг с другом обратной зависимостью, а максимальное значение суммы ?+а близко к 1,4. Сказанное иллюстрируется графиком, представленным на рис. 7.1
Такой результат выглядит вполне осмысленным. Действительно, если мы хотим увеличить точность р мы должны как можно более точно сформулировать запрос, включив в него большое количество различных термов, связанных с помощью операторов И, чтобы исключить возможность попадания в результаты поиска непригодных документов. Однако в этом случае общее количество выбранных изданий не может быть большим, точнее - оно будет малым. Естественно, что не все релевантные документы, содержащиеся в базе данных, попадут в число выбранных.
Наоборот, если мы хотим увеличить охват, т. е. постараться выбрать наибольшее количество релевантных изданий из общего их числа в базе, следует сформулировать запрос как можно шире. В этом случае в выборку неизбежно попадет значительное число непригодных изданий, т. е. точность окажется сравнительно малой величиной.
В последнем случае увеличение количества выбранных изданий неизбежно увеличит время обработки результатов поиска. Реально, если количество выбранных изданий составляет сотни значений, то время оценки их пригодности становится чрезмерно большим, в результате пользователь утомляется, внимание его рассеивается, что неизбежно приводит к неточностям и ошибкам.
Таким образом, атрибутивная выборка выглядит гораздо предпочтительнее как с точки зрения эффективности и скорости выборки, так и экономии дискового пространства.