В издательской деятельности возможна автоматическая генерация связей для отношений «содержится» и «используется в» путем разбора языка компоновки страниц и выделения элементарных объектов из составных документов. Чем более структурирован язык составления страниц, тем легче выделять информацию: форматы с высоким уровнем структуризации, подобные Adobe FrameMaker, SGML и XML, удобнее, чем форматы со специальной структурой типа QuarkXPress и Word, хуже всего интерпретируются форматы, не имеющие четко выраженной структуры - PostScript и, в меньшей степени, PDF.
До сих пор не существует общих средств автоматического выделения нетривиальной информации из изображений, аудио и видео, но некоторые разработчики (Kodak, LivePicture, Virage, Excalibur) занимаются исследованиями в этой области. Иногда атрибутивные метаданные могут генерироваться просто путем извлечения информации из определенных форматов данных. Лучший пример этого - форматы файлов Adobe PhotoShop, которые содержат массу полезной информации.
При загрузке добавляются не только метаданные, но и вспомогательные представления документов, в частности, миниатюры, представляющие внешний вид издания. Генерация миниатюр может быть автоматизирована. Например, большинство графических форматов содержат свои собственные миниатюры, для других, например для изображений с высоким разрешением, можно сгенерировать их «на лету». Аналогично можно спроектировать загрузчик таким образом, чтобы он, получая цифровые аудио-объекты, создавал клипы первых нескольких секунд (например, в форма те WAV 10 КГц).