Файлы с плотным индексом, или индексно-прямые файлы

2015-11-07

989

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Рассмотрим файлы с плотным индексом. В этих файлах основная область содержит последовательность записей одинаковой длины, расположенных в произвольном порядке, а структура индексной записи в них имеет следующий вид: <Значение ключа, Номер записи>

Здесь значение ключа — это значение первичного ключа, а номер записи — это порядковый номер записи в основной области, которая имеет данное значение первичного ключа.

Так как индексные файлы строятся для первичных ключей, однозначно определяющих запись, то в них не может быть двух записей, имеющих одинаковые значения первичного ключа. В индексных файлах с плотным индексом для каждой записи в основной области существует одна запись из индексной области. Все записи в индексной области упорядочены по значению ключа, поэтому можно применить более эффективные способы поиска в упорядоченном пространстве.

Скорость доступа к произвольной записи оценивается не в абсолютных значениях, а в количестве обращений к устройству внешней памяти, которым обычно является диск. Обращение к диску является более длительной операцией по сравнению с обработкой в оперативной памяти.

Наиболее эффективным алгоритмом поиска на упорядоченном массиве является дихотомический (бинарный, логарифмический) поиск. Максимальное количество шагов поиска определяется двоичным логарифмом от общего числа элементов N в искомом пространстве поиска: T_n = log₂N.

Однако более существенным является число обращений к диску при поиске записи по заданному значению первичного ключа. Поиск происходит в индексной области, где применяется дихотомический алгоритм поиска индексной записи, а потом путем прямой адресации мы обращаемся к основной области уже по конкретному номеру записи.

На диске записи файлов хранятся в блоках. Размер блока определяется физическими особенностями дискового контроллера и операционной системой. В одном блоке могут размещаться несколько записей. Поэтому нам надо определить количество индексных блоков (N_инд.), которое потребуется для размещения всех требуемых индексных записей, а потому максимальное число обращений к диску будет равно двоичному логарифму от заданного числа блоков плюс единица, т.к. после поиска номера записи в индексной области мы должны еще обратиться к основной области файла. Формула для вычисления максимального времени доступа в количестве обращений к диску выглядит следующим образом: T_n = log₂N_инд. + 1.

Давайте рассмотрим конкретный пример и сравним время доступа при последовательном просмотре и при организации плотного индекса.

Допустим, что мы имеем следующие исходные данные: Длина записи файла (LZ) — 128 байт. Длина первичного ключа (LK) — 12 байт. Количество записей в файле (KZ) — 100000. Размер блока (LB) — 1024 байт.

Рассчитаем размер индексной записи. Для представления целого числа в пределах 100000 нам потребуется 3 байта, можем считать, что у нас допустима только четная адресация, поэтому нам надо отвести 4 байта для хранения номера записи, тогда длина индексной записи будет равна сумме размера ключа и ссылки на номер записи, то есть: LI = LK + 4 = 12 + 4 = 16 байт.

Определим количество индексных блоков, которое требуется для обеспечения ссылок на заданное количество записей. Для этого сначала определим, сколько индексных записей может храниться в одном блоке: KIZB = LB/LI = 1024/16 = 64 индексных записи в одном блоке.

Теперь определим необходимое количество индексных блоков: KIB = KZ/KZIB = 100000/64 = 1563.Округлили в большую сторону, потому что пространство выделяется целыми блоками, и последний блок у нас будет заполнен не полностью.

А теперь мы уже можем вычислить максимальное количество обращений к диску при поиске произвольной записи: T_п = log₂KIB + 1 = log₂1563 + 1 = 11 + 1 = 12 обращений к диску. Здесь тоже округляем, так как считаем количество обращений, а оно должно быть целым числом.

Если бы мы не создавали индексное пространство, то при произвольном хранении записей в основной области нам бы в худшем случае было необходимо просмотреть все блоки, в которых хранится файл, временем просмотра записей внутри блока мы пренебрегаем, так как этот процесс происходит в оперативной памяти. Количество блоков для хранения всех 100 000 записей, мы определим по следующей формуле: KBO = KZ/(LB/LZ) = 100000/(1024/128) = 12500 блоков.

Это означает, что максимальное время доступа равно 12500 обращений к диску.

Рассмотрим, как осуществляются операции добавления и удаления новых записей.

При операции добавления осуществляется запись в конец основной области. В индексной области необходимо произвести занесение информации в конкретное место, чтобы не нарушать упорядоченности. Поэтому вся индексная область файла разбивается на блоки и при начальном заполнении в каждом блоке остается свободная область:

Рис. 12. Пример организации файла с плотным индексом

После определения блока, в который должен быть занесен индекс, этот блок копируется в оперативную память, там он модифицируется путем вставки в нужное место новой записи и, измененный, записывается обратно на диск. Максимальное количество обращений к диску, которое требуется при добавлении записи, — это количество обращений, необходимое для поиска записи плюс одно обращение для занесения измененного индексного блока и плюс одно обращение для занесения записи в основную область: T _{добавления} = log₂N + 1 + 1 + 1.

В процессе добавления новых записей область расширения постоянно уменьшается. Когда исчезает свободная область, возникает переполнение индексной области. В этом случае возможны два решения: либо перестроить заново индексную область, либо организовать область переполнения для индексной области, в которой будут храниться не поместившиеся в основную область записи. Первый способ потребует дополнительного времени на перестройку индексной области, а второй увеличит время на доступ к произвольной записи и потребует организации дополнительных ссылок в блоках на область переполнения.

Именно поэтому при проектировании физической базы данных важно заранее как можно точнее определить объемы хранимой информации, спрогнозировать ее рост и предусмотреть соответствующее расширение области хранения.

При удалении записи возникает следующая последовательность действий: запись в основной области помечается как удаленная, в индексной области соответствующий индекс уничтожается физически, то есть записи, следующие за удаленной записью, перемещаются на ее место и блок, в котором хранился данный индекс, заново записывается на диск. При этом количество обращений к диску для этой операции такое же, как и при добавлении новой записи.

2015-11-07

989

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Обсуждение в статье: Файлы с плотным индексом, или индексно-прямые файлы

Обсуждений еще не было, будьте первым... ↓↓↓