ОРГАНИЗАЦИЯ ДАННЫХ ВО ВНЕШНЕЙ ПАМЯТИ ЭВМ - Студенческий научный форум

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ОРГАНИЗАЦИЯ ДАННЫХ ВО ВНЕШНЕЙ ПАМЯТИ ЭВМ

Бурнашова В.О. 1, Ерёмина Д.А. 1, Попова Е.А. 1
1ИУБПИЭ, СФУ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Понятие и классификация файлов.

В качестве внешней памяти ЭВМ используются магнитные диски (для которых характерно примерное равенство затрат времени на чтение и запись). Время доступа к данным на ВЗУ зависит от места расположения данных на диске или ленте, что существенно отличает их от оперативной памяти и определяет специфику организации данных во внешней памяти ЭВМ. Данные на ВЗУ хранятся в виде файлов. Файл представляет собой множество логически связанных записей. Файл – это некоторое множество записей однородной структуры, предназначенное для решения экономических задач. Запись – это набор полей̆ определенного формата, объединенных по общему ключевому полю. Запись обычно соответствует одному значению некоторой СЕИ. Каждый файл имеет уникальное имя файла. В простейшем случае файл представляет последовательный массив записей на ВЗУ. Все файлы ЭИС можно классифицировать по следующим признакам:

  • по этапам обработки (входные, базовые, результатные);

  • по типу носителя (на промежуточных носителях – ГМД и лентах и неосновных носителях – ЖМД, магнитооптических дисках и т.д.);

  • по составу информации (файлы с оперативной̆ информацией̆ и файлы с постоянной̆ информацией̆);

  • по назначению;

  • по типу логической организации (файлы с линейной структурой записи реляционные, табличные);

  • по способу физической̆ организации (файлы с последовательным, индексным и прямым способом доступа).

Входные файлы создаются с первичных документов для ввода данных или обновления базовых файлов.

Файлы с результативной информацией предназначаются для вывода ее на печать или передачи по каналам связи и не подлежат длительному хранению. К числу базовых файлов, хранящихся в информационной̆ базе (ИБ), от- носятся:

1. основные;

2. рабочие;

3. промежуточные;

4. служебные;

5. архивные.

1. Основные файлы должны иметь однородную структуру записей̆ и могут содержать записи с оперативной̆ и условно-постоянной информацией̆. Оперативные файлы могут создаваться на базе одного или нескольких входных файлов и отражать информацию одного или нескольких первичных документов. Файлы с условно-постоянной̆ информацией̆ могут содержать справочную. Расценочную, табличную и другие виды информации, изменяющееся в течение года не более чем на 40%. Файлы со справочной̆ информацией̆ должны отражать все характеристики элементов материального производства (материалы, сырье, основные фонды, трудовые ресурсы и т.д.). Как правило, справочники содержат информацию классификаторов. Нормативно-расценочные файлы должны содержать данные о нормах расхода и расценках на выполнение опера- ций и услуг. Табличные файлы содержат сведения об экономических показателях, считающихся постоянными в течение длительного времени. Плановые файлы содержат плановые показатели, хранящиеся весь плановый̆ период.

2. Рабочие файлы создаются для решения конкретных задач на базе основных файлов путем выборки части информации из нескольких основных файлов с целью сокращения времени обработки.

3. Промежуточные файлы отличаются от рабочих тем, что они образуются с целью дальнейшего использования для решения других задач. Эти файлы, как и рабочие, при высокой̆ частоте обращений могут быть также переведены в категорию основных файлов.

4. Служебные файлы предназначаются для ускорения поиска информации в основных файлах и включают в себя справочники, индексные файлы и каталоги.

5. Архивные файлы содержат ретроспективные данные из основных фай- лов, которые используются для решения аналитических. Например, прогнозных задач. Архивные данные могут также использоваться для восстановления ИБ при разрушениях.

Методы организации данных во внешней̆ памяти ЭВМ.

Анализ методов организации данных остается в основном справедливыми ля данных во внешней̆ памяти ЭВМ, однако серьезным фактором, влияющим на время доступа, становится взаимное расположение файлов и записей̆ на маг- нитном носителе. Определим адресное расстояние dA как разность адресов предыдущего и текущего обращения к запоминающему устройству, взятую со знаком +.dA = |A(i - 1) – A(i) |Чтобы применять адресное расстояние ко всем типам запоминающих устройств, нужно учесть, что с магнитного диска читается (записывается) не отдельный символ (байт), а сектор или блок данных размером, например, 512 байт. Организация внешней̆ памяти персональных ЭВМ имеет ряд отличий от принципов, используемых в мини-ЭВМ и средних ЭВМ. Вся внешняя память разделена на физические блоки (секторы), имеющие фиксированный размер (обычно 512 байт), который̆ не зависит от желания проектировщика системы. Обмен с оперативной̆ памятью происходит только целыми секторами. Когда производится только последовательная обработка файла, оптимальный (с точки зрения минимального времени доступа) размер блока должен быть наиболее крупным из возможных; когда происходит только выборка оди- ночных записей̆, оптимальными являются блоки размером в одну запись. Существует ряд стандартных методов организации файлов на магнитном диске и соответственно методов доступа к этим фиалам. Среди них:

  • последовательная,

  • индексно-последовательная,

  • индексно-произвольная,

  • прямая организация данных.

При последовательной организации файла на магнитном диске возможен доступ от только что обработанной̆ записи к последующей̆ записи (по направлению к концу файла). Переход в обратном направлении не возможен, единст- венный путь состоит в закрытии файла, повторном его открытии и движения к нужной̆ записи в прямом направлении. Индексно-последовательный̆ файл представляет собой̆ последовательный̆ файл, снабжённый̆ индексами. Индекс – это набор ключей̆ и адресов записей̆, которые выбираются из основного массива по определенному закону. На магнитном диске выделяются 3 области:

  • первичная,

  • индексная,

  • область переполнения.

В первичной области помещаются упорядоченные по значениям ключевого атрибута записи, когда файл впервые создается. В зависимости от размера первичной̆ области могут создаваться 1, 2 или 3 уровня индексов: индекс первого уровня отмечает последнюю запись каждой̆ дорожки магнитного диска,

индекс второго уровня отмечает последнюю запись каждого цилиндра магнитного диска, Если файл индекса второго уровня достаточно велик по размеру, то для него допускается создание индекса третьего уровня. Область переполнения предназначена для размещения записей. Включаемых в индексно-последовательный файл. Новые записи связываются в цепочку и размещаются на том цилиндре, при котором ключи новых записей соответствуют интервалу ключей в первичной области этого цилиндра.

Характеристики индексно-последовательного доступа:

1. значения ключей записей должны быть отсортированы;

2. в индекс заносится наибольший̆ ключ для всех записей̆ блока (до-рожки);

3. наличие повторяющихся значений ключа недопустимо;

4. эффективность доступа зависит от числа уровней индексации, распре-деления памяти для размещения индекса, числа записей̆ в файле и размера об- ласти переполнения.

Индексно-произвольный доступ получается, если в индекс попадает информация о ключе каждой̆ записи. Записи файла могут быть при этом не упорядочены по значению ключа. Индекс для индексно-произвольного метода доступа практически всегда формируется как многоуровневый̆. Типичная организация многоуровневого индекса соответствует понятию В-дерева. Нижний̆ уровень В-дерева образуют индексы со ссылкой̆ на каждую запись основ- ного массива. Благодаря использованию адресных ссылок упорядоченность основного массива е обязательна. Индексы нижнего уровня разделены на страницы, и в конце каждой̆ страницы оставляется резервная память. Последний̆ индекс каждой̆ страницы поступает на страницу предпоследнего уровня В-дерева. Когда эта страница будет почти заполнена индексами, последний̆ из них поступит на страницу более высокого уровня и т.д. Прямой̆ метод доступа соответствует файлу, который̆ использует адресную функцию вида i = p – a Адресной̆ функцией̆ называется зависимость i = f(p), где i – номер (адрес) записи – значение ключевого атрибута в записи.

Простейшая адресная функция имеет вид: i = p – a, где а – константа. Недостаток этой̆ функции – большой̆ объем неиспользуемой̆ памяти. Для прямого доступа характерны следующие особенности:

  • не требуется упорядоченность записей̆ файла;

  • наличие повторяющихся значений ключа недопустимо;

  • значениям нескольких ключей̆ может соответствовать один и тот же адрес (блок).

При выборе метода организации файла существенное влияние оказывает количество записей, которое должно быть обработано в процессе реализации запроса. Этот параметр называется долей выборки и равен отношению числа требуемых при выборке записей файла к общему числу записей в файле. Блок данных на внешнем запоминающем устройстве обычно не заполняется полностью, т.е. оставляется резервная память (обычно 10-15% размера блока). Если этого не делать. То включение новых записей̆ потребует создания для них новых блоков практически при каждой корректировке. Эти блоки будут содержать, довольно, мало записей, от чего резко возрастет объем дополнительной памяти, необходимый для массива. Когда резервная память блока будет исчерпана и в него потребуется включить новую запись, наступает переполнение блока. Частота переполнения описывается формулой: K = (V + 1)/(2p – 1);где К – ожидаемое число корректирующих обращений (включений и исключений записей) к одному блоку до наступления переполнения – объем свободной̆ памяти блока, выраженный в количестве записей; р >0.5 – вероятность того, что корректирующее обращения является включением. Если р

Просмотров работы: 709