ИЕРАРХИЧЕСКИЕ БАЗЫ ДАННЫХ - Студенческий научный форум

VIII Международная студенческая научная конференция Студенческий научный форум - 2016

ИЕРАРХИЧЕСКИЕ БАЗЫ ДАННЫХ

Клименко А.Г. 1
1Балаковский Инженерно-Технологический Институт Национальный Исследовательский Ядерный Университет МИФИ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
СОДЕРЖАНИЕ

1. АКТУАЛЬНОСТЬ ТЕМЫ………………………………………..…………...3

2. ПОНЯТИЕ И ТИПЫ БАЗ ДАННЫХ………………………………………...6

3. ИСТОРИЯ РАЗВИТИЯ……………………………………………………..…8

4. ИЕРАРХИЧСКИЕ БАЗЫ ДАННЫХ……………………………...…...……12

5. ПРИМЕРЫ ИБД………………………………………………………….…...16

ЗАКЛЮЧЕНИЕ…………………………………………………………....….…18

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ……………………………19

  1. АКТУАЛЬНОСТЬ ТЕМЫ

Темой являются документальные базы данных. На данный момент компьютеры занимают очень важную нишу в жизни каждого человека. Поэтому хранение в них различных данных является важным. А документальные базы данных позволяют хранить информацию в сжатом варианте, то есть только самые важные данные. Именно поэтому они являются часто используемыми. Это и определяет актуальность моей темы.

Базы данных уменьшают работу с большим количеством информации.

Первые базы данных работали с информацией фактического характера, например, характеристиками объектов и их связей. По мере «интеллектуализации» автоматизированных информационных систем (АИС) появилась возможность обрабатывать текстовые документы на естественном языке, изображения и другие виды, и форматы представления данных.

Хранения данных в системах обработки фактической и документальной (текстовой) информации схожи, алгоритмы обработки в них заметно различаются. Поэтому в зависимости от характера информационных ресурсов, которыми оперируют такие системы, принято различать два крупных их класса − документальные и фактографические.

Документальные системы служат для работы с документами на естественном языке − монографиями, публикациями в периодике, сообщениями пресс агентств, текстами законодательных актов. Они обеспечивают их смысловой анализ при неполном, приближенном представлении смысла. Наиболее распространенный тип документальных систем – информационно−поисковые системы, предназначенные для накопления и поиска по различным критериям документов на естественном языке.

В отличие от традиционных БД(Базы данные), ориентированных на полное и точное представление данных достаточно простой смысловой структуры, документальные БД ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста.

Основной функцией любой документальной информационно − поисковой системы (ДИПС) является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы.

Отметим, что в отличие от фактографических информационно − поисковые системы (ФИПС), которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. Под действием получаемой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Однако информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные моменты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке (ЕЯ), и представляет собой информационный запрос, с которым пользователь обращается к системе.

Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения к системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но по отношению к информационному запросу.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания и поисковых образов документов, для записи применяются специальные языки, называемые информационно−поисковыми .

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС).

Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной релевантности − соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.

  1. ПОНЯТИЕ И ТИПЫ БАЗ ДАННЫХ

База данных (БД) — это совокупность взаимосвязанных данных, хранящихся в памяти компьютера, и организованных по определённым правилам, предполагающим одинаковые для всех принципы описания, хранения и обработки данных.

Базы данных делятся на два типа:

− Фактографические;

− Документальные.

Фактографические базы данных содержат короткие сведения об объектах, поданные в точно определённом и заданном формате.

В документальных базах данных содержится информация разного типа: текстовая, звуковая, графическая и прочая. То есть тип информации не однороден, а разный…

Доступ к данным, находящимся в базе происходит через специальный программный пакет, — системы управления базами данных (СУБД).

СУБД – это программное обеспечение, которое позволяет создавать базы данных, обновлять их, пополнять информацией, обеспечивать гибкий доступ к ней. Также система создаёт на экране компьютера определённую среду для работы пользователя, известную как интерфейс.

База данных всегда имеет определённую структуру. Различают три её вида:

− Иерархическая. Эта модель представляет собой структуру данных, напоминающую «дерево», Модель работает по такому принципу: несколько узлов низшего уровня соединяются с помощью связи с одним узлом высшего уровня. Те соединяются с узлами уровня ещё выше и так далее;

− Сетевая – похожая на иерархическая, вид также напоминает дерево, но отличается от неё характером связи между компонентами – не один ко многим, а много ко многим;

− Реляционная – база данных, которая сильно отличается от остальных, так как по внешнему своему видом является таблицей. Строка каждой таблицы содержит определённую информацию об объекте внутри базы, а столбец – одинаковый тип данных объекта.

  1. ИСТОРИЯ РАЗВИТИЯ

История развития СУБД насчитывает более 30 лет. В 1968 году введена в эксплуатацию первая промышленная система управления базами данных. Позже появляется первый стандартный язык обработки и создания данных для компьютеров и вычислительных систем. Он определил ряд фундаментальных понятий в теории БД, которые и до сих пор являются основополагающими для сетевой модели данных.

В развитие, которое последовало за этими важными достижениями, теории баз данных большой вклад был сделан американским математиком Коддом, который является создателем одной из главных моделей – реляционной модели данных.

Базы данных хранились во внешней памяти центральной ЭВМ, пользователями этих баз данных были задачи, запускаемые в основном в пакетном режиме. Интерактивный режим доступа обеспечивался с помощью консольных терминалов, которые не обладали собственными вычислительными ресурсами (процессором, внешней памятью) и служили только устройствами ввода−вывода для центральной ЭВМ. Программы доступа к БД писались на различных языках и запускались как обычные числовые программы.

Все СУБД базируются на мощных мультипрограммных операционных системах (MVS, SVM, RTE, OSRV, RSX, UNIX), поэтому в основном поддерживается работа с централизованной базой данных в режиме распределенного доступа.

Функции управления распределением ресурсов в основном осуществляются операционной системой (ОС).

Результаты научных исследований открыто обсуждаются в печати, идет мощный поток общедоступных публикаций, касающихся всех аспектов теории и практики баз данных, и результаты теоретических исследований активно внедряются в коммерческие СУБД.

Появляются первые языки высокого уровня для работы с реляционной моделью данных. Однако отсутствуют стандарты для этих первых языков.

История развивается по геликоприону, поэтому после процесса «персонализации» начался обратный процесс — интеграция. Множится количество локальных сетей, все больше информации передается между компьютерами, остро встает задача согласованности данных, хранящихся и обрабатывающихся в разных местах. После чего идет распределенных баз данных, сохраняющих все преимущества настольных СУБД и в то же время позволяющих организовать параллельную обработку информации и поддержку целостности БД.

Практически все современные СУБД обеспечивают поддержку полной реляционной модели, а именно:

О структурной целостности — допустимыми являются только данные, представленные в виде отношений реляционной модели;

О языковой целостности, то есть языков манипулирования данными высокого уровня (в основном SQL);

О ссылочной целостности, контроля над соблюдением ссылочной целостности в течение всего времени функционирования системы, и гарантий невозможности со стороны СУБД нарушить эти ограничения.

Необходимость поддержки многопользовательской работы с базой данных и возможность децентрализованного хранения данных потребовали развития средств администрирования БД с реализацией общей концепции средств защиты данных.

Потребность в новых реализациях вызвала создание серьезных теоретических трудов по оптимизации реализаций распределенных БД и работе с распределенными транзакциями и запросами с внедрением полученных результатов в коммерческие СУБД.

Для того чтобы не потерять клиентов, которые ранее работали на настольных СУБД, практически все современные СУБД имеют средства подключения клиентских приложений, разработанных с использованием настольных СУБД, и средства экспорта данных из форматов настольных СУБД второго этапа развития.

Именно к этому этапу можно отнести разработку ряда стандартов в рамках языков описания и манипулирования данными, начиная с SQL89, SQL92, SQL99 и технологий по обмену данными между различными СУБД, к которым можно отнести и протокол ODBC (Open DataBase Connectivity), предложенный фирмой Microsoft.

Простые задачи обработки данных, не связанные со сложными алгоритмами, требующими согласованного изменения данных во многих взаимосвязанных объектах, достаточно просто и эффективно могут быть построены по данной архитектуре. В этом случае для подключения нового пользователя к возможности использовать данную задачу не требуется установка дополнительного клиентского программного обеспечения. Однако алгоритмически сложные задачи рекомендуется реализовывать в архитектуре «клиент−сервер» с разработкой специального клиентского программного обеспечения [5].

История возникновения и развития технологий баз данных может рассматриваться как в широком, так и в узком аспекте.

История баз данных в узком смысле рассматривает базы данных в традиционном (современном) понимании. Эта история начинается с 1955 года, когда появилось программируемое оборудование обработки записей. Программное обеспечение этого времени поддерживало модель обработки записей на основе файлов. Для хранения данных использовались перфокарты .

Оперативные сетевые базы данных появились в середине 1960−х. Операции над оперативными базами данных обрабатывались в интерактивном режиме с помощью терминалов. Простые индексно−последовательные организации записей быстро развились к более мощной модели записей, ориентированной на наборы. За руководство работой Data Base Task Group (DBTG), разработавшей стандартный язык описания данных и манипулирования данными, Чарльз Бахман получил Тьюринговскую премию.

Следующий важный этап связан с появлением в начале 1970−х реляционной модели данных, благодаря работам Эдгара Ф. Кодда. Работы Кодда открыли путь к тесной связи прикладной технологии баз данных с математикой и логикой. За свой вклад в теорию и практику Эдгар Ф. Кодд также получил премию Тьюринга.

Сам термин база данных (англ. database) появился в начале 1960−х годов, и был введён в употребление на симпозиумах, организованных компанией SDC в 1964 и 1965 годах, хотя понимался сначала в довольно узком смысле, в контексте систем искусственного интеллекта. В широкое употребление в современном понимании термин вошёл лишь в 1970−е годы [4].

  1. ИЕРАРХИЧСКИЕ БАЗЫ ДАННЫХ

Иерархическая структура представляет совокупность элементов, связанных между собой по определенным правилам. Объекты, связанные иерархическими отношениями, образуют ориентированный граф (перевернутое дерево), вид которого представлен ниже на рисунке 1. К основным понятиям иерархической структуры относятся: уровень, элемент (узел), связь. Узел − это совокупность атрибутов данных, описывающих некоторый объект.

На схеме иерархического дерева узлы представляются вершинами графа.

Рис.1 Иерархического дерева.

Каждый узел на более низком уровне связан только с одним узлом, находящимся на более высоком уровне. Иерархическое дерево имеет только одну вершину (корень дерева), не подчиненную никакой другой вершине и находящуюся на самом верхнем (первом) уровне. Зависимые (подчинённые) узлы находятся на втором, третьем и так далее. Количество деревьев в базе данных определяется числом корневых записей.

К каждой записи базы данных существует только один (иерархический) путь от корневой записи.

Основными информационными единицами в иерархической модели данных являются сегмент и поле.

Поле данных определяется как наименьшая неделимая единица данных, доступная пользователю.

Для сегмента определяются тип сегмента и экземпляр сегмента. Экземпляр сегмента образуется из конкретных значений полей данных. Тип сегмента − это поименованная совокупность входящих в него типов полей данных. Иерархическая модель данных базируется на графовой форме построения данных, и на концептуальном уровне она является просто частным случаем сетевой модели данных. В иерархической модели данных вершине графа соответствует тип сегмента или просто сегмент, а дугам − типы связей предок − потомок. В иерархических структуpax сегмент − потомок должен иметь в точности одного предка.

Иерархическая модель представляет − связный неориентированный гpaф древовидной структуры, объединяющий сегменты.

Иерархическая база данных состоит из упорядоченного набора деревьев.

Иерархия всегда начинается с корневой вершины (или главного узла).

Исходный узел, из которого строится дерево, называется корневым узлом или просто корнем, причем одно дерево может иметь только один корень.

Узел может содержать один или несколько атрибутов, описывающих находящийся в нем объект.

Порожденные узлы могут встраиваться в «дерево» как в горизонтальном направлении, так и в вертикальном.

Доступ к порожденным узлам возможен только через исходный узел, поэтому существует только один путь доступа к каждому узлу.

Достоинством модели является простота ее построения, легкость понимания сути принципа иерархии, наличие промышленных СУБД, поддерживающих данную модель. Недостатком является сложность операций по включению в иерархию информации о новых объектах базы данных и удалению устаревшей информации. Сетевая модель описывает элементарные данные и отношения между ними в виде ориентированной сети. Это такие отношения между объектами, когда каждый порожденный элемент имеет более одного исходного и может быть связан с любым другим элементом структуры.

Например, в структуре управления учебным заведением порожденный элемент «Студент» может иметь не один, а два исходных элемента: «Студент − Учебная группа», и «Студент − Комната в общежитии». Сетевые структуры могут быть многоуровневыми и иметь разную степень сложности. Схема, в которой присутствует хотя бы одна связь «многие ко многим» и которая требует для своей реализации использования сложных методов, является сложной схемой.

База данных, описываемая сетевой моделью, состоит из областей, каждая из которых состоит из записей, а последние, в свою очередь, состоят из полей. Недостатком сетевой модели является ее сложность, возможность потери независимости данных при реорганизации базы данных.

При появлении новых пользователей, новых приложений и новых видов запросов происходит рост базы данных, что может привести к нарушению логического представления данных. Реляционная модель имеет в своей основе понятие «отношения», и ее данные формируются в виде таблиц.

Отношение − это двумерная таблица, имеющая сове название, в которой минимальным объектом действий, сохраняющим ее структуру, является строка таблицы (кортеж), состоящая из ячеек таблицы − полей. Каждый столбец таблицы соответствует только одной компоненте этого отношения. С логической точки зрения реляционная база данных представляется множеством двумерных таблиц различного предметного наполнения.

В зависимости от содержания отношения реляционной базы данных бывают объективными и связными. Объективные отношения хранят данные о каком−либо одном объекте, экземпляре сущности. В них один из атрибутов однозначно определяет объект и называется ключом отношения или первичным атрибутом (для удобства он записывается в первом столбце таблицы).

Остальные атрибуты функционально зависят от этого ключа. В объективном отношении не может быть дублирующих объектов и в этом − основное ограничения реляционной базы данных. Связное отношение хранит ключи нескольких объектных отношений, по которым между ними устанавливаются связи. Если набор атрибутов базы данных заранее не фиксирован, то возможны различные варианты их группировки, однако, независимо от выбранного способа, должны соблюдаться единые требования.

В частности, если база данных содержит множество отношений, то они должны иметь минимальную избыточность представления информации; атрибуты, включаемые в базу данных, должны обеспечивать выполнение массовых расчетов; при добавлении в базу данных новых атрибутов перестройка наборов отношений должна быть минимальной. К числу достоинств реляционной модели относятся: простота построения, доступность понимания, возможность эксплуатации базы данных без знания методов и способов ее построения, независимость данных, гибкость структуры и другие.

Недостатками модели являются: низкая производительность по сравнению с иерархической и сетевой моделями, сложность программного обеспечения, избыточность.

  1. ПРИМЕРЫ ИБД

Рассмотрим модель данных предприятия (см. Рис.2): предприятие состоит из отделов, в которых работают сотрудники. В каждом отделе может работать несколько сотрудников, но сотрудник не может работать более чем в одном отделе. Поэтому, для информационной системы управления персоналом необходимо создать групповое отношение, состоящее из родительской записи Отдел (Наименование_отдела, Число_работников) и дочерней записи Сотрудник (Фамилия, должность, Оклад). Это отношение показано на Рис. 2а (Для простоты полагается, что имеются только две дочерние записи). Для автоматизации учета контрактов с заказчиками необходимо создание еще одной иерархической структуры : заказчик − контракты с ним − сотрудники, задействованные в работе над контрактом. Это дерево будет включать записи Заказчик (Наименование_заказчика, Адрес), Контракт (Номер, Дата, Сумма), Исполнитель (Фамилия, Должность, Наименование_отдела ) (Рис. 2b).

Рис.2 Модель данных.

Из этого примера видны недостатки иерархических БД:

− Частично дублируется информация между записями Сотрудник и Исполнитель (такие записи называют парными), причем в иерархической модели данных не предусмотрена поддержка соответствия между парными записями.

− Иерархическая модель реализует отношение между исходной и дочерней записью по схеме , то есть одной родительской записи может соответствовать любое число дочерних. Допустим теперь, что исполнитель может принимать участие более чем в одном контракте (то есть возникает связь типа). В этом случае в базу данных необходимо ввести еще одно групповое отношение, в котором Исполнитель будет являться исходной записью, а Контракт − дочерней (Рис. 2c). Таким образом, мы опять вынуждены дублировать информацию[3].

ЗАКЛЮЧЕНИЕ

Таким образом, становится понятно, что в России на данный момент идёт привыкание к базам данных и их развитие, путём перехода отраслей на компьютерные БД вместо привычной рукописной документации. Именно поэтому тема является важной, а сами ИБД – преимущественное направление развития, так как они позволяют наиболее кратко и понятно размещать данные и быстро находить нужные.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1.Бюллетень УДН им. Патриса Лумумбы № 48/16к «Базы данных. Перспективы» автор ректор УДН В.М. Филлипов.

http://www.referat.wwww4.com/view−text−18322

2. Интернет ресурс − Иерархических баз данных.

http://www.bseu.by/it/tohod/lekcii2_2.htm

3.Интернет ресурс − Пример иерархических баз данных.

http://www.mstu.edu.ru/study/materials/zelenkov/ch_3_1.html

4. Интернет ресурс − Грей, Дж. Управление данными: прошлое, настоящее и будущее. http://citforum.ru/database/classics/gray/

5. Интернет ресурс − Базы данных: модели, разработка, реализация. http://www.intuit.ru/studies/courses/1001/297/lecture/7399?page=2

Проверка на Antiplagiat.ru

Просмотров работы: 1733