МОДУЛЬ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ ДЛЯ ИС МЕТОДИЧЕСКОГО УПРАВЛЕНИЯ РГГУ

Исаков В.А. 1, Катина Т.С. 1

1Российский государственный гуманитарный университет

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В статье описывается проектирование одного из модулей программного комплекса/информационной системы, разработанной научной студенческой группой факультета информационных систем и безопасности РГГУ (научный руководитель – д.ф.-м.н., проф. Л.И.Воронова) по инициативе Методического Управления Университета. ИС автоматизирует процессы мониторинга и контроля качества образовательных программ, протекающие в этом структурном подразделении РГГУ. На разработку получено Свидетельство о государственной регистрации программы для ЭВМ[1]

Авторами статьи спроектирована и реализована подсистема учета учебно-методической литературы (УУМЛ), важной составной частью которой является Модуль Автоматической Обработки Текстовых Данных[2].

Подсистема УУМЛ ориентирована на хранение и просмотр данных об изданной учебно-методической литературе, а также на регистрацию и сопровождение рукописей до момента их публикации[3].

Одно из требований, сформулированное на основании анализа предметной области к данной подсистеме - автоматическое добавление данных о публикациях из файлов содержащих структурированный текст в базу данных. За предыдущие несколько лет работы Методического Управления сформировался архив таких файлов, автоматическое извлечение данных из которых обеспечит совместимость данных в БД и текстовых архивах.

Для выполнения заявленного требования разработан модуль, функциональность которого предполагает последовательные действия в три этапа:

преобразование файла в нужный формат и извлечение текста в оперативную память;
автоматическое извлечение данных об изданной учебно-методической литературе с помощью алгоритма описанного ниже, при реализации которого используются регулярные выражения;
добавление извлеченных данных в БД.

Ниже приведен алгоритм извлечения данных из документов, содержащих информацию об изданной учебно-методической литературе.

Вход: размеченный текст, состоящий из списка абзацев разделенных символами новой строки. Каждый абзац состоит из четырех строк (подчеркнутый текст - извлекаемые данные; не подчеркнутый текст – элементы разметки):

Номер статьи.Название.
Степень/звание ФИО, …, N, Место издания., Издатель, Год издания.
Тип ресурса – Тип ресурса; Направление подготовки – Направление подготовки; Дисциплина – Дисциплина; Уровень образования – Уровень образования; Год обучения – Год обучения;Структурное подразделение (институт, факультет, центр); Кафедра – Кафедра;
Описание ИР- Описание информационного ресурса

Выход: структурированные данные об изданной учебно-методической литературе.

Извлечь список абзацев из текста соответствующих следующим правилам поиска: искомая строка имеет последовательность символов – число, точка, пробел, {последовательность любых символов кроме новой строки, символ новой строки} – 3 раза подряд, последовательность любых символов кроме новой строки.
Для каждого извлеченного абзаца выполнить следующие шаги.
1. Разбить абзац на 4 строки с использованием разделителя символ новой строки.
2. Извлечь номер статьи, который является числом в начале первой строке.
3. Извлечь название из первой строки используя правило: перед искомой строкой последовательность символов – цифра, точка, пробел, а искомая строка состоит из последовательности любых символов до конца строки.
4. Извлечь список строк с данными об авторах из второй строки используя правило: искомые строки имеют последовательность символов – буква русского или английского алфавита, последовательность любых символов кроме пропуска, пробел, заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита, заглавная буква русского или английского алфавита, точка, заглавная буква русского или английского алфавита, точка.
5. Для каждой извлеченной строки с данными об авторе выполнить следующие шаги.
  1. Извлечь фамилию используя правило: заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита.
  2. Извлечь первую букву имени используя правило: перед искомой строкой следующая последовательность символов - строчная буква русского или английского алфавита, пробел. Сама искомая строка состоит из заглавной буквы русского или английского алфавита и точки.
  3. Извлечь отчество используя правило: перед искомой строкой последовательность символов – строчная буква русского или английского алфавита, пробел, заглавная буква русского или английского алфавита, точка. Сама искомая строка состоит из заглавной буквы русского или английского алфавита и точки.
  4. Извлечь данные о звании и степени используя правило: после искомой строки последовательность символов - пробел, заглавная буква русского или английского алфавита, последовательность строчных букв русского или английского алфавита, пробел, заглавная буква русского или английского алфавита, точка, заглавная буква русского или английского алфавита, точка. Самая искомая строка состоит из любой последовательности символов.
6. Извлечь место публикации из второй строки используя правило: после искомой строки запятая и последовательность любых символов кроме запятой до конца строки. Сама искомая строка состоит из любой последовательности символов кроме запятой и пробела.

1. Извлечь год публикации из второй строки используя правило: искомая строка – цифра в конце второй строки.
2. Извлечь остальные данные из третей и четвертой строки используя правило: перед искомой строкой указать название поля (например “Тип ресурса”), пробел, дефис, пробел), а после искомой строки точка с запятой. Искомая строка состоит из любой последовательности символов.

Заключение

Разработана подсистема, обеспечивающая автоматизацию учета учебно-методической литературы, в рамках которой реализован модуль для автоматического добавления данных из текстовых файлов в БД. Модуль позволяет минимизировать время переноса предварительно накопленных данных из текстовых файлов в БД и облегчить интеграцию АИС.

ЛИТЕРАТУРА

1. Воронова Л.И., Исаков В.А., Катина Т.С., Аветисян А.З., Фенина А.Ю. Программный комплекс, автоматизирующий процессы мониторинга и контроля качества Образовательных программ для Методического Управления РГГУ// Свидетельство о государственной регистрации программы для ЭВМ № 2015663114 от 10.12.2015

2. Воронова Л. И., Исаков В. А., Катина Т. С. Проектирование информационной системы автоматизации мониторинга и контроля качества образовательных программ для методического управления РГГУ// Современные информационные технологии в профессиональной деятельности: труды Международной научно-практической конференция «СИТ – 2015» . – М., МФЮА, 2015 –т.1., стр.27-33.

3. Катина. Т.С., Воронова Л.И. Проектирование подсистемы учета учебно-методической литературы (УУМЛ) для методического управления РГГУ// III Международная студенческая электронная научная конференция «Студенческий научный форум 2016»; http://www.scienceforum.ru/2016/1711/20390

Просмотров работы: 606

Код для цитирования:

VIII Международная студенческая научная конференция Студенческий научный форум - 2016

МОДУЛЬ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ДАННЫХ ДЛЯ ИС МЕТОДИЧЕСКОГО УПРАВЛЕНИЯ РГГУ

Студенческий научный форум - 2016
VIII Международная студенческая научная конференция