РАЗРАБОТКА ЭЛЕКТРОННЫХ СЛОВАРЕЙ, ТЕЗАУРУСОВ И ОНТОЛОГИЙ

Старков А.Н. 1, Алексеева А.В. 1

1МГТУ им. Носова

Работа в формате PDF

738.2 KB

Сертификат участника

Комментарии

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

В последнее время, как в отечественной, так и в зарубежной лингвистике большое внимание уделяется вопросам всестороннего изучения проблем терминологии, которое ведётся на базе различных языков и различных предметных областей. Усиление социальной роли науки и увеличение объема информации влекут за собой систематическое исследование терминосистем, повышение интереса к таким областям человеческого знания, как терминоведение, информатизация знаний, автоматическая обработка информации. Количество электронных документов, которые использует в своей ежедневной деятельности современная компания, стремительно возрастает. При этом данные хранятся в различных хранилищах, каждое из которых имеет собственную структуру (базы данных, информационные порталы, электронные библиотеки и т.д.) либо хранилище документов вообще неструктурированно (файлы на жестком диске пользователя).

Поэтому для обеспечения жизнедеятельности крупных государственных структур и частных корпораций необходимым условием является использование локальных поисковых систем для осуществления поиска по внутренним информационным ресурсам.

Именно для этого используются электронные словари, информационно-поисковые тезаурусы и онтологии.

Объект исследования – электронные словари, информационно-поисковые тезаурусы и онтологии.

Предмет исследования – средства разработки электронных словарей, информационно-поисковых тезаурусов и онтологий.

Цель курсовой работы – на основе средств разработки электронных словарей и информационно-поисковых тезаурусов разработать двуязычный электронный словарь и тезаурус терминов предметной области.

Задачи курсовой работы:

Рассмотреть понятия электронных словарей, информационно-поисковых тезаурусов и онтологий.
Проанализировать средства разработки электронных словарей, информационно-поисковых тезаурусов и онтологий.
Разработать электронный двуязычный словарь и тезаурус предметной области «Информатика и ИКТ».

§1.Понятия электронных словарей, тезаурусов и онтологий

С появлением компьютерной техники, создатели программного обеспечения создали новый тип словарей - электронный.

Электронный словарь — это словарь в компьютере или другом электронном устройстве. Позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний, а также с возможностью изменения направления перевода[4]. Такой тип словаря - абсолютно новое слово в истории лексикографии, отметившее новую качественную ступень ее развития. Именно сейчас электронные словари вышли из тени бумажных и становятся самостоятельными игроками на языковой площадке, причем игроками, которые, похоже, в ближайшее время сделают остальных действующих лиц экспонатами Музея книги. Ведь электронные словари обладают рядом очевидных и существенных преимуществ по сравнению со словарями традиционными. Единственным же их недостатком является привязанность к персональному компьютеру и, следовательно, ограниченная доступность. Однако этот недостаток будет достаточно скоро устранен если не полностью, то, по крайней мере, большей частью, вследствие все возрастающих темпов компьютеризации, в том числе и растущей доступностью переносным компьютеров типа Laptop.

Электронных словарей сейчас выпущено довольно много, поэтому остановимся только на двуязычных англо-русских и русско-английских словарях. Для примера возьмем два самых известных: Lingvo компании Abbyy и МультиЛекс, разработанный фирмой МедиаЛингва. Эти словари были выбраны благодаря такими преимуществам между остальными электронными словарями, как многофункциональность, количество встроенных словарей и простота использования.

Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: «В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников». Некоторые эксперты считают, что такая политика покоится на эксклюзивном договоре МедиаЛингва с «естественным монополистом» рынка российских словарей, издательством «Русский язык». С точки зрения МедиаЛингва, задача электронной лексикографии - как можно точнее перевести традиционный словарь в электронную форму.

За основу словаря МультиЛекс взят «Новый большой англо-русский словарь» под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу.

Конечно, словарь Апресяна - выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки. Первое, традиционные словари довольно серьезно отстают от языковой реальности. Обычно это не менее десяти лет. А электронные словари можно пополнять чуть ли не ежедневно. Второе, словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи.

По другому и, вероятно, более перспективному пути пошла компания Abbyy. Конечно, и в их большом электронном словаре Lingvo7.0 есть переведенные в цифровой вид лицензированные бумажные словари - это политехнический, юридический, экономический, финансовый, медицинский и - что очень своевременно - динамично пополняемый компьютерный словарь. Но основу Lingvo, по словам руководителя лингвистического отдела фирмы Владимира Селегея, составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы Abbyy близок к языковой практике.

Удачной находкой Abbyy выглядит приглашение всем желающим размещать на их Интернет-узле словари собственного изготовления. Такое вовлечение пользователей в лексикографическую работу вполне соответствует духу открытых Интернет-сообществ. Дополнительных словарей на сайте уже набралось 23 штуки. Причем всякий желающий может скачать их из Интернета и присоединить хоть все к уже имеющимся в базовой версии. Надо сказать, что базовая версия Lingvo-7.0 содержит миллион двести тысяч словарных статей. Причем основные статьи тщательно проработаны. Первое, что бросается в глаза, когда мы говорим об электронных словарях - это резкое сокращение объема. На десятиграммовом компакт-диске помещается целая полка толстых словарей общим весом в двадцать пять килограмм. Но, естественно, не это главное. Важно, что электронный словарь принципиально может обойти ключевое противоречие книжной лексикографии: чем больше информации предлагает словарь, чем развитее его научный аппарат, тем сложнее им пользоваться. Поэтому классические словари разделяется на две категории. Первая - популярные, относительно удобные, но довольно простые. Вторая - обстоятельные академические издания, не позволяющие быстро получить искомую информацию.

Современные электронные словари не только значительно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд. Причем искать можно в любой форме. Некоторые, например Lingvo, встраиваются во все основные офисные приложения и выделенное слово можно переводить нажатием нескольких клавиш. Рассмотрим преимущества электронных словарей.

При традиционном подходе минимальной единицей доступа является лексема (имя словарной статьи): нужно прочесть всю статью, чтобы определить, содержится ли в ней ответ на наш запрос. Для таких словарей, как оксфордский, это представляет серьезную проблему. Пользователь хотел бы, чтобы словарь максимально локализовал релевантную информацию. При этом речь не идет об автоматическом выборе переводного эквивалента (если мы говорим о переводном словаре). Специфика словарного ответа в том, что он дает весьма разнообразную информацию о слове или словосочетании, а не просто переводное соответствие, предполагает активный выбор пользователя из нескольких возможных хорошо обоснованных альтернатив.

Однако попытка решить проблему адекватной реакции словаря на запрос неизбежно наталкивается на сопротивление самого словарного материала, перенесенного из бумажного словаря.

Электронные словари не только содержат транскрипцию, но и могут произносить слова. Здесь тоже существует два подхода. В МультиЛекс встроен синтезатор звука и произносятся все слова. Однако полностью доверять такому подходу, не контролируя его по транскрипции, опасно. Синтезатор может неправильно поставить ударение или вообще исказить произношение слова. В Abbyy Lingvo основную лексику озвучивает диктор с оксфордским произношением.

Но, конечно, самое главное преимущество хороших электронных словарей - одновременный поиск не только по названию словарной статьи, но и по всему огромному объему словарей, что просто нереально в бумажном варианте. Такой поиск создает многомерный портрет слова, при этом извлекаются из глубин словарной статьи не только конкретные примеры его использования и устойчивые выражения, в которых слово встречается, но и обнажаются, становятся явными языковые законы, которым подчиняются правила словообразования. Даже мобильный электронный словарь не может отразить все сиюминутные движения языка, но он может дать ключ для расшифровки и понимания этих изменений, делая пользователя соавтором лексикографа. Что очень важно, когда требуется точный смысловой перевод, ведь это не задача подбора подходящего выражения, а в широком смысле отображение одной культуры с помощью языка другой. Поэтому в Lingvo можно строить и свой собственный словарь под общей оболочкой.

Язык — отражение реальной жизни. А жизнь не стоит на месте: появляются новые отрасли производства, науки, бизнеса, культуры. В обычную разговорную речь приходят новые слова, термины, устойчивые словосочетания. Можно ли представить в речи наших сограждан лет десять назад такие слова, как «холдинг», «транш»? Выражение «конечный пользователь» вызвало бы у них недоумение, и никто не мог бы предположить, что слово «мыло» будет означать на компьютерном жаргоне электронную почту (вольная русская транскрипция английского слова «e-mail»).

Вся эта лексика не может быть адекватно отражена в "бумажных" словарях по той простой причине, что они слишком долго готовятся. Так, известный англо-русский словарь Мюллера, сочетающий относительную простоту пользования (один том, хотя и тяжелый!) и полноту содержания, был издан в 1960 году и с тех пор претерпел лишь косметические изменения в 1978 и 1994 годах.

Фактически многие словари, которые сформировались в языковой атмосфере середины века, сильно устарели. В них не указаны современные значения старых слов, а многие новые слова просто отсутствуют. Буквальное перенесение таких словарей на компьютеры бесперспективно. Это стало особенно очевидно в связи с развитием Интернета: большая часть Веб-страниц состоит из английских текстов, написанных живым современным языком, обильно использующим разговорную лексику и сленг. Вряд ли какой-либо из существующих англо-русских словарей может ответить на этот вызов. Решить данную задачу под силу лишь электронным словарям. Большинство «бумажных» словарей ориентировано на человека, читающего на иностранном языке, то есть человека, который в непонятном ему тексте находит «опорные» слова, помогающие выстроить общую смысловую картину. Человек «пишущий», кроме знания всех используемых слов, должен четко представлять, как эти слова сочетаются друг с другом, какие предлоги при этом используются, есть ли устойчивые выражения, передающие необходимый смысл.

Увы, если «бумажный» словарь и удовлетворяет нужды Читателя, то уж интересы Писателя на неродном языке он чаще всего попросту игнорирует. А ведь в наш век электронных коммуникаций Писателем стал практически каждый пользователь Интернета.

И здесь электронный словарь оказывается намного полезнее «бумажного». Даже буквальное воспроизведение приличного «бумажного» словаря на компьютере дает возможность извлечь из него столь необходимую Писателю информацию, похороненную в глубинах словарных статей. Например, пользователь может открыть на экране сразу несколько словарных статей, характеризующих все значения слова «достать» (брать, получать, надоесть и т. д.) как на одном языке, так и на другом, и, таким образом, изучить все нюансы использования слова.

Однако более правильный путь — подумать о Писателе заранее, при составлении словаря. Чтобы учесть его интересы, надо уметь описывать способы образования сложных словосочетаний. Например, как передать по-английски смысл «подтасовать или фальсифицировать результаты выборов»? Это выражение не относится к идиоматическим, потому его не следует искать в словнике целиком. С другой стороны, оно не может быть правильно переведено и по частям. Логичнее всего искать это выражение в статье «election» (выборы). Однако, чтобы оно там оказалось, нужно желание разработчиков словаря его туда поместить.

Чтобы Писатель смог почувствовать оттенки слова, необходимо привести в словаре максимально возможное количество синонимов — слов, близких по смыслу. Например, английский глагол break означает, в частности: 1) ломать, разрушать, разбивать и 2) рвать, разрывать, отрывать. Для первого случая синонимами будут слова crush (давить, дробить) и smash (разбиваться вдребезги). Второму значению близки слова separate (отделять, разделять — более деликатный смысл) и tear off (отрывать, срывать). Через общую "карту" синонимов становится яснее, как перевести на иностранный язык слово с тем или иным смысловым оттенком. Очень полезны иллюстрирующие примеры, особенно на использование слов с предлогами или в устойчивых словосочетаниях. Например: «уехать отсюда», «уехать куда-то», «уехать за чем-то», «уехать» в значении «отсутствовать».

Информацию о синонимах, словосочетаниях и случаях употребления правильнее всего предоставить на родном языке пишущего: если Писатель русский - то в русско-английском словаре, если он англичанин — то в англо-русском. Ни для кого не секрет, насколько лучше помогают толковые английские словари при решении мучительной проблемы, какое слово употребить. А вот жесткая ориентация словаря на перевод, а не на описание языка делает его использование Писателем непростым и неочевидным. Таким образом, в современных электронных словарях отражено пионерское достижение российской лексикографии - двуязычный словарь во многом становится толковым. Кроме того, такой электронный словарь, как Lingvo, строит нажатием нужной клавиши парадигму, то есть совокупность всех форм слова.

Перейдем к рассмотрению понятия электронно-поискового тезауруса.

Информационно-поисковый тезаурус (ИПТ) — это контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска[5].

Разработка ИПТ предполагает следующие цели:

обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
обеспечение последовательного использования единиц индексирования;
описание отношений между терминами;
использование как поискового средства при поиске документов;

Основной единицей тезаурусов являются термины, которые разделяются на дескрипторы (авторизованные термины) и недескрипторы (аскрипторы). Большинство версий стандартов по ИПТ указывают на связь терминов с понятиями предметной области. По американскому стандарту термин — это слово либо словосочетание, обозначающее понятие. Стандарт ISO подчеркивает, что индексирующий термин — это представление понятия предпочтительно в форме существительного или именной группы. При этом понятие рассматривается как единица мысли, которая формируется мысленно для отражения всех или некоторых свойств конкретного или абстрактного, реально существующего или мысленного объекта. Понятия существуют как абстрактные сущности, независимо от терминов, которые их выражают. Стоит отметить, что не все разработчики тезаурусов четко разделяли понятия и термины. Так, разработчики тезауруса AGROVOC определили его как термино-ориентированный (term-oriented), что находит свое проявление в том, что к термину невозможно добавить синонимы. Эта особенность тезауруса рассматривается авторами как недостаток, который необходимо исправить. Таким образом, разработчики тезаурусов предполагают, что понятие предметной области обычно имеет несколько возможных вариантов лексического представления в тексте, которые рассматриваются как синонимы. Среди таких синонимов выбирается дескриптор — термин, который рассматривается как основной способ ссылки на понятие в рамках тезауруса. Другие термины из синонимического ряда, включенные в тезаурус, называются аскрипторами или недескрипторами. Они используются как вспомогательные элементы, текстовые входы, помогающие найти подходящие дескрипторы. Дескрипторы тезауруса должны соответствовать выбранной предметной области тезауруса. Каждый дескриптор, внесенный в тезаурус, должен представлять отдельное понятие данной области. Дескриптор может быть однословным или многословным. Поскольку часто бывает достаточно трудно понять, представляет ли отдельное понятие многословное словосочетание, многие тезаурусы и руководства уделяют особое внимание основным принципам включения в тезаурус в качестве дескрипторов многословных терминов.

Переходя к онтологиям, для начала рассмотрим их определение и предназначение.

Неформально онтология представляет собой некоторое описание взгляда на мир применительно к конкретной области интересов. Это описание состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области.

На формальном уровне онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно описывать классы, отношения, функции и индивиды[16].

В последние годы разработка онтологий - явное формальное описание терминов предметной области и отношений между ними - переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во всемирной паутине онтологии стали обычным явлением. Онтологии в сети варьируются от больших таксономий, категоризирующих веб, до категоризаций продаваемых товаров и их характеристик. Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного использования и аннотирования информации в своей области.

Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно-интерпретируемые формулировки основных понятий предметной области и отношения между ними.

Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий. К примеру, пусть несколько различных веб-сайтов содержат информацию по медицине или предоставляют информацию о платных медицинских услугах, оплачиваемых через Интернет. Если эти веб-сайты совместно используют и публикуют одну и ту же базовую онтологию терминов, которыми они все пользуются, то компьютерные агенты могут извлекать информацию из этих различных сайтов и накапливать ее. Агенты могут использовать накопленную информацию для ответов на запросы пользователей или как входные данные для других приложений.

Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. Например, для моделей многих различных предметных областей необходимо сформулировать понятие времени. Это представление включает понятие временных интервалов, моментов времени, относительных мер времени и т.д. Если одна группа ученых детально разработает такую онтологию, то другие могут просто повторно использовать ее в своих предметных областях. Кроме того, если нам нужно создать большую онтологию, мы можем интегрировать несколько существующих онтологий, описывающих части большой предметной области. Мы также можем повторно использовать основную онтологию, такую как UNSPSC, и расширить ее для описания интересующей нас предметной области.

Создание явных допущений в предметной области, лежащих в основе реализации, дает возможность легко изменить эти допущения при изменении наших знаний о предметной области. Жесткое кодирование предположений о мире на языке программирования приводит к тому, что эти предположения не только сложно найти и понять, но и также сложно изменить, особенно непрограммисту. Кроме того, явные спецификации знаний в предметной области полезны для новых пользователей, которые должны узнать значения терминов предметной области.

Отделение знаний предметной области от оперативных знаний - это еще один вариант общего применения онтологий. Мы можем описать задачу конфигурирования продукта из его компонентов в соответствии с требуемой спецификацией и внедрить программу, которая делает эту конфигурацию независимой от продукта и самих компонентов. После этого мы можем разработать онтологию компонентов и характеристик ЭВМ и применить этот алгоритм для конфигурирования нестандартных ЭВМ. Мы также можем использовать тот же алгоритм для конфигурирования лифтов, если мы предоставим ему онтологию компонентов лифта.

Анализ знаний в предметной области возможен, когда имеется декларативная спецификация терминов. Формальный анализ терминов чрезвычайно ценен как при попытке повторного использования существующих онтологий, так и при их расширении.

Часто онтология предметной области сама по себе не является целью. Разработка онтологии сродни определению набора данных и их структуры для использования другими программами. Методы решения задач, доменно-независимые приложения и программные агенты используют в качестве данных онтологии и базы знаний, построенные на основе этих онтологий.

В проектировании онтологий условно можно выделить два направления, до некоторого времени развивавшихся отдельно. Первое связано с представлением онтологии как формальной системы, основанной на математически точных аксиомах. Второе направление развивалось в рамках компьютерной лингвистики и когнитивной науки. Там онтология понималась как система абстрактных понятий, существующих только в сознании человека, которая может быть выражена на естественном языке (или средствами какой-то другой системы символов). При этом обычно не делается предположений о точности или непротиворечивости такой системы.

Таким образом, существует два альтернативных подхода к созданию и исследованию онтологий. Первый (формальный) основан на логике (предикатов первого порядка, дескриптивной, модальной и т.п.). Второй (лингвистический) основан на изучении естественного языка (в частности, семантики) и построении онтологий на больших текстовых массивах, так называемых корпусах.

В настоящее время данные подходы тесно взаимодействуют. Идет поиск связей, позволяющих комбинировать соответствующие методы. Поэтому иногда бывает сложно отделить лексические онтологии с элементами формальных аксиоматик от логических систем с включениями лингвистических знаний.

Общие онтологии описывают наиболее общие концепты (пространство, время, материя, объект, событие, действие и т.д.), которые независимы от конкретной проблемы или области. В эту категорию попадают и онтологии представления, и онтологии верхнего уровня.

Онтология, ориентированная на задачу - это онтология, используемая конкретной прикладной программой и содержащая термины, которые используются при разработке ПО, выполняющего конкретную задачу. Она отражает специфику приложения, но может также содержать некоторые общие термины (например, в графическом редакторе будут и специфические термины - палитра, тип заливки, наложение слоев и т.д., и общие - сохранить и загрузить файл). Задачи, которым может быть посвящена онтология, могут быть самыми разнообразными: составления расписания, определение целей, диагностика, продажа, разработка ПО, построение классификации. При этом онтология задачи использует специализацию терминов, представленных в онтологиях верхнего уровня (общих онтологиях).

Предметная онтология (или онтология предметов ) описывает реальные предметы, участвующие в какой-либо деятельности (производстве). Например, это может быть онтология всех частей и компонентов самолетов определененной марки (Boeing) и сведения об их поставщиках, характеристиках, способе соединения друг с другом и т.п.

§2. Методы разработки электронных словарей, тезаурусов и онтологий

В предыдущее параграфе были рассмотрены двуязычные электронные словари Lingvo и Мультилекс. Теперь определим необходимые методы для разработки собственного словаря на основе работы электронного программы «Мультилекс». Данный словарь был выбран по таким основным преимуществам, как передовой программный функционал, 7 видов поиска и перевода, в том числе моментальный всплывающий перевод при наведении курсора мыши, перевод словосочетаний и поиск слов с неизвестным написанием.

Интерфейс программы в основном режиме работы («Со статьей») представляет собой окно, состоящее из окна списка слов словаря и окна статьи, содержимое которого меняется при выделении другого слова в соседнем окне. Над этими окнами расположена панель инструментов, в которой представлены кнопки Копировать, Вырезать, Вставить, Печать и 4 закладки, позволяющие активизировать панели инструментов Перевод, Словари, Настройки, Справка.

На панели инструментов «Перевод» расположены следующие кнопки:

Направление перевода;
Поиск по шаблону;
Варианты написания;
Начать тест;
Неправильные глаголы;
Словоформы;
Добавить в карточки;
Добавить закладку;
Найти в статье.

В режиме словаря «без статьи» в главном окне 4 последние пункта отсутствуют, но они появляются при переводе в отдельных окнах со словарными статьями.На панели инструментов «Словари» расположены кнопки:

Управление словарями;
Каталог;
Создать статью.

На панели инструментов «Настройки» расположены кнопки:

Размер шрифта;
Всплывающий перевод;
Общие настройки.

На панели инструментов «Справка» расположены следующие кнопки:

Справка;
Установленные словари;
Регистрация;
Обновление;
О программе.

Ниже панели инструментов над окном списка слов расположена строка ввода и кнопки:

Вперед;
Назад;
Поиск;
Виртуальная Клавиатура.

Ввод данных может осуществляться при помощи:

Стандартной клавиатуры;
Виртуальной клавиатуры словаря;
Операций копирования и вставки;
Системы рукописного ввода (например, программой PenReader).

С помощью функции интеллектуального ввода, Можно печатать слова, не переключая направление перевода каждый раз – оно будет определено автоматически в соответствии с языком ввода.

К тому же модуль морфологии новой версии программы позволяет вводить слова в произвольной форме. И даже если нет уверенности как пишется слово, в данной программе предусмотрены функции поиск по шаблону или поиск вариантов написания, которые помогут без труда найти нужное слово.

Перед тем как начать работу со словарем, необходимо выбрать направление перевода. Это можно осуществить через вызов меню словаря в области уведомлений панели задач Windows. Если в словаре установлено несколько словарных баз, нужно нажать на стрелку кнопки смены направления перевода, и появится список доступных направлений перевода. Также новая версия программы позволяет менять направление перевода путем переключения раскладок на клавиатуре.

Когда было введено необходимое слово в строку перевода, нужно нажать клавишу ENTER и программа автоматически начнет поиск, в результате чего Вы увидите список слов.

К тому же, в процессе ввода слова список слов автоматически перемещается к нужной букве, и можно выбрать слово из списка, даже не закончив ввод.

Полнотекстовый поиск - это поиск слов или словосочетаний по всему содержимому словарных статей всех словарей активного направления (заголовку, переводу и примерам употребления).

Чтобы выполнить такой поиск нужно просто ввести слово в строку перевода и нажать на кнопку «Поиск» или Enter на клавиатуре.

В случае если в строку был ввод словосочетания, а полнотекстовый поиск не дал результатов, программа автоматически начинает процедуру пословного перевода. Это означает, что поиск ведется по всем доступным словарным базам для каждого слова в отдельности. При этом, как правило, задействован и морфологический модуль, так как в результате всех поисков программа показывает базовые формы каждого из искомых слов.

Если заинтересовало какое-либо слово из открывшейся словарной статьи, то, дважды щелкнув левой кнопкой мыши по нему, программа найдет соответствующий перевод. Эта функция особенно актуальна при прочтении примеров использования слова, для которого открылась статья. Если столкнулись с незнакомым словом, и это вызвало затруднения целостного понимания фразы можно просто перевести его.

Благодаря функции поиска внутри статьи, легко можно найти любое нужное слово даже в самой подробной и длинной статье перевода. Для этого, нужно нажать на кнопку «Найти в статье» и ввести слово в открывшееся поле ввода. Если введенное слово в данной статье присутствует, то оно автоматически будет выделено.

Через менеджер словарей можно создавать свои собственные словари и постоянно пополнять их новыми статьями. Это функция особенно важна, если находиться в языковой среде и нужно непрерывно обогащать свой словарный запас разговорными фразами. Теперь, чтобы не забыть ни одного ценного слова, нужно просто создать для него отдельную статью в собственном словаре

Таким образом, можно создавать множество собственных словарей дополнительно к уже установленным и постоянно пополнять их новыми статьями.

Кроме того, возможно самостоятельно форматировать текст созданной статьи. Для этого вверху редактора статьи предусмотрены следующие стили шрифта:

Заголовок;
Перевод;
Пример;
Комментарий;
Транскрипция;
Число;
Другой Стиль.

При наличии уже созданных ранее пользовательских словарей, можно использовать их вне оболочки данной программы. Просто нужно выбрать и выделить нужный словарь и экспортировать его, следуя команде Словари>Управление словарями>Экспортировать.Экспортированный таким образом файл будет сохранен в формате HTML.С помощью данной программной оболочки появилась возможность использовать словари, созданные в других программных продуктах. Чтобы импортировать словарь, в менеджере словарей нужно нажать «Импортировать» и выбрать файл для импорта. В настоящий момент для импорта поддерживаются MLX, HTML и DSL файлов.

В окне «Управление словарями» можно управлять своими словарями, и расставлять между ними приоритет, пользуясь кнопками «Выше»/«Ниже». Причем словарь, занимающий более высокую позицию в этом списке, имеет более высокий приоритет. Таким образом, программа будет выполнять поиск, в первую очередь, по словарям с более высоким приоритетом, и в результате в окне перевода, статьи будут расположены в соответствующем порядке.

В окне «Управление словарями» можно включать новые или отключать ненужные словари. Для этого просто следует отметить словарь рядом с его названием, если нужно включить его; или снять метку, если необходимо его выключить. Также можно установить приоритет для только что выбранных словарей

Удаление словарей производится в окне Менеджера словарей (Словари> Управление словарями) с помощью кнопки «Удалить». Так же можно удалять собственные словарные статьи при помощи кнопки удаления, расположенной в окне конкретной статьи.

На панели инструментов «Настройки» расположены 3 кнопки, позволяющие настраивать словарь для максимально удобной, быстрой и эффективной работы:

Размер Шрифта;
Всплывающий перевод;
Общие настройки.

Кнопка «Размер Шрифта» представляет собой ползунок, двигая который можно подбирать наиболее подходящий размер шрифта в словарной статье. Всего доступно 5 различных размеров шрифта:

Очень маленький;
Маленький;
Средний;
Большой;
Очень большой.

Далее рассмотрим принципы автоматического построения списка возможных терминов программе "Конспект". Данное средство разработки терминов предметной области, было выбрано по таким главным алгоритмическим особенностям системы, как использование в целях отбора текстов средств семантического анализа и генерация по результатам семантического анализа заданного числа вторичных ключей, использование которых в циклическом режиме позволяет углубить раскрытие темы в формируемых конспектах.

При наличии тезауруса терминов предметной области, пользователю в поисковом запросе достаточно ввести только один термин. Если в тезаурусе есть список синонимов к введенному слову, то в результатах поиска будут присутствовать как документы, которые содержат слово, введенное пользователем, так и документы, содержащие слова-синонимы.

К сожалению, из-за отсутствия формализованных словарей терминов для конкретных предметных областей, автоматическое создание тезауруса невозможно. Ручное составление тезауруса является весьма трудоемкой задачей, так как требует экспертного анализа значительного количества документов организации (корпорации) для выделения списка терминов предметной области, при этом достаточно трудно оценить полноту полученного списка. Для решения такой задачи необходимо использовать автоматизированное создание списка терминов предметной области.

Для построения понятийного аппарата из текстов предметной области используется поиск и выделение субстантивных именных словосочетаний, выражаемых схемой: согласуемое слово + существительное. В этой модели существительное является главным словом, а согласуемое слово — зависимым и может выражаться как прилагательным, так и существительным. Словосочетания могут включать в свой состав также предлоги и сочинительные союзы. Количество слов в именных словосочетаниях колеблется от двух до пятнадцати и в среднем составляет три слова. В работе приводится 9 шаблонов именных словосочетаний, используемых для выделения терминов предметной области. В русском языке синтаксическая структура терминов предметной области более чем в 90 процентов случаев соответствует следующим пяти шаблонам:

одиночные существительные, прилагательные, и сокращения;
существительное + существительное в родительном падеже;
прилагательное + существительное;
прилагательное + прилагательное + существительное;
существительное + прилагательное + существительное в родительном падеже[9].

Вместе с тем существуют сложные словосочетания, используемые для обозначения понятий и терминов, состоящих из трех и более значимых слов. Выражение понятий и терминов словосочетаниями в пять и более слов, с использованием союзов и предлогов встречается редко, особенно такими словосочетаниями, в которых части речи не чередуются (например, прилагательное + прилагательное + прилагательное + существительное + существительное в родительном падеже).

Словосочетания длиной пять и более слов используются в наименованиях организаций, в определении понятий относящихся к финансово-экономической сфере деятельности организаций. Шаблоны именных словосочетаний, используемых для поиска терминов, приведены в Таблице 1.

Таблица 1. Шаблоны именных словосочетаний

№	Структура шаблона	Пример термина
1	Аббревиатура	ИКТ, ИТ
2	Существительное	Партнер, Доход
3	Существительное + существительное_в_родительном_падеже	Директор компании, Бюджет расходов
4	Прилагательное + существительное	Экономический рост
5	Существительное + существительное_в_родительном_падеже + существительное_в_родительном_падеже	Указ президента России
6	Прилагательное + существительное + существительное_в_родительном_падеже	Корпоративная сеть компании
7	Существительное + прилагательное_в_родительном_падеже + существительное_в_родительном_падеже	Сотрудники финансового отдела
8	Прилагательное + прилагательное + существительное	Всемирная мультимедийная среда
9	Существительное + существительное_в_родительном_падеже + существительное_в_родительном_падеже + существительное_в_родительном_падеже	Угроза защиты информации компании

Автоматическое выделение однословных и многословных терминов, кроме шаблонов, использует результаты синтактико-семантического анализа текста. Распознание поверхностных семантических отношений осуществляется с помощью анализа флексий полнозначных слов, учитывая предлоги и союзы, без предварительного полного грамматического разбора и построения синтаксических отношений, которые используется в традиционной грамматике.

Процедура выделения терминов из текста включает два основных этапа. На первом этапе происходит непосредственный поиск в тексте слов и словосочетаний – кандидатов в термины. В качестве однословных терминов выбираются существительные и аббревиатуры. Многословные термины формируются с помощью определенных типов отношений между словами предложения, путем постепенного присоединения слов к однословному термину-существительному. Для терминов – именных словосочетаний используются следующие основные типы отношений между словами: объектное, принадлежность (между двумя существительными), определительное (между прилагательным и существительным), однородные слова (между двумя существительными или двумя прилагательными). Выделенные группы слов проверяются на соответствие заданным шаблонам. Порядок расположения в предложении слов, образующих термин, может точно не соответствовать заданному шаблону, но обязательным условием выделения термина является соответствие отношений между словами определенным типам отношений. Это позволяет, например, из предложения «Построение онтологии указанной предметной области» выделить термин «онтология предметной области».

На втором этапе список кандидатов в термины фильтруется: учитывается значимость выделенных словосочетаний (приближенность в дереве разбора к подлежащему или сказуемому предложения) и частота, с которой они встречаются в тексте.

Рассмотрим средства и этапы разработки онтологий. При создании онтологий (как и при проектировании программного обеспечения или написании электронного документа) целесообразно пользоваться подходящими инструментами. Будем называть инструментальные программные средства, созданные специально для проектирования, редактирования и анализа онтологий, редакторами онтологий.

Основная функция любого редактора онтологий состоит в поддержке процесса формализации знаний и представлении онтологии как спецификации (точного и полного описания).

В большинстве своем современные редакторы онтологий предоставляют средства «кодирования» (в смысле «описания») формальной модели в том или ином виде. Некоторые дают дополнительные возможности по анализу онтологии, используют механизм логического вывода.

В этой части будут описаны наиболее общие характеристики редакторов и проведен их сравнительный анализ. Подробно рассматривается редактор Protege. Данная платформа была благодаря таким преимуществам, как открытая, легко расширяемая архитектура за счет поддержки модулей расширений функциональности и поддержки значительно сообщества, состоящих из разработчиков и ученых, правительственных и корпоративных пользователей, использующие его для решения различных задач.

Рассмотрим поддерживаемые редактором формализмы и форматы представления. Подформализмомпонимается теоретический базис, лежащий в основе способа представления онтологических знаний. Примерами формализмов могут служить логика предикатов (FirstOrder Logic- FOL),дескриптивная логика,фреймовые модели(Frames), концептуальные графы и т.п. Формализм, используемый редактором, может не только существенно влиять на внутренние структуры данных, но и определять формат представления или даже пользовательский интерфейс.

Формат представления онтологии задает вид хранения и способ передачи онтологических описаний. Под форматами подразумеваются языки представления онтологий: RDF, OWL, KIF, SCL.

Таким образом, некоторая формальная модель представляется в формализме FOL и может быть выражена средствами языка KIF.

Редакторы онтологий обычно поддерживают работу с несколькими формализмами и форматами представления, но часто только один формализм является «родным» (native) для данного редактора.

Функциональность редактора онтологий

Важной характеристикой является функциональность редактора, т.е. множество сценариев его использования.

К дополнительным возможностям редакторов относят поддержку языка запросов (для поиска нетривиальных утверждений), анализ целостности, использование механизма логического вывода, поддержку многопользовательского режима, поддержку удаленного доступа через Интернет.

Инструментальные средства для создания онтологий нужны для того, чтобы не только вводить и редактировать онтологическую информацию, но и анализировать ее, выполняя типичные операции над онтологиями, например:

выравнивание (alignment) онтологий - установка различного вида соответствий между двумя онтологиями для того, чтобы они могли использовать информацию друг друга;
отображение (mapping) одной онтологии на другую - нахождение семантических связей между подобными элементами разных онтологий;
объединение (merging) онтологий - операция, которая по двум онтологиям генерирует третью, объединяющую информацию из первых двух.

Этапы создания онтологий:

определение классов в онтологии;
расположение классов в таксономическую иерархию;
определение слотов и описание их допустимых значений;
заполнение значений слотов экземпляров.

После этого можно создать базу знаний, определив отдельные экземпляры этих классов, введя в определенный слот значение и дополнительные ограничения для слота:

Выделим некоторые фундаментальные правила разработки онтологии. Они выглядят довольно категоричными, но во многих случаях помогут принять верные проектные решения.

Не существует единственно правильного способа моделирования предметной области - всегда существуют жизнеспособные альтернативы. Лучшее решение почти всегда зависит от предполагаемого приложения и ожидаемых расширений.
Разработка онтологии - это обязательно итеративный процесс.
Понятия в онтологии должны быть близки к объектам (физическим или логическим) и отношениям в интересующей предметной области. Скорее всего, это существительные (объекты) или глаголы (отношения) в предложениях, которые описывают предметную область[8].

Знание того, для чего предполагается использовать онтологию, и того, насколько детальной или общей она будет, может повлиять на многие решения, касающиеся моделирования. Нужно определить, какая из альтернатив поможет лучше решить поставленную задачу и будет более наглядной, более расширяемой и более простой в обслуживании. Следует помнить, что онтология - это модель реального мира, и понятия в онтологии должны отражать эту реальность.

После того как определена начальная версия онтологии, мы можем оценить и отладить ее, используя ее в каких-то приложениях и/или обсудив ее с экспертами предметной области. В результате начальную онтологию скорее всего нужно будет пересмотреть. И этот процесс итеративного проектирования будет продолжаться в течение всего жизненного цикла онтологии.

Повторное использование существующих онтологий может быть необходимым, если системе нужно взаимодействовать с другими приложениями, которые уже вошли в отдельные онтологии или контролируемые словари. Многие полезные онтологии уже доступны в электронном виде и могут быть импортированы. Существуют библиотеки повторно используемых онтологий, например,Ontolingua или DAML.

§3 Разработка Электронного словаря и тезауруса

По описанным рекомендациям в предыдущем параграфе, создадим собственный электронный словарь в программе «Мультилекс»

На рис.1. показан общий вид электронного словаря

Рис.1. Общий вид словаря «Мультилекс»

Для создания пользовательского словаря откроем меню «Управление словарями» на панели управления «Словари» и выберем в открывшемся окне менеджера кнопку «Создать»

Далее вводим название словаря, выбираем язык статьи и перевода и нажимаем на «ОК», как показано на Рис. 2.

Теперь двуязычный словарь «Рынки ИКТ» создан и отправлен в список словарей. Данным образом можно создавать множество собственных словарей дополнительно к уже установленным и постоянно пополнять их новыми статьями, для этого на панели инструментов «Словари» нажмем на кнопку «Создать статью» См. Рис.3.

Подобным образом создадим еще несколько статей и добавим их в наш словарь. После этого, найдем их по поиску слов, но для начала мы расстановим приоритеты по словарям так, чтобы программа при поиске выводила словарь «Рынок ИКТ» в первую очередь. Для этого воспользуемся в окне «Управление словарями» кнопками «Выше»/»Ниже», как показано на Рис.4.

Теперь введем слово «Прибыль» и попробуем найти его перевод. После запроса словарь «Рынки ИКТ» опередил это слово и вывел на экран. Посмотрим это на Рис.5.

Таким образом, мы разработали собственный двуязычный словарь «Рынки ИКТ», добавили в него статьи и воспользовались им.

Теперь подойдем к разработке электронно-поискового тезауруса в программе «Конспект» на основе рекомендаций, представленных в предыдущем параграфе.

Полученный предварительный список терминов редактируется вручную с помощью утилиты – редактора тезауруса терминов предметной области. Общий вид окна редактора изображен на Рис. 6.

Входными данными для утилиты является список терминов, сформированный программой. Мы вручную добавляем и связываем термины, являющиеся синонимами для заданной предметной области. Полученные кортежи синонимов терминов сохраняются в XML-файл заданной структуры, который может использоваться поисковой системой среды Microsoft Office SharePoint Server 2007 в качестве тезауруса (списка расширений).

В общем виде процесс автоматизированного построения тезауруса терминов предметной области изображен на Рис.7.

Рис.7. Схема процесса автоматизированного построения тезауруса

Рассмотренный метод автоматизированного создания тезауруса терминов предметной области был использован для обработки текстов на русском языке, относящихся к сфере рынков информационно-коммуникационных технологий.

Из сформированного списка для дальнейшего ручного редактирования терминов было оставлено 66 слов и словосочетаний. Термины, не имеющие синонимов, были исключены из тезауруса. От общего количества терминов в тезаурусе однословные термины составили 76%, двухсловные – 21%, термины, состоящие из трех и более слов– 3%.

Заключение

В данной курсовой работе были рассмотрены понятия и электронных словарей, информационно-поисковых тезаурусов, онтологий и их средства для разработки. В программе «Мультилекс» был разработан англоязычный словарь «Рынки ИКТ» на основе рекомендаций по созданию электронных словарей, а же был создан тезаурус терминов предметной области в программе «Конспект».

Список литературы:

Агеев М., Кураленок И., Некрестьянов И. Официальные метрики РОМИП’2007. // Российскийсеминар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008. Санкт-Петербург: НУ ЦСИ, 2008.
Алексеев, А.А. Лингвистическая онтология – тезаурус РуТез // Материалы международной научно-технической конференции Открытые семантические технологии проектирования интеллектуальных систем 2013 г.
Бименова Ж.Б., Разработка методов автоматического извлечения тезаурусных отношений из текста на основе лексических шаблонов //Материалы 50-й юбилейной международной научной студенческой конференции / Новосибирск, 2012 г.
Браславский, П.И Автоматическое извлечение терминологии с использованием поисковых машин интернета // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2008. / Браславский П.И., Соколов Е.А. // М.: Изд-во РГГУ, 2008 г.
Гендина, Н. И., Информационно-поисковые тезаурусы: основные виды и области применения // Научные и технические библиотеки. – М.: Государственная публичная научно-техническая библиотека России, 2008
ГОСТ 7.25-2001 «СИБИД. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления»
Добров Б. В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: модели, инструменты, приложения. — М.: Бином. Лаборатория знаний, 2009 г.
Добров, Б.В. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска // Добров Б.В., Лукашевич Н.В. / Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. 2008
Загорулько, Ю.А. Подход к разработке русско-английского тезауруса по компьютерной лингвистике. Издательско-полиграфический центр Воронежского государственного университета, 2011.
Информационно-поисковые тезаурусы и онтологии. Разработка. [Электронный ресурс] / Режим доступа: http://www.intuit.ru/studies/courses/1078.htm
Лапшин В. А. Онтологии в компьютерных системах. — М.: Научный мир, 2010 г.
Лукашевич, Н.В. Тезаурусы в задачах информационного поиска. – М.: Изд-во МГУ, 2011.
Мозжерина, Е. С. Автоматическое построение онтологии по коллекции текстовых документов. // Труды 13й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2011, Воронеж, Россия, 2011.
П.Жмайло С. В. Анализ массива публикаций по теме «Тезаурус» в базе данных «Информатика» ВИНИТИ. // НТИ. Сер. 1. – 2008 г.
Рабчевский, Е.А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска // Труды 11-й Всероссийской научной конференции RCDL’2009 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, Россия, 2009 г.
Саломатина, Н.В. О возможностях автоматического выявления связей между терминами предметной области (на примере катализа). Саломатина Н.В., Гусев В.Д., Ильина Л.Ю., Кузьмин А.О., Пармон В.Н // М.: Изд-во РГГУ, 2010.
Сидорова, Е.А. Программный инструментарий разработки лингвистических ресурсов // Труды III Международной научно-технической конференции «Открытые 37 семантические технологии проектирования интеллектуальных систем» OSTIS-2013. Сидорова Е.А., Загорулько М.Ю. / Минск: БГУИР, 2013.

Просмотров работы: 8552

Код для цитирования:

VII Международная студенческая научная конференция Студенческий научный форум - 2015

РАЗРАБОТКА ЭЛЕКТРОННЫХ СЛОВАРЕЙ, ТЕЗАУРУСОВ И ОНТОЛОГИЙ

Студенческий научный форум - 2015
VII Международная студенческая научная конференция