К ВОПРОСУ АКТУАЛЬНОСТИ РАЗРАБОТКИ АЛГОРИТМИЧЕСКОГО И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ ПОДДЕРЖКИ СОЦИАЛЬНЫХ ИССЛЕДОВАНИЙ - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

К ВОПРОСУ АКТУАЛЬНОСТИ РАЗРАБОТКИ АЛГОРИТМИЧЕСКОГО И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ ПОДДЕРЖКИ СОЦИАЛЬНЫХ ИССЛЕДОВАНИЙ

Романчуков С.В. 1, Романчуков С.В. 2
1Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Национальный исследовательский Томский политехнический университет»
2Областное государственное бюджетное общеобразовательное учреждение «Томский физико - технический лицей»
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

В современном обществе существует потребность в проведении разного рода социальных исследований. Единожды достигнутые результаты требуют непрерывного уточнения, подтверждения, корректировки в условиях быстрого изменения экономической, политической и социальной обстановки.

Востребованными являются в том числе исследования, связанные с трансформацией традиционных социальных институтов в информационном обществе, такие как исследование проблем гендерной идентичности, отношения общества к институту брака, семьи, религии, политическим структурам и т.д..

В Российской Федерации, как в силу известных событий, так и в связи с необходимостью разрешения накопившихся проблем, велика потребность в широком спектре социальных исследований для определения возможных областей роста и напротив наиболее угрожаемых направлений внутренней политики, состояния человеческого потенциала регионов.

Объёмы информации, накапливаемые при рассмотрении таких масштабных задач, требуют машинной обработки. Но при этом сложно требовать от специалистов в области гуманитарного знания навыков программирования и анализа данных в специализированных пакетах. Выходом из данной ситуации может быть как расширение штата исследовательских проектных групп (за счёт включения в них программистов), так и разработка более удобных и дружественных пользователю быстродействующих программных решений. Наша лаборатория достаточно часто привлекается к участию в разнообразных проектах, связанных с социально-психологическими исследованиями, и на основании опыта работы было принято решение создать модульную систему для поддержки такого рода исследований, позволяющую предоставлять специалистам (социологам, психологам, медикам и т.д.) удобный в обращении и функциональный инструментарий.

Такого рода проект содержит в себе множество задач, связанных с изучением потребностей участников проектных групп, распространённости и применимости различных математических методов, построения эргономичного интерфейса и т.д. Одним из важнейших элементов такого рода системы служит аналитический модуль, непосредственно отвечающих за процесс обработки данных и взаимодействующий с внешними источниками данных и пользователями через сетевые интерфейсы.

Цельюданной работы является разработка аналитического модуля для сетевого ресурса для статистической обработки результатов социальных исследований.

ПРОБЛЕМНАЯ ОБЛАСТЬ

Любая научно-исследовательская или практическая задача в психологии и социологии в первую очередь подвергается психологическим интерпретациям, позволяющим осуществить переход от теоретических воззрений к операционально определяемым понятиям и эмпирическим процедурам. Это позволяет осуществить математическую интерпретацию, с помощью которой выбираются и реализуются математические методы исследования. Полученные результаты обработки следует интерпретировать содержательно, т. е. выполнить математико-психологическую интерпретацию уровней значимости, аппроксимированных зависимостей и т. д. На данной стадии задача либо решена и можно переходить к другой, либо необходимо уточнить предыдущую и повторить исследование. Такова логика действий в применении математики как в психологии, так и в других науках [1].

Для более подробного описания данных, обрабатываемых при решении такого рода задач, следует обратиться к основным задачам проблемной области и методам их решения (методам проведения исследований).

Общие задачи проблемной области

Общественное предназначение любого направления научной деятельности определяется, в первую очередь, через функции, которые оно выполняет. Как и всякие другие науки, социальные науки выполняют познавательную функцию, на всех уровнях и во всех своих элементах обеспечивая, прежде всего, “прирост“ нового знания о различных сферах общественной жизни, раскрывает закономерности и перспективы социального развития общества.

Для социологии характерной чертой является единство теории и практики. Познавая объективные законы существования, функционирования и развития общества, все науки об обществе осуществляют сбор, систематизацию и накопление информации, которая используется, в том числе, и при принятии управленческих решений. В этом проявляется информационная функция социологии. Систематизация и накопление информации осуществляется в форме описания процессов и явлений общественной жизни в виде книг, учебников, научных отчетов и т.п. Также любой науке свойственна описательная функция.

Значительная часть социологических исследований ориентирована на решение практических задач. В этом плане на первое место выступает прикладная функция социологии, в рамках которой проявляется ряд других ее функций. В отдельную отрасль научного знания, например, выделился менеджмент (как социологическая теория управления производственными коллективами). Социологические исследования дают конкретную информацию для осуществления действенного социального контроля над социальными процессами. Без этой информации возрастает вероятность проявления социального напряжения, социальных кризисов и катаклизмов. В подавляющем большинстве развитых стран органы власти, политические партии и объединения широко используют возможности социологии для проведения целенаправленной политики во всех сферах общественной жизни. В этом проявляется функция социального контроля.

Практическая направленность социологии выражается в том, что она способна выработать научно обоснованные прогнозы о тенденциях развития социальных процессов и явлений в будущем. В этом проявляется прогностическая функция социологии. Особенно важно иметь такие прогнозы в переходный период развития общества, который переживает Россия в настоящий момент. В этом плане социология способна:

  1. определить, каков диапазон возможностей, вероятностей, открывающихся перед участниками событий на данном историческом этапе;

  2. представить альтернативные сценарии развития будущих социальных явлений и процессов, связанных с каждым из выбранных решений;

  3. рассчитать вероятные потери по каждому из альтернативных вариантов, включая побочные эффекты, а также долговременные последствия и т.д.

Большое значение в жизни общества имеет использование социологических исследований для планирования развития различных сфер общественной жизни. Социальное планирование развито во всех странах мира, независимо от формы правления, административно-территориального устройства, социальных систем. Оно охватывает все области, начиная от конкретных процессов жизнедеятельности мирового сообщества, отдельных регионов и стран, кончая социальным планированием жизни городов, сел, отдельных производств, предприятий и коллективов.

Несмотря на личные установки ученых-социологов, она выполняла, выполняет и будет выполнять идеологическую функцию. Наука может выполнять и выполняет роль средства преобразования окружающего мира: биология - мира животных, социология - мира общественных отношений личности и социальной системы и.д. В этом проявляется преобразовательная функция социологии. С помощью социологических знаний можно оптимизировать человеческие отношения, гармонизировать состояние общества и государства с целью сохранения мира, но можно и разрушить систему отношений, доведя их до критического состояния.

Результаты социологических исследований могут использоваться в интересах всего общества, а также в интересах отдельных социальных групп для достижения ими определенных социальных целей. Социологическое знание зачастую может служить средством манипулирования поведением людей, формирования определенных стереотипов поведения, создания системы ценностных и социальных предпочтений и т.д.

Диагностика состояния общества, изучение проблем, возникающих по мере его развития - это одна из важнейших задач социологии. Социологическая составляющая присутствует не только в работе специалистов-социологов, но и во многих других современных профессиях. Современный этап развития гуманитарных наук характеризуется возрастанием роли социологии в обществе. Она занимает в системе общественных наук все более ведущую роль. Это диктуется рядом факторов.

Во-первых, социология дает другим общественным наукам обоснованную теорию общества, его структурных элементов, обеспечивает понимание их взаимодействия.

Во-вторых, представляет им технику и методику изучения личности и ее деятельности, изучения социальных систем различных уровней; методы социального измерения, разрабатываемые социологией, активно используются другими общественными науками.

В-третьих, социология проводит междисциплинарные, «социальные», исследования: социально-экономические, социально-политические, социально-демографические, социально-психологические и т.д.

Методы социологического исследования

Набор специфических методов исследования социологической науки позволяет на эмпирическом уровне отследить происходящие в обществе процессы, т.е. провести прикладное социологическое исследование как систему логически последовательных методологических, методических и организационно-технических процедур, подчиненных единой цели — получить точные объективные данные об изучаемом социальном явлении.

Конкретный вид социологического исследования обусловлен характером поставленной цели, выдвинутых задач, в соответствии с чем различают три основных вида социологического исследования:

  1. разведывательное;

  2. описательное;

  3. аналитическое.

Разведывательное исследование - наиболее простой вид прикладного социологического анализа, решает весьма ограниченные по своему содержанию задачи. Оно охватывает небольшие обследуемые совокупности, основываясь на упрошенной программе и сжатом по объему методическом инструментарии — специально разрабатываемом для каждого исследования пакете инструментов, предназначенных для сбора первичной информации (бланк-интервью, массовая или экспертная анкета, проекты выборки, математический анализ первичной информации и т.д.). Этот вид социологического исследования может применяться:

  1. на начальном этапе масштабных исследований для проверки и коррекции инструментария;

  2. для сбора оценочных сведений об объекте изучения;

  3. в ситуации, когда предмет социологического исследования мало изучен.

В разведывательном социологическом исследовании обычно используются такие методы сбора первичной информации, как интервью или анкетный опрос, групповое интервью методом фокус-групп, позволяющие провести его в сжатые сроки.

Описательное исследование представляет собой более сложный вид социологического анализа, чем разведывательное исследование, так как по своим целям и задачам оно предполагает получение эмпирической информации, дающей относительно целостное представление об изучаемом объекте, явлении. Проведенние исследования описательного типа требует разработки более сложной и подробной программы исследования с использованием методически апробированного инструментария, что обеспечивает его большую надежность в процессе изучения важнейших элементов исследуемого объекта. Данное исследование обычно применяется тогда, когда объектом исследования выступает относительно большая общность людей, отличающаяся разнообразными характеристиками (население города, района, области, региона и т.д.).

Аналитическое исследование - самый сложный и глубокий вид социологического анализа. Его цель состоит не просто в описании структурных элементов изучаемого явления, но и в выяснении причинно-следственных связей, лежащих в основе распространенности, динамики, стабильности/нестабильности данного явления. Аналитическое исследование рассматривает комплекс факторов, влияющих на объект исследования, выделяя среди них основные и второстепенные, временные и устойчивые, явные и латентные (скрытые), управляемые и неуправляемые. Программа такого исследования разрабатывается тщательно и занимает много времени, поскольку часто требуется собрать предварительную информацию об отдельных сторонах исследуемого явления, обращаясь к разведывательному или описательному исследованию. В ходе аналитического исследования применяется комплекс социологических методов, которые дополняют друг друга, — различные формы опроса, анализ документов, наблюдение.

Социальный эксперимент является разновидностью аналитического исследования. Его проведение предполагает создание специальной экспериментальной ситуации путем изменения обычных условий функционирования исследуемого объекта.

Социологическое исследование предполагает определенную последовательность этапов.

На первом этапе формируется программа исследования: формулируются цель исследования, ее задачи, план, гипотеза на основе актуальности выбранной проблематики, определяются методы сбора информации, способы ее обработки, сроки проведения исследования и т.д.

На втором этапе социологического исследования осуществляется непосредственный сбор первичной информации. При этом могут применяться различные методы сбора информации — социологический опрос в форме анкетирования или интервьюирования; контент-анализ (записи исследователей, выписки из документов и другие сведения, полученные из различных источников документального характера); наблюдение, эксперимент и др.

На третьем этапе производится цифровая (электронная) обработка полученной информации, собранной в ходе социологического исследования на основе специальных компьютерных программ.

На четвертом этапе, заключительном (аналитическом), проводятся анализ обработанной информации, подготовка научного отчета по итогам исследования, формулирование выводов и рекомендаций.[2]

Очевидно, что применение сетевых информационных ресурсов ускоряет процесс проведения любого социального исследования. Единая информационная система, осуществляющая сбор, хранение и обработку информации, значительно ускорит работу на каждом этапе проведения исследований, при этом на третьей и четвёртой ступени основная вычислительная нагрузка ляжет именно на аналитический модуль, разработке которого посвящена данная работа. Обзор возможных альтернатив разрабатываемому приложению приводится ниже.

МЕТОДЫ РЕШЕНИЯ

В процессе проведения социологических исследований накапливаются большие объёмы статистических данных, совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Так, в нашем случае, объект исследования – множество тестируемых, опрошенных, фокус-группа, а их признаки – множество показателей их характеризующие.

Эти величины в результате измерения могут принимать различные значения и могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий.

Самая «бедная» шкала – номинальная, так как не определена ни одна арифметическая операция, самя «богатая» – абсолютная.Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту.

Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако порядковые экспериментальные данные нельзя рассматривать как числа и выполнять над ними арифметические операции.

При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Данная шкала имеет произвольную точку отсчета – условный нуль.

Шкала отношений имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия.

После представления результатов опросов и тестирований в той или иной шкале становится возможна их математическая обработка с использованием разнообразных статистических методов. Однако они имеют и свои ограничения. Так большинство статистических методов относятся к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики[3].

Методы глубинного анализа данных

При решении данной задачи применение многих традиционных статистических методов нерационально и не позволяет добиться желаемого результата. Более эффективным представляется использование методов глубинного анализа данных, т.н. DataMining, это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.[4]

Особенностью DataMining является, как уже было отмечено, нетривиальность разыскиваемых шаблонов. Искомые шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые (глубинные) знания. Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы DataMining: ассоциация, последовательность, классификация, кластеризация и прогнозирование[5].

Ассоциацияимеет место в том случае, если несколько событий связаны друг с другом.

Если существует цепочка связанных во времени событий, то говорят опоследовательности.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства DataMining самостоятельно выделяют различные однородные группы данных. Как правило, на основе кластеризации формируются новые продукты [6].

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Также все методы DataMining могут быть разделены на две группы по принципу работы с исходными данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после DataMining либо они дистиллируются для последующего использования.

В случае непосредственного использования исходных данных они хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования или анализа исключений. Недостаток данной группы методов в сложности анализа сверхбольших баз данных. В данную группу включают методы кластерного анализа, метод ближайшего соседа, рассуждение по аналогии.

Методы с использованием формализованных закономерностей (дистилляция шаблонов). При данной технологии один образец (шаблон) информации извлекается из исходных данных и преобразуется в формальные конструкции, вид которых зависит от используемого метода DataMining. Этот процесс выполняется на стадии свободного поиска (у первой группы методов данная стадия отсутствует). На дальнейших стадиях используются результаты стадии свободного поиска, которые значительно компактнее исходных баз данных. Кроме того конструкции этих моделей могут быть как трактуемыми аналитиком, так и нетрактуемыми.

Логические методы (методы логической индукции) включают в себя нечеткие запросы и анализы, деревья решений и генетические алгоритмы. Методы этой группы являются наиболее интерпретируемыми - они оформляют найденные закономерности в достаточно прозрачном виде с точки зрения пользователя. Следует заметить, что деревья решений могут быть легко преобразованы в наборы символьных правил путем генерации одного правила по пути от корня дерева до его терминальной вершины.

Методы на основе уравнений выражают выявленные закономерности в виде математических уравнений. Данные методы могут работать лишь с численными переменными, что несколько ограничивает применение методов данной группы. Тем не менее они широко используются при решении задач прогнозирования. Основные методы данной группы используют нейронные сети.

Недостаток такой классификации состоит, однако, в том, что и статистические, и кибернетические алгоритмы опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации.

Преимуществом такой классификации является ее удобство для интерпретации.

Статистические методы Data mining представляют собой четыре взаимосвязанных раздела:

  1. Предварительный анализ природы статистических данных

  2. Выявление связей и закономерностей

  3. Многомерный статистический анализ (в т.ч. кластерный анализ)

  4. Динамические модели и прогноз на основе временных рядов.

Арсенал статистических методов DataMiningтакже классифицирован на четыре группы методов:

1. Дескриптивный анализ и описание исходных данных

2. Анализ связей

3. Многомерный статистический анализ

4. Анализ временных рядов.

Второе направление Data Mining включает в себя множество подходов, объединенных использованием элементов теории искусственного интеллекта. К этой группе относятся такие методы:

  1. Искусственные нейронные сети

  2. Эволюционное программирование игенетические алгоритмы

  3. Ассоциативная память (поиск аналогов, прототипов)

  4. Нечеткая логика

  5. Деревья решений

  6. Системы обработки экспертных знаний.

Методы DataMining также можно классифицировать по задачам DataMining. В соответствии с такой классификацией можно выделить две группы, решающие задачи сегментации (классификации и кластеризации) и задачи прогнозирования.

В соответствии со второй классификацией по задачам методы DataMining могут быть направлены на получение описательных и прогнозирующих результатов. Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика. Прогнозирующие методы используют значения одних переменных для прогнозирования неизвестных или будущих значений целевых переменных. Именно задачи классификации и кластеризации выходят на первый план при решении целого ряда социологических задач.

Методы кластерного анализа

Кластерный анализ - это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры).

Главное назначение кластерного анализа разбиение множества исследуемых объектов и признаков на однородные группы (кластеры). Значимое достоинство кластерного анализа состоит в том, что он позволяет осуществлять разбиение и группировку объектов по целому набору признаков.

В критерий качества классификации так или иначе входит ряд неформальных требований[7]:

1) взаимосвязь объектов внутри группы

2) объекты разных групп должны быть далеки друг от друга;

3) распределения объектов по группам при прочих равных условиях должны быть равномерными.

Основная цель кластерного анализа – выделить в исходных n-мерных данных такие однородные подмножества, чтобы объекты внутри групп были близки друг другу и отдалялись от объектов из других групп.

Традиционно различают классификации: иерархические и неиерархические (называемые иногда структурными). Основа иерархических алгоритмов состоит в объединении в кластер наиболее близких, а затем последовательно и всё более отдалённых друг от друга элементов. Большинство из этих алгоритмов исходит из матрицы сходства (расстояний), и каждый отдельный элемент рассматривается вначале как отдельный кластер.

Общая схема такой иерархической группировки может быть представлена как повторяющееся приложение трех операций к мерам расстояния между объектами (кластерами):

  1. найти наименьшее расстояние между объектами (кластерами);

  2. объединить их в один кластер;

  3. вычислить расстояние от полученного кластера до любого другого.

Существует ряд методов кластерного анализа, базирующихся на евклидовой мере расстояния, в том числе метод Уорда, метод ближайшего соседа, метод дальнего соседа и медианный метод. На практике в результате испытаний различных алгоритмов исследователями был сформирован ряд рекомендаций по их применению:

  1. Различные алгоритмы кластерного анализа дают разные разбиения;

  2. Результаты классификации находятся в обратной зависимости от размерности пространства и прямой от целевого количества кластеров;

  3. Наиболее устойчивы к зашумлению данных алгоритмов метод k-средних иметод Уорда, наименее – медианный метод и метод ближнего соседа;

  4. При малом числе признаков и большом числе классов лучше всего себя показали метод Уорда, метод группового среднего и метод дальнего соседа, плохо – метод k-средних и метод ближайшего соседа;

  5. При большом числе признаков и малом числе классов наиболее эффективны метод Уорда и метод k-средних, наименее – медианный, центроидный и метод ближайшего соседа;

  6. В широком диапазоне условий случаях достаточно хорошо работают метод дальнего соседа и метод Уорда, плохо – медианный и метод ближайшего соседа;

С учетом чувствительности к зашумлению и способности восстановлению структуры данных наилучшим является алгоритм Уорда, наихудшим – метод ближайшего соседа[8].

3. ПОСТАНОВКА ЗАДАЧИ

Ранее был описан предмет социологии и методы проведения социальных исследований. Из представленной модели поэтапного осуществления социологического исследования следует необходимость использования электронных ресурсов для ускорения процесса передачи и обработки информации на всех этапах и, особенно, на третьем и четвёртом.

Задача разработки аналитической подсистемы

В силу вышесказанного заявляет о себе необходимость в программных средствах, дающих исследователю возможность работы с информацией без использования навыков программирования (которые психолог или социолог иметь не обязан). Помимо этого, приложения должны расширять возможности обратной связи и взаимодействия аналитиков, программистов и младшего персонала на местах реализующих конкретные элементы общего исследования, проводящих опросы и анкетирование в различных частях региона..

Целью работы является разработка аналитического модуля для многофункционального веб-портала, в целом представляющего собой систему для для организации психологического on-line тестирования, а так же быстрого накопления и обработки результатов полученных «в поле» .

Для достижения поставленной цели необходимо решить ряд задач:

  • определить желаемую функциональность модуля и границы полномочий пользователей с различными правами доступа;

  • разработать и программно реализовать и включить в состав разрабатываемой системы аналитический модуль;

  • провести тестирование модуля и оценить возможности обработки имеющихся данных;

  • на основе результатов тестирования сформулировать выводы об эффективности реализации подсистемы, дальнейших возможностях её развития и методах устранения возможных проблем, выявленных в ходе выполнения проекта.

Требования к программному обеспечению

Аналитический модуль разрабатывается как часть разветвлённой сетевой системы, что накладывает на него ряд ограничений.

Во-первых, продукт должен быть основан на веб-ориентированных языках и взаимодействовать с другими модулями, вписываясь в общие «рамки» системы.

Во-вторых, необходимо иметь возможность обработки данных в широком спектре форматов, чтения файлов различных типов.

Не менее важна возможность работы с наиболее распространёнными СУБД (MySQL, Oracle и т.д.).

Разрабатываемый модуль должен быть доступен через сеть Internet, требуется провести его тестирование на наиболее распространённых браузерах.

Сервис должен позволять разделение пользователей на различные категории и осуществлять разделение прав доступа, гарантируя безопасность хранения информации и защиту от несанкционированного доступа.

С точки зрения локализации хранения информации следует отметить, что желательно размещение серверов и хранилищ данных на территории РФ в соответствии с российским законодательством [9].

Предпочтение отдаётся свободному программному обеспечению с открытым исходным кодом.

Основная идея разработки всей системы состоит в повышении её мобильности, по сравнению с традиционными приложениями, применяемыми в данной области, что просто необходимо для решения поставленных задач, в ситуации, когда исследование охватывает целый регион.

Три основных черты должны отличить разрабатываемую систему от аналогов: возможность получения результатов опросов и тестирований по сети в кратчайшие сроки, возможность обработки результатов в режиме on-line, и, что немаловажно, свобода исследователя, не привязанного к конкретной машине. Для работы достаточно браузера и доступа в Интернет, вычисления производятся на сервере и пользователь не должен выгружать все необходимые данные и устанавливать громоздкий клиент, на его машину отправляется лишь необходимый «рабочий набор» затребованных результатов. Это немаловажно с учётом того, что скорость и качество соединения во многих частях нашей страны не позволяет передавать большие объёмы данных достаточно быстро.

ПРОГРАММНЫЕ СРЕДСТВА

Развитие программного обеспечения и вычислительной техники снижает значимость самостоятельной, «ручной» реализации указанных методик обработки данных.

В настоящее время в социальных исследованиях широко используются различные математико-статистические методы обработки данных, реализованные в программных приложениях с применением современных информационных технологий.

Компьютерная обработка данных предполагает некоторое математическое преобразование данных с помощью определенных программных средств. Для этого необходимо иметь представление как о математических методах обработки данных, так и о соответствующих программных средствах[10].

Наиболее популярными являются пакеты статистического анализа данных, такие как SPSS, Statistica, STATGRPHICS.

Такого рода ПО можно разделить на три категории:

  1. Универсальные пакеты (STATGRAPHICS, Statistica и т.д.).

  2. Профессиональные пакеты (SPSS, SAS/IDS, BMDP).

  3. Специализированные пакеты (EQS, ЭВРИСТА). Для рассмотрения неинтересны, т.к. специализированны в узкой сфере (и как правило не связаны с социологическими и психологическими исследованиями).[11]

Следует отметить, что широкие возможности в статобработке, предоставляемые данными инструментами, требуют от компьютера больших вычислительных ресурсов, кроме того часть из них поддерживает лишь отдельные операционные системы (так Statistica разработана только под Windows).

Кроме того значительная часть такого рода приложений имеет существенные ограничения при работе с сетью. Отдельные продукты поддерживают только работу в локальной сети, другие же, как, например, сетевая версия пакета STATGRAPHICS – STATGRAPHICS Online, предоставляются по подписке и сталкиваются с большим количеством ограничений по размеру и структуре обрабатываемых данных, величине обмена данных с сервером и даже поддерживаемой версии браузера. [12]

Кроме того проведение исследований, связанных с обработкой персональных данных, сталкивается также с законодательными ограничениями, описанными выше, что также ограничивает возможности использования вычислительных мощностей зарубежных серверов.

Главным же препятствием на пути освоения этих программ является время, которое необходимо затратить на обучение. Именно из-за недостатка знаний у пользователя, в большинстве случаев, мощь статистических пакетов подобного уровня не используется даже в половину.[13]

Немаловажным недостатком является и высокая цена таких программных продуктов.

ЗАКЛЮЧЕНИЕ

В ходе выполнения данной работы рассмотрены основные задачи проведения социальных исследований, сформулированы требования к необходимому программному обеспечению. Было уделе внимание доступным статистическим пакеты, но на основании заявленных требований (в том числе законодательных) они были отвергнуты. Всё это подводит нас к необходимости разработки нового программного продукта, реализующего необходимые аналитические методы с учётом предыдущего опыта и избавленного от недостатков предшествующих систем.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

  1. Суходольский Г. В. Введение в математико-психологическую теорию деятельности. СПб.: СПбГУ, 1998. – 219с.

  2. Виртуальный учебно-методический комплекс «Политическая наука» [Электронный ресурс] URL: http://read.virmk.ru/s/SANZ_SOC/g-014.htm доступ свободный

  3. Лаборатория статистических исследований Кубанского государственного университета, Обзор методов статистического анализа данных [Электронный ресурс]URL: http://www.statlab.kubsu.ru/node/4

  4. Григорий Пятецкий-Шапиро, DataMining и перегрузка информацией // Вступительная статья к книге: Анализ данных и процессов / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. З-е изд. перераб. и доп. СПб.: БХВ-Петербург, 2009. 512 с. С.13.

  5. Типы закономерностей, выявляемых методами DataMining [Электронный ресурс]

  6. URL: http://fsecrets.ru/2010/10/типы_закономерностей_выявляемых_мет/доступ свободный

  7. Data Mining: Concepts, Models, Methods and Algorithms/ MehmedKantardzic – New Jersey, 2011.–С. 249-253.

  8. Мандель И. Д., Черный Л. М. Экспериментальное сравнение алгоритмов кластер-анализа // Автоматика и телемеханика, 1988, № 11. – 252 с.

  9. Берестнева О.Г., Е.А. Муратова Компьютерный анализ данных. – Томск: ТПУ, 2010. – 144 с.

  10. Ст 18, ст 22 Федерального Закона РФ «О персональных данных» от 27 июля 2006 г. N 152-ФЗ после изменений в соответствии с ФЗ N 142-ФЗ от 4 июня 2014 г.

  11. Мандель И. Д., Черный Л. М. Экспериментальное сравнение алгоритмов кластер-анализа // Автоматика и телемеханика, 1988, № 11. – 252 с.

  12. Компьютерные методы обработки данных: обзор статистических пакетов [Электронный ресурс] URL: http://denisvolkov.com/wp-content/uploads/2011/03/KMOD-0.pdf доступ свободный

  13. Официальный сайт разработчика Statgraphics. Условия предоставления доступа к среде Statgraphics Online [Электронный ресурс] URL: http://statgraphics.com/statgraphics_online.htm доступ свободный

  14. Обзор статистических программ [Электронный ресурс] URL: http://www.sciencefiles.ru/section/46/ доступ свободный

Просмотров работы: 2004