ОСНОВНЫЕ ЭЛЕМЕНТЫ И ПОНЯТИЯ ГЕОСТАТИСТИКИ - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

ОСНОВНЫЕ ЭЛЕМЕНТЫ И ПОНЯТИЯ ГЕОСТАТИСТИКИ

Кынашев С.К. 1
1СемГУ имени Шакарима
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

С 1949 по 1989 год на Семипалатинском ядерном полигоне было произведено 456 ядерных испытаний, с использованием 618 ядерных и термоядерных устройств.Измерения радиоактивного загрязнения проводились во многих местах, как на территории полигона, так и вне полигона. Собралось огромное количество пространственно распределенной информации в банках и базах данных.Ееинтерпретация, анализ и дальнейшее использование требует комплексного системного подхода.

Пространственное моделирование применяется во многих сферах человеческой деятельности: при климатическом моделировании,в геологии,в медицинской географии,при моделировании запасов полезных ископаемых и рыбных ресурсов, криминогенной ситуации и природных катастроф.

Анализ и обработку пространственно распределенных данных осуществляют несколькимиметодами, которые можно условно разделить на 2 группы:

1)        детерминистические модели (интерполяторы) - линейная интерполяция на основе триангуляции, метод обратных расстояний, мульти-квадратичные уравнения и т.п.;

2)        геостатистика- модели, базирующиеся на статистической интерпретации данных;

Это деление условно, так например геостатистические модели можно изложить в детерминистической формулировке, и наоборот, некоторые детерминистические модели имеют близкие статистические аналоги. В свою очередь, статистический подход, на котором базируется геостатистика, включает регрессионные модели пространственных интерполяций (предсказаний) и методы стохастического моделирования, цели и задачи которых различны.

1 Геостатистические модели

Современная геостатистика - это широкий спектр статистических моделей и инструментов для анализа, обработки и представления пространственно распределенной информации, кроме того быстро развивающаяся область прикладной статистики с огромным набором методов, линейных и нелинейных, пара­метрических и непараметрических моделей для анализа, обработки и представления пространственной информации.

Геостатистический анализ позволяет значительно повысить уровень надежности и качество решений, принимаемых на основе использования пространственно распределенной информации. Современные тенденции геостатистики связаны с развитием методов стохастического моделирования, методов основанных на многоточечной статистике, гибридных моделей с использованием алгоритмов искусственного интеллекта, с использованием дополнительной информации различного вида и приложениями в области обработки и передачи изображений, с расширением на временной и пространственно-временной анализы и многими направлениями.

Пространственно-распределенная переменная, представляется, как составная из трех независимых компонент. Первая - это главная структурная компонента, которая характеризует некоторую среднюю величину переменной (фактора) внутри рассматриваемой физико-географически или экологически выделенной территории. Главный структурный компонент отражает относительно медленные изменения, которые описываются детерминированной функцией тренда. Вторая компонента пространственной вариации накладывается на главную структуру, но в масштабе наблюдения не может быть идентифицирована с компонентом ландшафта и рассматривается как некоторые пространственно коррелируемые изменения. Наконец, существует третья компонента, а именно, не коррелируемые, случайные вариации, которые могут быть вызваны ошибками наблюдения, модели или пространственными вариациями слишком малых масштабов внутри выбранной сетки выборки. Таким образом, значение переменной Z в точке с координатами (x,y) может быть представлено как сумма:

 

1

где f(x,y) -главный структурный компонент, представляющий собой постоянную величину или детерминированный тренд внутри данной области,  - компонента, описывающая пространственно коррелируемые случайные вариации,  - остаток, характеризующий пространственно некоррелированный шум.

В рамках геостатистического подхода закономерности пространственной вариабельности исследуются путем расчета дисперсии (semivariance) изучаемого фактора, которая зависит от расстояния, между точками рассчитывается по формуле:

 

2

где z - варьирующая величина,  - результаты измерений в точках xi и xi+h, а N(h) - количество пар точек, разделенных расстоянием h (которое обычно называется лагом)

Величина γ(h), является средней мерой сходства значений признака в точках, разделенных расстоянием h. Таким образом, дисперсия для каждого h рассчитывается как половина среднего квадрата разности значений показателя, измеренных на расстоянии h друг от друга. Значения дисперсии не зависят от положения точек в пространстве, а зависит только от расстояния h между ними.

На основании полученных данных строятся «семивариограммы»  - графики зависимости дисперсии γ(h) от величины смещения h. Семивариограмма показывает, как дисперсия разности значений признака в двух точках изменяется с расстоянием между ними, то есть раскрывает определенную пространственную структуру распределения признака в пространственных координатах.

Различают изотропные и анизотропные семивариограммы. Изотропную семивариограмму имеет смысл рассчитывать в том случае, если пространственное распределение значений почвенного показателя в рамках данной задачи можно считать не зависящим от направления. Для построения изотропной семивариограммы рассматривают все возможные пары точек опробования. Пары объединяют в группы по удалению точек в парах друг друга, а затем для каждой группы рассчитывают половину среднего квадрата разности значений пространственно варьирующего фактора.

Пространственная структура варьирования показателей не всегда одинакова по всем направлениям в пространстве. Например, существенную роль могут играть изменения, связанные с направлением обработки почвы. Для выявления особенностей варьирования показателя по выбранным направлениям могут рассчитываться анизотропные семивариограммы. В этом случае, точки объединяются в группы не только по расстоянию между ними, но и по направлению вектора, соединяющего точки в пары.

Расчет экспериментальных семивариограмм является первым шагом анализа пространственного варьирования переменных. Эмпирические оценки семивариограммы обычно  представлены полем точек. Однако для анализа пространственной структуры необходимо подобрать математическую модель по экспериментально полученным данным.

Нет общей математической формулы для описания формы почвенных семивариограмм. Обычно используемые теоретические модели семивариограмм можно условно разделить на три класса.

  1. Модель с порогом:

- Линейная модель с порогом

 

3

Такой тип семивариограмм, как правило, описывает распределение данных с резкими границами на дискретных регулярных расстояниях или радиусах корреляции а.

- Сферическая модель

 

4

Такой тип семивариограмм, как правило, описывает распределение данных с резкими границами на разных расстояниях между изменениями. В обоих случаях а - это расстояние, на котором семивариограмма, достигла максимума, прекращает свой рост.

Обычно линейная модель с порогом используется для одномерных последовательностей, сферическая - в двумерном случае.

- экспоненциальная модель

 

5

Здесь а - эффективный радиус корреляции. На этом расстоянии значение вариограммы достигает 95% плато. Экспоненциальная модель достигает плато асимптотически.

- Гауссова модель

 

6

Отличительной чертой Гауссовой модели является параболическое поведение вблизи нуля. Такой тип вариограмм, как правило, характеризует относительно медленное ослабление корреляционных связей на малых расстояниях.

  1. Модели без порога

- Линейная модель

 

7

Семивариограмма, которая круто возрастает с увеличение шага, дает линейный тренд

- Логарифмическая модель

 

8

- Степенная модель

 

9

  1. Модель с нулевым радиусом корреляции или 100% эффектом самородка.

 

10

Эта модель описывает ситуацию, когда принятом пространственном масштабе никакая структура данных не выявляется. Такой тип вариограмм относится к полностью случайной пространственной переменной.

Данные, включающие  компоненту периодической вариации, соответственно будут иметь периодическую вариограмму. Если данные содержат квадратичный тренд, то они могут быть описаны семивариограммой, которая возрастает до максимума, а затем убывает и снова возрастает. Такие вариации называются псевдопериодическими, поскольку обычно полного цикла колебаний в них не отмечается.

При подборе формы и параметров модели всегда возникает проблема оценки близости теоретической модели  к экспериментальной вариограмме. Одним из доступных подходов является визуальная схожесть. Также можно воспользоваться рядом индикаторов подгонки.

  1. Метод наименьших квадратов

 

11

  1. Индикатор Кресси (метод наименьших взвешенных квадратов)

 

12

  1. Индикатор качества подгонки

 

13

Здесь γ(hi) - значение экспериментальной вариограммы для i-го лага,  - значение модели вариограммы для i-го лага и набора параметров модели λ, N(hi) - число пар, по которым вычислялось значение  экспериментальной вариограммы для лага hi, P - число направлений, которые участвуют в подборе параметров модели, hmax(k) - максимальная длина лага для k-го направления, σ2 - вариация оценки вариограммы, µ - число параметров в модели.

2 Детерминистические модели (интерполяторы)

Детерминистические модели  традиционно широко используются в различных областях прикладной научной деятельности: метеорологической интерполяции, анализ химического загрязнения, топографические интерполяции и другие.

При использовании детерминистических методов предполагается, что анализируемые пространственные данные описываются некоторой детерминистической функцией V(x), определенной на исследуемой области (S), где xϵS координата точки. Задача состоит в том, чтобы, базируясь на известных значениях V1-V(x1) (значения, измеренные в точках x1ϵS) и на основе информации об исследуемом явлении, построить непрерывную функцию для всей исследуемой области S. После этого значение любой точке исследуемой области S может быть вычислено по заранее определенной формуле.

Одним из простейших детерминистических  методов пространственной интерполяции является интерполяцияпо ближайшему соседу. Данный метод состоит в том, что в любой точке исследуемой области в качестве значения функции выбирается значение в ближайшей точке измерения. Таким образом, чтобы полностью определить функцию в исследуемой области, для каждой точки с известным значениемстроится область влияния и всем точкам, принадлежащим этой области, присваивается значение исходной, точки. Интерполированная функция; полученная таким методом, оказывается сильно разрывной.  Разрывы наблюдаются на  границе каждой области влияния.

Другой детерминистический метод - оценка на основе почвенной классификации. Модель классификации имеет следующий вид:

 

14

Где zij - значение рассматриваемого свойства Z в любой точке i, почвенного класса j, µ - общее среднее значение Z, аi - разница между µ и средним значением j, а εij - случайная компонента. Оценка zij - среднее значение наблюдений внутри класса j.

 

15

где zij - наблюдаемые значения.

Данный метод предсказания, пригоден, если нет пространственной зависимости между точками отбора внутри почвенной единицы в масштабе съемок, и  имеется существенная разница между почвенными единицами. Однако в реальности эта модель часто не работает, поскольку изменения не всегда происходят на хорошо видимых границах.

Линейные интерполяторы представляют искомую функцию в виде линейной комбинации известных значений:

 

16

где V'(x) - оцениваемое значение в точке x, V(xi) - известные значения в дискретных точках xi, N(x) - количество исходных точек, принимающих участие в оценке для координаты x, Wi(x) - весовые коэффициенты.

Линейные интерполяторы могут быть глобальными, когда все точки с известными значениями используются при интерполяции, или локальными, когда используется часть точек, ближайших к оцениваемой.

Глобальные интерполяторы делают искомую функцию более гладкой, то есть обладают более «стягивающим» эффектом, локальные - позволяют более четко выявлять некоторые локальные особенности пространственного распределения.

Широко используется линейная интерполяция с весовыми коэффициентами Wi, обратно пропорциональными степени расстояния между точками (p>0). В этом случае:

 

17

где Ri - расстояние от оцениваемой точки до i-ой точки исходного набора. Степень p показывает, насколько быстро весовой коэффициент стремится к нулю о мере увеличения расстояния между точками.

Полиномиальные интерполяторы (тренды) представляют значение пространственно-варьирующей величины в точке в виде полинома от координат. В двумерном случае для произвольной точки поля с координатами (x,y): V'(x,y)=Pn(x,y), где Pn - полином n-й степени.

При полиноминальной интерполяции полей почвенных характеристик обычно используется полином 2-й степени:

 

18

Теоретически, конечно, можно использовать и полиномы более высокого порядка, но это вызывает необоснованное усложнение задачи. Проблема нахождения коэффициента аi есть стандартная задача множественной регрессии.

Трендовые поверхности, определяемые вышеуказанным полиномом, в основном используются для описания достаточно «медленных» крупномасштабных изменений. Однако при сравнительной простоте нахождения, использование этих поверхностей связано с рядом проблем.

Во-первых, выбор той или иной поверхности тренда не имеет большого смысла до тех пор, не может быть дано физическое объяснение.

Во-вторых, в тех случаях, когда число исходных данных невелико, экстремальные величины могут существенно изменять поверхность.

В-третьих, многочлены высокого порядка могут резко менять направление около границ области, давая нереальные значения изучаемой величины.

3 Кросс-валидация и сравнение методов

Разнообразные детерминистические методы интерполяции с различными значениями параметров могут применяться к одним и тем же исходным данным. При этом результаты интерполяции могут качественно отличаться для разных параметров могут качественно отличаться для разных методов (и их параметров) и выбора «наилучшего», причем не глобально, а для конкретных данных. Кроме того, анализ методов должен позволить оценить ожидаемые ошибки интерполяции.

Поскольку значения оцениваемой функции известны нам лишь для заданного набора точек, то сравнение степени соответствия прогноза реальным данным для различных методов приходится проводить на основе только этой информации. Одна из наиболее простых процедур для такого анализ носит название кросс-валидации и выполняется следующим образом:

  1. Из базы данных временно изымается одна точка и проводится оценка значения в ней с использованием всех остальных данных.
  2. Полученное значение сравнивается с известным и расчитываются относительная ошибка и отклонение (невязка) - разница между измеренными и оцененными значениями.
  3. Первые два шага проводятся для всех баз данных.

Относительная ошибка вычисляется по формуле:

 

19

где z*(x) - оцененное значение в точке x, z(x) - известное значение в этой же точке.

По результатам кросс-валидации могут быть построены карты невязок, которые дают общее представление в каких областях метод дает более точную оценку. Сравнивая карты невязок для различных методов, какой метод лучше и для какой области.

Также, можно вычислять и пытаться минимизировать (с целью определения оптимальных параметров)  глобальные характеристики метода по результатом кросс-валидации.

Существует несколько индексов для сравнения известных и оцененных значений валидации

Средняя ошибка:

 

20

Средняя квадратичная ошибка:

 

21

Среднеквадратичное отклонение:

 

22

где  - теоретическая оценка вариации для оцененногоz(xi)/

Для хорошего «предсказания» ME и RMSE должны быть близки к 0, а R - к 1.

Достаточно часто используется следующий критерий пригодности метода интерполяции:

 

23

«Коэффициент эффективности» G служит мерой эффективности применения метода по сравнению с использованием просто среднего значения. То есть, если G=100% - данный метод предсказания является идеальным, если G<0 - метод не подходит (проще и эффективнее использовать среднее значение).

4 Основные этапы анализа и моделирования пространственных данных

Первым и весьма важным этапом исследования является статистический анализ данных, позволяющий определить наличие ошибок и выбросов (outliers) в данных, оценить базовые статистические закономерности, провести корреляционный анализ при наличии нескольких переменных и т.п.

Если данные собраны на нерегулярной кластерной сети мониторинга, может потребоваться пространственная декластеризация для получения репрезентативной глобальной статистики - средних, вариаций, гистограмм. Если сеть мониторинга имеет зоны с заметно более высокой плотностью измерений, чем остальная область, то такая сеть мониторинга - кластерная. Если при этом зоны повышенной плотности измерений характеризуются более высокими (или, наоборот, низкими) значениями измерений, возникает необходимость в декластеризации. В противном случае оценки всех статистических характеристик будут искажены, например, оценка среднего будет завышена (или, наоборот, занижена). Процедура декластеризации ориентирована на устранение такого рода искажений.

Можно рассматривать два основных типа декластеризации - выборочную и весовую. Выборочная декластеризация связана с выбором части данных из кластеров, весовая предполагает задание весов, с которыми используются измерения.

Оценить некоторые пространственные особенности данных позволяет статистика с движущимся окном, т.е. область разбивается на подобласти, в каждой из которых проводится независимый статистический анализ. Дальнейший пространственный анализ предполагает исследование и моделирование пространственной корреляции между данными по одной или нескольким переменным. Мерой пространственной корреляции является вариограмма - статистический момент второго порядка.

Для получения наилучшей в статистическом смысле пространственной оценки используются модели из семейства кригинга (kriging) - наилучшего линейного несмещенного оценивателя (bestlinearunbiasedestimator - BLUE).

Кригинг является наилучшим оценивателем в статистическом смысле в классе линейных интерполяторов - его оценка обладает минимальной вариацией ошибки. Важное свойство кригинга - точное воспроизведение значений измерений в имеющихся точках. В отличие от многочисленных детерминистических методов, оценка кри­гинга сопровождается оценкой ошибки интерполяции в каждой точке. Полученная ошибка позволяет охарактеризовать неопределенность полученной оценки данных при помощи доверительных интервалов.

При проведении анализа реальных данных эксперты часто сталкиваются с проблемой малого количества измерений по интересующей переменной, например, вследствие их дороговизны или небезопасности взятия проб. При этом в наличии может оказаться большое (избыточное) количество «дешевых» измерений переменной, которая достаточно сильно коррелирована с основной.

В рамках многопеременной геостатистики существует модель совместной пространственной интерполяции нескольких коррелированных переменных - кокригинг. Кокригинг позволяет значительно улучшить качество оценки, перейти из области экстраполяции в область интерполяции, уменьшить ошибку оценки за счет использования дополнительной «дешевой» информации по коррелированным переменным.

Часто результатом пространственного анализа данных в рамках квалифицированной поддержки принятия решений являются вероятностные карты. Вероятностное картирование дает возможность оценить уровень риска по превышению или непревышению заданного уровня значения пространственной переменной. Оно также используется при оптимизации решений, когда пространственный анализ данных является только промежуточным этапом. В рамках геостатистики для вероятностного картирования используются нелинейные модели кригинга, в частности индикаторный кригинг. Он позволяет рассчитать локальную функцию распределения в точке оценивания. В качестве результатов составляются карты вероятности, карты средних оценок, карты оценок с заданной вероятностью превышения, которые используются в процессе принятия решений.

Применение различных детерминистических или геостатистических моделей интерполяции оценивания всегда дает единственное и сглаженное, не воспроизводящее изначальную вариабельность данных значение оценки в интересующей точке при выбранных модельных параметрах. Стохастическое моделирование является альтернативным подходом, дающим возможность воспроизвести исходную вариабельность и получить сколь угодно много равновероятных реализаций пространственной функции в области. Равновероятные реализации позволяют описать пространственную вариабельность (изменчивость) и неопределенность пространственной функции, оценить вероятности и риск. При использовании стохастического моделирования удается избежать «сглаженной» картины оценки, которая присуща большинству моделей интерполяции. Это позволяет получать корректные результаты в таких задачах, как, например, расчет объема нефтяного резервуара, «длины» береговой линии и т. п.

 

Список используемых источников

1 Демьянов В.В. Савельева Е.А. Геостатистика: теория и практика.  Издательство «Наука», Москва, 2010, 327 стр.

2 Матероп Ж. Основы прикладной геостатистики. М.: Мир, 1968, 408с.

3 ArcGIS 9 Geostatistical Analyst Руководство пользователя.Издательство: Dataplus 2006, 278с.

 

Просмотров работы: 2436