2.2.
Статистически модели.
Во многих случаях требуется на основе некоторых данных
решить вопрос о справедливости некоторых суждений. Например, стрелок X лучше
(хуже), чем стрелок y. Одна наука проще, чем другая.
Один из летних месяцев дождливее, чем другой. Один сорт помидоров, лучше, чем
другой. В любом случае мы оперируем случайными статистическими данными.
Идеальных ситуаций не бывает, как не
бывает двух одинаковых ситуаций. На
основе случных данных невозможно сделать точные прогнозы, провести точную
оценку, построить верную по всем параметрам гипотезу.
Рассмотрение таких задач в строгой математической постановке приводит
к понятию статистической модели или гипотезы
Любая статистическая гипотеза должна быть построена на
основе некоторых законов, требований,
свойств. Затем она должна быть проверена на право существования и на непротиворечивость. Долее должны быть указаны наилучшие
методы действий с такой гипотезой и ее связи с другими понятиями.
Рассмотрим возникновение статистических гипотез на
основе идеи случайного выбора.
Если опустить детали и некоторые исключения (пусть,
даже весьма ценные для некоторой конкретной ситуации), то можно сказать, что
весь статистический анализ основан на идее
случайного выбора.
Мы принимаем тезис, что, имеющиеся данные появились
как результат случайного выбора их некоторой совокупности, нередко –
воображаемой.
Для краткости будем говорить, что все данные, которые
исследователь хочет изучить как единое целое, представляют одно наблюдение. Это одно наблюдение может иметь самую разнообразную
природу появления (возникновения, образования, формирования). Это может быть
одно число, таблица чисел, некоторая последовательность символов или чисел и др. Обозначим такое одно наблюдение
какой-нибудь буквой.
Пусть x – одно
наблюдение. Тогда x - результат случайного выбора,
для которого надо указать (или уже существует) генеральную совокупность, из которой x был выбран.
Очевидно, что вместо реального x, можно составить
и другие наблюдения xi,
которых в общем случае, может быть весьма велико. Обозначим совокупность всех
наблюдений xi через X. Множество X – не пустое, назовем его выборочным пространством или пространством
выбора. Каждый элемент множества X должен иметь
определенные шансы (реальные, пусть, даже только теоретически реальные шансы)
быть выбранным.
Если множество X – конечное
выборочное множество, то для каждого элемента существует положительная
вероятность p(xi), быть выбранным.
Если множество X – бесконечное
выборочное множество, то приходится определять вероятность не для отдельных его
точек (элементов), а для подмножеств.
Случайный выбор одной точки из бесконечного множества
похож на выбор точки x из отрезка или пространственной области
Соотношение между наблюдением x и выборочным пространством X , между
элементами которого распределена вероятность
в точности такое же, как между
элементарными исходами и пространством элементарных исходов, с которыми имеет
дело теория вероятностей. Благодаря этому, теория вероятностей становится
основой математической статистики, и поэтому, в частности, можно применить
вероятностные соображения к задаче проверке статистических гипотез.
Процесс построения статистических моделей, процесс
творческий, в связи с тем, что всегда
требуется построить такую статистическую
мидель, что бы соответствующее ее наблюдение xi имело наибольшую вероятность на существование, чем каждое
из остальных, возможных наблюдений, образующих выборочное пространство X.
При этом следует иметь в виду то, что при формализации
реальных задач могут возникнуть разнообразные статистически модели, хотя
математической теорией разработаны средства для исследования ограниченное число
моделей. Разработаны типовые модели, которые наиболее часто интересуют
исследователя. С другой стороны, следует иметь ввиду ограниченность
математических средств и высокую степень математической формализации
эксперимента. Поэтому, как правило,
статистические модели сводятся к типовым спастическим моделям, разработанным
математическим аппаратом.
2.3. Проверка статистических гипотез.
При построении статистических
моделей приходится делать много допущений и ограничений. Далеко не все из них
можно или нужно проверить. Вопрос о выборочном пространстве обычно не ставится.
Вопрос возникает о законе распределения вероятностей всех наблюдений. Такое распределение
должно обладать некоторым свойством, а после установления такого свойства, надо
установить, а верно ли это. Предположение может касаться основных законов
распределения случайных величин: стандартного, нормального. показательного и иных законов.
Соответственно могут
иметь место простые гипотезы, когда полностью задается распределение вероятностей
и сложные гипотезы, указывающие не на одно распределение, а на некоторое
множество распределений, которое в свою очередь обладает определенными
свойствами.
С теоретической
точки зрения, проверка статистических гипотез состоит из выявления того,
насколько совместима эта гипотеза с имеющимся наблюдением (результатом)
случайного выбора.
Итак, статистическая гипотеза – это
предположение о распределении вероятностей, которое необходимо проверить по имеющимся данным.
Остается выяснить,
как это можно проверить.
Лучше всего, если
гипотезу можно поверить непосредственно, тогда не возникает никаких
методических проблем. В противном случае, проверка проводится косвенным путем.
Это значит, что надо довольствоваться проверкой следствий, логически вытекающих
из содержания гипотезы.
Если некоторое
следствие вытекает из гипотезы, но в природе не наблюдается, то следует
считать, что гипотеза не верная. С другой стороны происходит то, что в гипотезе
не должно происходить, то гипотеза так же считается не верной.
Более тог, что
подтверждение следствия, ни сколько не означает, что гипотеза верная. Вспомним
импликацию, когда из лжи вытекает истина, а импликация считается истинной. Правильное
вытекает из не правильного. Поэтому, строго говоря, правдивость гипотезы
косвенным путем доказать нельзя, но опровергнуть можно.
Тем не мене, когда
косвенных подтверждений накапливается слишком много, то можно рискнуть и
предположить, что гипотеза верная.
После установления
истинности гипотеза, она становится законом.
Приведем в качестве
иллюстрации высказанных положений классические примерах построения гипотез
(моделей).
1. Модель устройства Солнечной системы.
Такие ученые как
Коперник, Галилей, Кеплер, Бруно, Ньютон строили гипотезы устройства Солнечной
системы. Благодаря их усилиям мы сейчас много знаем о ближайших наших космических
соседях: Луне, Солнце, планетах. Люди могут предсказать за десятки лет вперед
лунные и солнечные затмения, рассчитать модель движения космических аппаратов,
которых сейчас очень много в межпланетном пространстве.
2. Модель атома.
3. Модель устройство
Земли и других планет.
4. Модель двигателя внутреннего сгорания.
5. Модель вычислительной машины, машина Поста, машина
Тьюринга
6. Модель работы процессора
2.4. Виды представления статистических моделей и гипотез
Ранги.
Рангом наблюдения называется тот номер, который получит это
наблюдение в упорядоченной совокупности всех данных. Упорядочить можно по
некоторому закону с учет понятий об
упорядочивании множества элементов. Например, от меньшего значения признака к
большему значению этого признака.
Процедура перехода от совокупности наблюдений
к рангам называется ранжированием. Полученный
результат называется ранжированным рядом или ранжировкой.
Возможны два
варианта ранжирования:
1. Все значения
признака различные. В этом случае каждому значению присваивается номер порядка
его следования. Если это спортивные или иные соревнования, то №1 – лучший
результат, последний номер – худший. Это уже модель некоторого множества.
2. Среди значений
есть одинаковые показатели. Они могут получиться, как при измерении величин,
так и при округлении таковых значений. Совокупность
одинаковых наблюдений называется связкой.
В таких случаях одинаковым показателям можно присвоить один
номер. Говорят при этом, что поделили то
или иное место. Тогда число рангов будет меньше значений признака. Что бы этого
не случилось можно ввести понятие "средний
ранг", когда находится среднее арифметическое рангов, которые были присвоены
одинаковой группе показателей.
|