uzluga.ru
добавить свой файл
Элементы математической статистики


Генеральная совокупность и выборка

Генеральная совокупность – вся подлежащая изучению совокупность наблюдений, производимых в неизменных условиях.

В математической статистике генеральная совокупность часто понимается как совокупность всех мыслимых наблюдений, которые могут быть произведены при выполнении некоторых условий.

Выборка (выборочная совокупность) – совокупность наблюдений, отобранных случайным образом из генеральной совокупности.

Число наблюдений в совокупности называется ее объемом.

N – объем генеральной совокупности.

n – объем выборки.

Выборочный метод – метод статистического исследования, состоящий в том, что на основе изучения выборки делается заключение о всей генеральной совокупности.

Если после исследования объект из выборки возвращается в генеральную совокупность, то такая выборка называется повторной (возвратной); если объект не возвращается в генеральную совокупность, то выборка называется бесповторной (безвозвратной).

Выборка называется репрезентативной (представительной), если по ее данным можно достаточно уверенно судить об интересующем нас признаке генеральной совокупности.

Репрезентативность выборки обеспечивается:

- объемом выборки;

- случайностью отбора ее элементов;

- все элементы совокупность должны иметь одинаковую вероятность попадания в выборку.


Вариационный ряд

Наблюдаемые значения случайной величины х1, х2, …, хk называются вариантами.

Частотой варианты хi называется число ni (i=1,…,k), показывающее, сколько раз эта варианта встречается в выборке.

Частостью (относительной частотой, долей) варианты хi (i=1,…,k) называется отношение ее частоты ni к объему выборки n.



Частоты и частости называют весами.

Накопленной частотой называется количество вариант, значения которых меньше данного х:



Накопленной частостью называется отношение накопленной частоты к объему выборки:



Вариационным рядом (статистическим рядом) – называется последовательность вариант, записанных в порядке возрастания и соответствующих им весов.

Вариационный ряд может быть дискретным (выборка значений дискретной случайной величины) и непрерывным (интервальным) (выборка значений непрерывной случайной величины).

Дискретный вариационный ряд имеет вид:





















Когда число вариант велико или признак является непрерывным (случайная величина может принимать любые значения в некотором интервале), составляют интервальный вариационный ряд.

Для построения интервального вариационного ряда проводят группировку вариант – их разбивают на отдельные интервалы:



Число интервалов иногда определяют с помощью формулы Стерджеса:



Затем подсчитывается число вариант, попавших в каждый интервал – частоты ni (или частости ni/n). Если варианта находится на границе интервала, то ее присоединяют к правому интервалу.

Интервальный вариационный ряд имеет вид:

Варианты









Частоты









Эмпирической (статистической) функцией распределения называется функция, значение которой в точке х равно относительной частоте того, что варианта примет значение, меньшее х (накопительной частости для х):





Полигоном частот называют ломанную, отрезки которой соединяют точки с координатами (х1; n1), (х2; n2), …, (хk; nk). Аналогично строится полигон частостей, который является статистическим аналогом многоугольника распределений.

Для непрерывного вариационного ряда полигон можно построить, если в качестве значений х1, х2, …, хk взять середины интервалов.

Интервальный вариационный ряд графически обычно изображают с помощью гистограммы.

Гистограмма – ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются частичные интервалы длины h xi+1 – xi, i = 0,…,k-1, а высоты равны частотам (или частостям) интервалов ni (wi).

Кумулята (кумулятивная кривая) – кривая накопленных частот (частостей). Для дискретного ряда кумулята представляет ломанную, соединяющую точки или , . Для интервального ряда кумулята начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Другие точки этой ломанной соответствуют концам интервалов.


Числовые характеристики вариационных рядов

Выборочное среднее



где – варианты дискретного ряда или середины интервалов интервального ряда;

– частоты вариант или интервалов;

– частости вариант или интервалов.


Средняя отклонений вариантов от средней равна нулю:




Медианой (Md) вариационного ряда называется значение признака, приходящегося на середину ранжированного ряда наблюдений.

Для дискретного вариационного ряда с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов.

Для интервального вариационного ряда:




Модой (Mo) вариационного ряда называется варианта, которой соответствует наибольшая частота.

Для дискретного вариационного ряда мода находится по определению.

Для интервального вариационного ряда:




Абсолютные показатели вариации

Размах (R) – разность между наибольшим и наименьшим вариантами ряда:



Среднее линейное отклонение (d) – средняя арифметическая абсолютных величин отклонений вариантов от их средней:



Выборочная дисперсия () – среднее арифметическое квадратов отклонений вариант от их выборочной средней:



где – варианты дискретного ряда или середины интервалов интервального ряда.

Для практических вычислений более удобной является формула:



Среднее квадратическое отклонение (стандартное отклонение):




Относительные показатели вариации

Коэффициент осцилляции:



Относительное линейное отклонение:



Коэффициент вариации:




Оценка параметров

Оценкой параметра называется всякая функция результатов наблюдений над случайной величиной Х, с помощью которой судят о значении параметра .

Оценка параметра называется несмещенной (смещенной), если ее математическое ожидание равно (не равно) оцениваемому параметру:



Оценка параметра называется состоятельной, если она удовлетворяет закону больших чисел, т.е. сходится по вероятности к оцениваемому параметру:



Оценка параметра называется эффективной, если она имеет наименьшую дисперсию из всех несмещенных оценок параметра , вычисленных по выборкам одного объема n.


Выборочная средняя является несмещенной оценкой генеральной средней.

Выборочная дисперсия является смещенной оценкой генеральной дисперсии (она занижает генеральную дисперсию). Поэтому на практике часто используют исправленную выборочную дисперсию, которая является несмещенной и состоятельной оценкой генеральной дисперсии:



и исправленное среднее квадратическое отклонение:




Методы нахождения оценок

Метод максимального правдоподобия. В качестве оценки неизвестного параметра принимается такое значение , которое максимизирует функцию правдоподобия L.

Функция правдоподобия выражает вероятность совместного появления результатов выборки х1, х2, …, хn:



где .

Метод наименьших квадратов (МНК). Оценка определяется из условия минимизации суммы квадратов отклонений выборочных данных от определяемой оценки.


Интервальные оценки параметров

Доверительным интервалом (интервальной оценкой) для параметра с надежностью оценки  называется числовой промежуток , содержащий истинное значение данного параметра с вероятностью, равной :



где – оценка неизвестного параметра (например, точечная оценка), – некоторое число.

Как правило, надежность оценки  – число, близкое к единице. Число называется уровнем значимости.

Интервальной оценкой (с надежностью ) математического ожидания a нормально распределенного количественного признака Х по выборочной средней при известном среднем квадратическом отклонении  генеральной совокупности служит доверительный интервал



где – точность оценки, n – объем выборки, t – значение аргумента функции Лапласа (t), при котором ;

При неизвестном  (и объеме выборки n < 30):



где S – исправленное выборочное среднее квадратическое отклонение, – находят по таблице значений по заданным n и .


Интервальной оценкой (с надежностью ) среднего квадратического отклонениянормально распределенного количественного признака Х по исправленному выборочному среднему квадратическому отклонению S служит доверительный интервал:



.


Проверка статистических гипотез

Статистической гипотезой называется любое предположение о виде или параметре неизвестного закона распределения.

Проверяемую гипотезу обычно называют нулевой и обозначают . Наряду с нулевой гипотезой рассматривают альтернативную (конкурирующую) гипотезу , являющуюся логическим отрицанием .

Статистическим критерием (тестом) называется правило, по которому гипотеза отвергается или принимается.

Схема проверки статистических гипотез

  1. Для основной гипотезы формулируется альтернативная гипотеза .

  2. Выбирается малое положительное число  – уровень значимости проверки. Обычно  принимается в пределах от 0,01 до 0,05.

  3. Вводится специально составленная выборочная характеристика (статистика, критерий) T, значение которой можно получить по выборке, о которой известно точное или приближенное распределение.

  4. По известному распределению величины T определяется область :



т.е. если , то принимается.

При этом возможно: ; .

Значения и называются критическими и обозначаются .

Область D называется областью принятия гипотезы (областью допустимых значений), а остальная часть числовой прямой – областью отклонения гипотезы (критической областью).

  1. По данной выборке вычисляется наблюдаемое (фактическое) значение критерия (статистики) и выполняется проверка условия . Если это условие выполняется, то гипотеза принимается – она не противоречит опытным данным. В противном случае гипотеза отклоняется и принимается альтернативная гипотеза .


Возможны четыре случая:

Гипотеза

Принимается

Отвергается

Верна

Правильное решение

Ошибка 1-го рода

Не верна

Ошибка 1-го рода

Правильное решение

Вероятность  – вероятность отвергнуть верную гипотезу (вероятность совершить ошибку 1-го рода) называется уровнем значимости критерия.

Вероятность – не допустить ошибку 2-го рода, т.е. отвергнуть гипотезу , когда она не верна, называется мощностью критерия.

Критическая область должна быть такой, чтобы при заданном уровне значимости  мощность критерия была максимальной.