11.07.2023

Основные понятия математической статистики. Методы математической статистики (2) - Реферат Что такое методы математической статистики


Данным, полученным в результате эксперимента, свойственна изменчивость, которая может быть вызвана случайной ошибкой: погрешностью измерительного прибора, неоднородностью образцов и т.д. После проведения большого количества однородных данных экспериментатору необходимо их обработать для извлечения как можно более точной информации о рассматриваемой величине. Для обработки больших массивов данных измерений, наблюдений и т.п., которые могут быть получены при проведении эксперимента, удобно применять методы математической статистики .

Математическая статистика неразрывно связана с теорией вероятностей, но между этими науками есть существенное различие. Теория вероятностей использует уже известные распределения случайных величин , на основе которых рассчитываются вероятности событий, математическое ожидание т.д. Задача математической статистики – получить как можно более достоверную информацию о распределении случайной величины на основе экспериментальных данных.

Типичные направления математической статистики:

  • теория выборок;
  • теория оценок;
  • проверка статистических гипотез;
  • регрессионный анализ;
  • дисперсионный анализ.

Методы математической статистики

Методы оценки и проверки гипотез основываются на вероятностных и гиперслучайных моделях происхождения данных.

Математическая статистика оценивает параметры и функции от них, которые представляют важные характеристики распределений (медиану, математическое ожидание, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используются точечные и интервальные оценки.

Современная математическая статистика содержит большой раздел – статистический последовательный анализ , в котором допускается формирование массива наблюдений по одному массиву.

Математическая статистика также содержит общую теорию проверки гипотез и большое количество методов для проверки конкретных гипотез (например, о симметрии распределения, о значениях параметров и характеристик, о согласии эмпирической функции распределения с заданной функцией распределения, гипотеза проверки однородности (совпадение характеристик или функций распределения в двух выборках) и др.).

Проведением выборочных обследований , связанных с построением адекватных методов оценки и проверки гипотез, со свойствами разных схем организации выборок, занимается раздел математической статистики, имеющий большое значение. Методы математической статистики непосредственно использует следующие основные понятия.

Выборка

Определение 1

Выборкой называются данные, которые получены при проведении эксперимента.

Например, результаты дальности полета пули при выстреле одного и того же или группы однотипных орудий.

Эмпирическая функция распределения

Замечание 1

Функция распределения дает возможность выразить все важнейшие характеристики случайной величины.

В математической стаитистике существует понятие теоретической (заранее не известной) и эмпирической функции распределения.

Эмпирическая функция определяется по данным опыта (эмпирические данные), т.е. по выборке.

Гистограмма

Гистограммы используются для наглядного, но довольно приближенного, представления о неизвестном распределении.

Гистограмма представляет собой графическое изображение распределения данных.

Для получения качественной гистограммы придерживаются следующих правил :

  • Количество элементов выборки должно быть существенно меньше объема выборки.
  • Интервалы разбиения должны содержать достаточное число элементов выборки.

Если выборка очень большая зачастую интервал элементов выборки разбивают на одинаковые части.

Выборочное среднее и выборочная дисперсия

С помощью данных понятий можно получить оценку необходимых числовых характеристик неизвестного распределения, не прибегая к построению функции распределения, гистограммы и т.п.

(Е.П. Врублевский, О.Е. Лихачев, Л.Г. Врублевская)

Применяя в исследовании те или иные методы, в конечном итоге экспериментатор получает большую или мень­шую совокупность различных числовых показателей, призванных характеризовать изучаемое явление. Но без систематизации и надлежащей обработки полученных результатов, без глубокого и всестороннего анализа фактов не удается извлечь заключенную в них информацию, от­крыть закономерности, сделать обоснованные выводы. Приведенные в тексте самые элементарные и вполне доступные для каждого студента приемы матема­тической обработки результатов носят демонстрационный характер. Это означает, что примеры иллюстрируют применение того или иного математико-статистического метода, а не дают его развернутую интерпретацию.

Средние величины и показатели вариации .Прежде чем говорить о более существенных вещах, необходимо уяснить такие статистические понятия, как генеральная и выборочная совокупности. Группа чисел, объединяемых каким-либо признаком, называется совокупностью. Наблюдения, проводимые над какими-то объектами, могут охватывать всех членов изучаемой совокупности без исключения или ограничиваться обследованием лишь некоторой ее части. В первом случае наблюде­ние будет называться сплошным, или полным,во втором - частичным, или выборочным. Сплошное обследование проводится очень редко, так как в силу ряда причин оно практически либо невыполни­мо, либо нецелесообразно. Так, невозможно, например, об­следовать всех мастеров спорта по легкой атлетике. Поэтому в подавля­ющем большинстве случаев вместо сплошного наблюдения изучению подвергают какую-то часть обследуемой совокупности, по которой и судят о ее состоянии в целом.

Совокупность, из которой отбирается часть ее членов для совместного изучения, называется генеральной,а ото­бранная тем или иным способом часть данной совокупности получила название выборочнойсовокупности или просто выборкой. Следует уточнить, что понятие генеральной совокупности является относительным. В одном случае это все спортсмены, а в дру­гом - города, вуза. Так, например, генеральной совокупностью могут быть все студенты вуза, а выборкой - студенты специализации футбола. Число объектов в любой совокупности называется объемом (объем генеральной совокупности обозначается N, а объем выборки n).

Предполагается, что выборка с должной достоверностью представляет генеральную совокупность только в том случае, если ее элементы избраны из генеральной нетенденциозно. Для этого существует несколько путей: отбор выборки в соответствии с таблицей случайных чисел, разделение генеральной совокуп­ности на ряд непересекающихся групп, когда из каждой выбирается определенное количество объектов, и др.


Что касается объема выборки, то в соответствии с основными положениями математической статистики выборки тем представительнее (репрезентативнее), чем она полнее. Исследователь, стремясь к рентабельности своей работы, заинтересован в минимальном объеме выборки, и в такой ситуации количество объектов, отбираемых в вы­борку, является результатом компромиссного решения. Чтобы знать, насколько выборка достаточно достоверно представляет генеральную совокупность, необходимо оп­ределить ряд показателей (параметров).

Вычисление средней арифметической величины .Средняя арифметическая величина выборки характеризует сред­ний уровень значений изучаемой случайной величины в наблюдавшихся случаях и вычисляется путем деления сум­мы отдельных величин исследуемого признака на общее число наблюдений:

, (1)

где х i - вариант ряда;

п -объем совокупности.

Суммой Σпринято обозначать суммирование тех данных, ко­торые стоят справа от него. Нижние и верхние показатели Σ ука­зывают, с какого числа следует начать сложение и какими показателями его закончить. Так, обозначает, что необходимо сложить все х, имеющие порядковые номера от 1 до п . Знак показывает суммирование всех х от первого до последнего показателя.

Таким образом, вычисления по формуле (1) предполагают следующий порядок действий:

1. Суммируют все полученные х i , т. е. ,

2. Найденную сумму - делят на объем совокупности п.

Для удобства и наглядности работы с показателями необходимо составить таблицу, так как сложению подлежат x i , перебираемые от первого до последнего числа.

Например, средняя арифметическая определяется по формуле:

Результаты измерений приведены в таблице 1.

Таблица 1

Результаты тестирования спортсменов

  • 7. Базовая аппаратная конфигурация персонального компьютера. Системный блок: понятия, виды. Внутреннее устройство системного блока.
  • 8.Метеринская плата компьютера: понятие, назначение, хар-ка, логические схемы.
  • 9.Структура и основная хар-ка процессора как основной микросхемы комп-ра.Связь процессора с др устройствами. Компоненты магистрали комп-ра.
  • 10. Внутренняя память компьютера: оперативная и кэш-память, микросхема пзу и система bios, энергонезависимая память cmos. Носители и устройства внешней памяти.
  • 11. Конструкция, принцип действия, основные параметры жесткого диска.
  • 1. Протокол передачи данных.
  • 12. Классификация устройств ввода и вывода информации, порты комп-ра для подключения периферийных устройств.
  • 13. Виды и основные пользовательские характеристики современных мониторов.
  • 14. Принтеры: понятие, назначение, виды, принципы работы.
  • 15. Клавиатура: группы клавиш, назначение клавиш.
  • 16. Виды, принцип действия, регулируемые параметры мыши. Доп. Устройства комп-ра: модем, тв-тюнер, звуковая карта.
  • 17. Понятие и структура программного обеспечения персонального компьютера.
  • 18. Назначение, типы, ведущие функции операционной системы пк. Основные компоненты операционной системы: ядро, интерфейс, драйверы устройств.
  • 19. Понятие и типы файлов. Файловая структура комп-ра. Обслуживание файловой структуры персонального комп-ра.
  • 20. Прикладное по: понятие, значение, структура, виды, программы.
  • 21. Назначение и виды языков программирования. Составные компоненты системы программирования.
  • 22. Назначение и классификация служебных программных средств.
  • 23. Компьютерный вирус. Признаки вирусного заражения.
  • 24. Классификация вирусов.
  • 25. Виды антивирусных программ. Меры по защите эвм от вирусов.
  • 26. Понятие архивации. Методы и форматы сжатия информации. Основные идеи алгоритмов rle, Лемпеля-Зива, Хаффмана.
  • 27. База данных. Классификация. Модели баз данных. Достоинства и недостатки.
  • 28. Субд. Виды. Основные принципы создания.
  • 29. Автоматизированное рабочее место мед специалиста. Назначение, основные требования и принципы разработки.
  • 30. Совокупность решаемых с помощью арм задач и основные направления применения автоматизированных рабочих мест мед персоналом.
  • 31. Структурные компоненты и функциональные модули автоматизированных рабочих мест медицинских работников. Классификация автоматизированных рабочих мест сотрудников медицинских организаций.
  • 32. Знания как основа функционирования экспертных систем. Понятие, свойства и виды знаний.
  • 33. Экспертная система: понятие, назначение и структурные компоненты. Основные этапы разработки экспертной системы
  • 34. Базовые функции экспертных систем и требования к работе медицинских экспертных систем.
  • 35. Режимы функционирования и виды современных экспертных систем. Экспертная система и специалист: сравнительные преимущества и недостатки
  • 36. Понятие компьютерной сети. Основные требования, предъявляемые к современным компьютерным сетям
  • 37. Основные компоненты компьютерной сети
  • 38. Классификация компьютерных сетей. Топология кс. Виды. Преимущества и недостатки.
  • 39. Глобальная сеть Интернет. История создания. Общая характеристика Интернет. Принцип коммутации пакетов
  • 40. Протокол сети интернет. Возможности сети. «Всемирная паутина». Язык html.
  • 41. Телемедицина, задачи телемедицины. История развития. Основные направления телемедицины
  • 42. Предмет, цели и задачи медицинской информатики. Виды медицинской информации
  • 43. Классификация медицинских информационных систем (мис). Задачи мис
  • 44. Информационные технологии. Информационные системы
  • 45. Виды технологических информационных медицинских систем. Уровни развития мис
  • 46. История развития эвм. Поколения эвм. Современный этап развития вычислительной техники и ее перспективы
  • 47. Математическая статистика ее методы. Основные этапы статистической работы.
  • 48. Генеральная совокупность и выборка. Способы формирования выборки
  • 49. Вариационный ряд и его наглядное изображение. Построение гистограммы (алгоритм)
  • 50. Характеристики статистического распределения: характеристики положения; характеристики формы; характеристики рассеяния.
  • 51. Оценка параметров генеральной совокупности. Точечная и интервальная оценка. Доверительный интервал. Уровень значимости
  • 52. Дисперсионный анализ. Градации факторов и анализ. Простейшая схема варьирование при различий по одному фактору
  • 53. Дисперсионный анализ. Рабочая формула для вычисления средних квадратов
  • 54. Вычисление f-критерия для определения влияния изучаемого фактора. Количественная оценка влияния отдельных факторов.
  • 55. Понятие корреляции. Функциональная и корреляционная зависимости. Графики рассеяния.
  • 56. Коэффициент корреляции и его свойства.
  • 57. Регрессионный анализ. Линейная регрессия
  • 58. Ряды динамики. Понятие временного ряда. Виды ряда. Определение тренда
  • 59. Выравнивание динамических рядов: метод скользящей средней
  • 60. Выравнивание динамических рядов: метод наименьших квадратов
  • 61. Выравнивание динамических рядов: метод удлинения периодов
  • 62. Анализ динамических рядов. Хронологическая средняя. Абсолютный прирост ряда. Коэффициент роста
  • 63. Анализ динамических рядов. Хронологическая средняя. Темп роста. Темп прироста
  • 47. Математическая статистика ее методы. Основные этапы статистической работы.

    Математическая статистика - это научная дисциплина, предметом изучения которой является разработка методов регистрации, описания и анализа статистических экспериментальных данных, полученных в результате наблюдений массовых случайных явлений.

    Основными задачами математической статистики являются:

      определение закона распределения случайной величины или системы случайных величин;

      проверка правдоподобия гипотез;

      определение неизвестных параметров распределения.

    Все методы математической статистики основаны на теории вероятностей. Однако в силу специфичности решаемых задач математическая статистика выделяется из теории вероятностей в самостоятельную область. Если в теории вероятностей считается заданной модель явления и производится расчет возможного реального течения этого явления (рис.1), то в математической статистике подбирается подходящая теоретико-вероятностная модель, исходя из статистических данных (рис.2).

    Рис.1. Общая задача теории вероятностей

    Рис.2. Общая задача математической статистики

    Как научная дисциплина математическая статистика развивалась вместе с теорией вероятностей. Математический аппарат этой науки построен во второй половине XIX века.

    Основные этапы статистической работы.

    Любое статистическое исследование в себя 3 основных этапа:

      сбор – это массовое научно-организованное наблюдение, посредством которого получают первичную информацию об отдельных фактах (единицах) изучаемого явления. Данный статистический учет большого числа или всех входящих в состав изучаемого явления единиц является информационной базой для статистических обобщений, для формулирования выводов об изучаемом явлении или процессе;

      группировка и сводка. Под этими данными понимают распределение множества фактов (единиц) на однородные группы и подгруппы, итоговый подсчет по каждой группе и подгруппе и оформление полученных итогов в виде статистической таблицы;

      обработка и анализ. Статистический анализ заключает стадию статистического исследования. Он содержит в себе обработку статистических данных, которые были получены при сводке, интерпретацию полученных результатов с целью получения объективных выводов о состоянии изучаемого явления и о закономерностях его развития.

    48. Генеральная совокупность и выборка. Способы формирования выборки

    Генеральная совокупность (в англ. - population) - совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

    Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.

    Выборка или выборочная совокупность - множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

    Характеристики выборки:

      Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем

      Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

    Необходимость выборки

      Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

      Существует необходимость в сборе первичной информации.

    Объём выборки

    Объём выборки - число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.

    Основные способы формирования выборки

    Формирование выборки прежде всего основывается на знании контура выборки, под которым понимается список всех единиц совокупности, из которого выбираются единицы выборки. Например, если в качестве совокупности рассматривать все автосервисные мастерские города Москвы, то надо иметь список таких мастерских, рассматриваемый как контур, в пределах которого формируется выборка.

    Контур выборки неизбежно содержит ошибку, называемую ошибкой контура выборки и характеризующую степень отклонения от истинных размеров совокупности. Очевидно, что не существует полно официального списка всех автосервисных мастерских г. Москвы. Исследователь должен информировать заказчика работы о размерах ошибки контура выборки.

    При формировании выборки используются вероятностные (случайные) и невероятностные (неслучайные) методы.

    Если все единицы выборки имеют известный шанс (вероятность) быть включенными в выборку, то выборка называется вероятностной. Если эта вероятность неизвестна, то выборка называется невероятностной. К сожалению, в большинстве маркетинговых исследований из-за невозможности точного определения размера совокупности не представляется возможным точно рассчитать вероятности. Поэтому термин «известная вероятность» скорее основан на использовании определенных методов формирования выборки, чем на знании точных размеров совокупности.

    Вероятностные методы включают в себя:

      простой случайный отбор;

      систематический отбор;

      кластерный отбор;

      стратифицированный отбор.

    Невероятностные методы:

      отбор на основе принципа удобства;

      отбор на основе суждений;

      формирование выборки в процессе опроса;

      формирование выборки на основе квот.

    Смысл метода отбора на основе принципа удобства заключается в том, что формирование выборки осуществляется самым удобным с позиций исследователя образом, например с позиций минимальных затрат времени и усилий, с позиций доступности респондентов. Выбор места исследования и состава выборки производится субъективным образом, например, опрос покупателей осуществляется в магазине, ближайшем к месту жительства исследователя. Очевидно, что многие представители совокупности не принимают участия в опросе.

    Формирование выборки на основе суждения основано на использовании мнения квалифицированных специалистов, экспертов относительно состава выборки. На основе такого подхода часто формируется состав фокус-группы.

    Формирование выборки в процессе опроса основано на расширении числа опрашиваемых исходя из предложений респондентов, которые уже приняли участие в обследовании. Первоначально исследователь формирует выборку намного меньшую, чем требуется для исследования, затем она по мере проведения расширяется.

    Формирование выборки на основе квот (квотный отбор) предполагает предварительное, исходя из целей исследования, определение численности групп респондентов, отвечающих определенным требованиям (признакам). Например, в целях исследования было принято решение, что в универмаге должно быть опрошено пятьдесят мужчин и пятьдесят женщин. Интервьюер проводит опрос, пока не выберет установленную квоту.

    Математическая статистика - Наука о том, как систематизировать и использовать статистические данные для научных и прикладных целей.

    Математическая статистика в психологии

    В психологии как науке математическая статистика применяется очень широко. С помощью тех или иных способов, например тестирования, разным особенностям поведения человека сопоставляются числа (шкалируются), и с этими числами уже работают методами математической статистики. После применения этих методов получаются новые данные, которые следует осмыслить.

    Без применения математической статистики психология была бы довольно плоской и малоинформативной наукой, основанной на домыслах и спекуляциях (как это, например, имеет место быть в психоанализе). Разумеется, использование математической статистики не является "противоядием" против домыслов и спекуляций, однако предмет рассуждений становится значительно богаче.

    Рассмотрим типичный и простой случай использования математической статистики. Допустим, кто-то провел исследование группы школьников. В числе прочих были найдены такие параметры, как экстраверсия-интроверсия и уровень интеллекта. Психолога-исследователя заинтересовало, а как связаны эти параметры между собой. Правда ли, что интроверты в среднем умнее экстравертов? Для этого группу испытуемых (выборку) можно поделить на две подгруппы: экстравертов и интровертов. Далее по каждой подгруппе находится среднее арифметическое по уровню интеллекта. Если, скажем, у интровертов в среднем IQ выше, значит, они умнее экстравертов. Это один подход. Другой может состоять в том, чтобы разделить испытуемых на подгруппу с высоким IQ (более 100) и низким (менее 100), а потом посчитать среднее по экстраверсии-интроверсии в каждой группе. Третий подход может состоять в том, чтобы вместо деления на подгруппы и высчитывания в них средних задействовать более сложный метод – корреляционный анализ. Все эти три методы по-разному, но покажут одну и ту же связь.

    Математическая статистика позволяет делать интересные, иногда удивительные открытия. Продолжим наш гипотетический пример. Предположим, что психолог нашел парадоксальный результат, который противоречит с его прошлым опытом, знаниями. Скажем, он установил, что в одной школе экстраверты умнее интровертов, хотя во всех других школах было наоборот. Почему так? Дотошный психолог может начать свое расследование и установит, что, к примеру, это связано с тем, что в этой школе экстраверты ходят на факультатив по физике (потому что там «заводной учитель») и развивают свой интеллект, а интроверты ходят на факультатив по литературе (потому что там «душевный учитель»), где развивают другие качества своей души. Может ли, например, психоаналитик дойти до такого открытия? Крайне маловероятно.

    В психологических исследованиях в расчет берутся не только такие чисто психологические параметры, как, скажем, интеллект, экстравертированность или тревожность. Могут использоваться и такие данные, как возраст, пол, уровень образования, рост, вес, физическая сила, политические взгляды, стаж работы и многое другое. Часто бывает, что именно без таких непсихологических показателей исследования оказываются неполными, малоинформативными. Также часто бывает, что представители других наук (например, социологии или биологии) тоже используют психологические параметры в своих исследованиях.

    Математическая статистика позволяет много вещей:

    Практические психологи в своей работе обычно ограничиваются нахождением средней арифметической, с разделением на подгруппы (как в примере выше). Ученые-психологи используют самый разнообразный арсенал методов математической статистики. Рассмотрим основные.

    Нахождение средней арифметической

    Самый банальный и простой метод. Показатели (например, рост испытуемых) складываются, затем делятся на число испытуемых. Несмотря на простоту, метод, конечно, очень информативный и наглядный. Наглядность – важное качество метода для практического психолога. Когда он представляет результаты своих исследований заказчику (например, директору школы), тот далеко не всегда способен понять сущность корреляционного или дисперсионного анализа. Разделение испытуемых на подгруппы по произвольному основанию усиливает потенциал средней арифметической, позволяя закрыть большинство потребностей исследователя.

    Нахождение моды и медианы

    Предположим, мы обследовали 1000 студентов – измеряли их рост с точностью до сантиметра. Эти данные заносили в таблицу. Если в таблице чаще всего встречается значение, скажем, 172 сантиметра, это и есть мода нашей выборки. Аналогичным, кстати, образом слово "мода" используется и в быту: если в этом сезоне чаще всего можно встретить шапочки красного цвета, значит это мода, хотя на долю этих шапочек может приходиться всего лишь 20 или 30 процентов.

    В психологических исследованиях обычно мода находится где-то рядом со средней арифметической. Если мода 172 см, то и средняя будет около того. Чем больше выборка, тем ближе мода и среднее арифметическое.

    Далее. Предположим, мы поделили своих студентов на две равные группы: в первой группе 500 низких студентов, во второй группе 500 высоких студентов. Значение роста, которое приходится на 500-го или 501-го студента и есть медиана . Медиана обычно тоже находится рядом со средней арифметической.

    Выявление рассеяния значений

    Как известно, средняя температура по больнице не так уж важна. И в хорошей больнице, где лечат хорошо, средняя температура может быть 36,6°C; и в плохой может быть такая же: просто у кого-то жар в 40 °C, а кто-то уже умер, и у него 18°C.

    Самый простой способ оценить рассеяние выборки – найти ее размах (иначе – разброс). Если в нашей выборке самый низкий студент имеет рост 148 см, а самый высокий 205 см, значит размах выборки составит 205-148=57 см. Это величина важна в первую очередь для того, чтобы оценить, в каких рамках вообще меняется данный параметр.

    Далее. Предположим такую ситуацию. Лет через двадцать по прихоти какого-нибудь богатого человека у него появятся дети-клоны. Ещё через двадцать лет они поступят в университет. И будет в университете выборка студентов объемом 1000 человек, из которых 998 имеют рост 177 см, один – 148 см, один – 205 см. По основным параметрам – средней арифметической, моде, медиане, размаху – эта выборка может не отличаться от другой выборки студентов (там будут такие же значения). Но при этом во второй (нормальной) выборке будет какое-то количество студентов с ростом 150-160 см, какое-то с ростом 180-190 см и т.д. Так что же, получается, что с точки зрения математической статистики эти группы одинаковые?

    Одного взгляда на этот рисунок достаточно, чтобы понять, что группы различаются по рассеянию значений. Поэтому в статистике есть более точный инструмент для оценки рассеивания – дисперсия . Дисперсию исчисляют так: находят среднее арифметическое, потом для каждого случая находят отклонение от среднего, возводят это значение в квадрат, в конце делят на общее количество случаев. Из значения дисперсии легко получить стандартное отклонение : оно есть квадратный корень из дисперсии. Стандартное отклонение обозначает, что понятно, стандартное отклонение: то есть мера того, насколько в среднем значения вообще отклоняются.

    Стандартное отклонение измеряется в тех же самых единицах, что и сам параметр. В первой нашей гипотетической группе, где почти все студенты одинаковы, стандартное отклонение будет крайне малым (менее 1 см). Во второй группе будет значительно больше – сантиметров 10-15. Если нам скажут, что средний рост студентов составляет 175 см при стандартном отклонении 12 см, мы будем знать, что большинство студентов (примерно 2/3) находится в диапазоне от 163 до 187 см.

    t-критерий Стьюдента

    Предположим, мы решили провести эксперимент такого рода. Мы взяли группу испытуемых. Перед началом эксперимента протестировали их, скажем, на уровень креативности. Далее они целый месяц занимались по часу в день рисованием. В конце эксперимента мы опять проверили их на уровень креативности. Был замечен результат, но довольно малый, и скептики стали нам заявлять, что уровень креативности не повысился, небольшое повышение средней арифметической это всего лишь случайность.

    Для таких ситуаций придумали разные критерии. Один из них – наиболее популярный – это t-критерий Стьюдента. В числителе у него разница средних арифметических. В знаменателе – корень из суммы квадратов дисперсий (имеется в виду первый и второй случай тестирования). Чем больше разница между средними арифметическими, тем лучше (наш труд не остался напрасным), и чем меньше разброс значений в обоих случаях диагностики, тем тоже лучше: когда разброс значений больше, тогда и случайные колебания тоже больше.

    Для применения данного критерия есть существенное ограничение – распределение показателей должно быть близко к так называемому нормальному (колоколообразному).

    Существуют специальные критерии для определения степени нормальности распределения.

    Корреляция

    В психологии, как наверное ни в одной другой науке, любят находить коэффициенты корреляции. Существует несколько разных подходов, в том числе и для нормального, и для не нормального распределения. Все они показывают степень зависимости одного параметра от другого. Если один параметр (например, вес человека) сильно зависит от другого параметра (например, рост человека), тогда коэффициент корреляции будет близок к +1. Если зависимость обратная (например, чем человек выше, тем менее ловок он), тогда коэффициент корреляции будет стремиться к -1. Если зависимости нет (скажем, удачливость при игре в карты не зависит от роста человека), тогда коэффициент корреляции будет около 0.

    Если взять группу испытуемых, зафиксировать их рост и вес, а потом результаты перенести на двухмерный график, то получится примерно следующая картина, которая свидетельствует о том, что корреляция положительная, примерно на уровне +0.5.

    Факторный анализ

    Наиболее, пожалуй, таинственный анализ. Некоторая загадочность его объясняется тем, что сам он предназначен для того, чтобы найти новый параметр, который многое объясняет, но при этом непосредственно в ходе эксперимента не исследовался. Как правило, в ходе факторного анализа находятся наиболее влиятельные параметры, от которых зависят более мелкие, частные.

    Допустим, мы проводили исследование со школьниками. В числе прочих фиксировались следующие параметры: общая успеваемость, успеваемость по точным предметам, успеваемость по гуманитарным предметам, объем кратковременной памяти, объем и распределение внимания, активность мышления, пространственное воображение, общая осведомленность, общительность, тревожность. Если применить корреляционный анализ и составить так называемую матрицу корреляций (где отражена связь каждого параметра с каждым), то можно увидеть, что большинство этих параметров между собой хорошо коррелирует. Исключение составляет последние два, которые с другими связаны слабо. Уже глядя на эту матрицу можно предположить, что за большинством параметров стоит некий один общий (сверх-параметр), который на них на всех влияет. Мы проводим процедуру факторного анализа, и после этого в нашей матрице появляется еще один столбец – столбец без названия. Этот загадочный параметр очень хорошо коррелирует со всеми (кроме общительности и тревожности). После некоторого творческого раздумья психолог приходит к единственно возможной здесь интерпретации – загадочный параметр это есть интеллект. Он и влияет на все остальное, влияние его сильное, хотя и не стопроцентное.

    Существуют методы факторного анализа, которые помогают выявить не один, а несколько факторов, которые влияют на другие параметры. Часто так бывает, конечно, что загадочный параметр оказывается не таким уж и загадочным, а полностью совпадает с одним из тех параметров, которые фиксировались. Но иногда бывает и так, что придется долго поломать голову прежде, чем удастся интерпретировать этот секретный фактор.

    Факторный анализ применяется в основном учеными для глубокого понимания предмета исследования. При этом следует учитывать, что для точности результата необходимо довольно большое количество испытуемых: желательно, чтобы количество испытуемых в разы превышало количество параметров.

    С помощью факторного анализа можно изучать качество психологических тестов. Если взять, например, какой-нибудь личностный опросник с несколькими параметрами, подвергнуть эти параметры факторному анализу, то может всплыть некий странный общий фактор, влияющий на все параметры. Значимого психологического смысла он может не иметь – это просто тенденция испытуемого отвечать так или иначе по формальному признаку (кто-то отвечает вдумчиво, кто-то склонен выбирать первые пункты из вариантов, кто-то последние). Большое влияние этого общего фактора может говорить о недостаточно качественной проработке заданий.

    Литература

    Ермолаев О. Ю. Математическая статистика для психологов: Учебник. - 2-е изд. испр. - М.: МПСИ, Флинта, 2003. - 336 с.

    Введение.

    Психология получила статус науки благодаря эксперименту и использованию математики при обработке экспериментальных данных и психологических исследований. Математика в психологии служит таким логическим инструментом доказательства, давая возможность научного понимания психологических закономерностей и более глубокого их анализа Математическая статистика - область современной математики, основанная на теории вероятностей и занятая поиском законов изменения и способов измерения случайных величин, обоснованием методов расчетов, производимых с такими величинами.

    Математическая статистика возникла (XVII в) и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина XIX - начало XX в) обязано, в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, а также К. Гауссу, А. Кетле, Ф. Гальтону, К. Пирсону и др.

    В XX в. Наиболее существенный вклад в математическую статистику был сделан советскими математиками (В.И. Романовский, Е.Е. Слуцкий, А.Н. Колмогоров, Н.В. Смирнов), а также английскими (Стъюдент, Р. Фишер, Э. Пирсон) и американскими (Ю. Нейман, А. Вальд) учеными.

    Еще в середине XIX начале XX века наблюдается, правда, еще не вполне регулярные, но, тем не менее, приносящие обоюдную пользу, - попытки провести аналогии между психологическими и физическими исследованиями, особенно в области построения лабораторного эксперимента, анализа и обработки экспериментальных данных. Почти одновременно в психологию и физику приходят вероятностные и статистические методы, теория дифференциальных уравнений, вариационное исчисление и другие. О том, чтобы математически описать деятельность мозга мечтал И.П. Павлов.

    Благодаря проникновению в количественные свойства психических явлений, психология получила множество логических доказательств, которые явились научным обоснованием изучения психики человека. Именно поэтому математика как строгая логическая дисциплина необходима любому специалисту, практикующемуся в области психологии. Современная математическая статистика представляет собой большую и сложную систему знаний. Нельзя рассчитывать на то, что каждый психолог овладеет этими знаниями. Статистики разработали целый комплекс простых методов, которые совершенно доступны любому квалифицированному специалисту психологу.

    Все необходимые для их применения вычисления можно выполнять вручную или на компьютере. Уместное грамотное применение этих методов позволит практику и исследователю, во всяком случае проведя начальную обработку, получить общую картину того, что дают количественные результаты его исследований, оперативно проконтролировать ход исследований. Статистические методы раскрывают связи между изучаемыми явлениями. Однако необходимо твердо знать, что, как бы ни была высока вероятность таких связей, они не дают права исследователю признать их причинно-следственными отношениями. Чтобы подтвердить или отвергнуть существование причинно-следственных отношений, исследователю зачастую приходится продумывать целые серии экспериментов. Если они будут правильно построены и проведены, то статистика поможет извлечь из результатов этих экспериментов информацию, которая необходима исследователю, чтобы либо обосновать и подтвердить свою гипотезу, либо признать ее недоказанной.

    Математическая статистика также нужна психологу не только для проведения научных исследований, а постоянно в его повседневной работе.

    и крутой лестницы которую нужно преодолеть на пути к уверенному применению математических методов.

    Основные понятия, используемые в математической обработке психологических данных.

    1)генеральная совокупность и выборка

    2) признаки и переменные.

    3) шкалы измерения.

    4) статистические гипотезы.

    5) статистические критерии.

    В математической статистике выделяют два фундаментальных понятия: генеральная совокупность и выборка.

    Совокупностью – называется практически счетное множество некоторых объектов или элементов, интересующих исследователя;

    Свойством совокупности называется реальное или воображаемое качество, присущее некоторым всем ее элементам. Свойство может быть случайным или неслучайным. Параметром совокупности называется свойство, которое можно квантифицировать в виде константы или переменной величины. Гомогенной или однородной называется совокупность, все характеристики которой присущи каждому ее элементу; Гетерогенной или неоднородной называется совокупность, характеристики которой сосредоточены в отдельных подмножествах элементов.

    Важным параметром является объем совокупности – количество образующих ее элементов. Величина объема зависит от того, как определена сама совокупность, и какие вопросы нас конкретно интересуют. Понятно, что совокупности большого объема можно исследовать только выборочным путем.

    Выборкой называется некоторая часть генеральной совокупности, то, что непосредственно изучается. Выборки классифицируются по репрезентативности, объему, способу отбора и схеме испытаний. Репрезентативная – выборка адекватно отображающая генеральную совокупность в качественном и количественном отношениях.Иными словами репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности которую она должна отражать, иначе результаты не совпадут с целями исследования [ 4; 33 ].

    Репрезентативность зависит от объема, чем больше объем, тем выборка репрезентативней.

    По схеме испытаний – выборки могут быть независимые и зависимые.

    По объему выборки делят на малые и большие. К малым относят выборки, в которых число элементов n ≤ 30. Понятие большой выборки не определено, но большой считается выборка в которой число элементов > 200 и средняя выборка удовлетворяет условию 30≤ n≤ 200. Это деление условно.

    2. Признаки и переменные - это измеряемые психологические явления. Такими явлениями могут быть время решения задачи, количество допущенных ошибок, уровень тревожности, показатель интеллектуальной лабильности, интенсивность агрессивных реакций, угол поворота корпуса в беседе, показатель социометрического статуса и множество других переменных. Понятия признака и переменной могут использоваться как взаимозаменяемые. Они являются наиболее общими. Иногда вместо них используются понятия показателя или уровня, например уровень настойчивости, показатель вербального интеллекта и др.

    Математическая обработка - это оперирование со значениями признака, полученными у испытуемых в психологическом исследовании. Такие индивидуальные результаты называют также "наблюдениями", "наблюдаемыми значениями", "вариантами", "датами" и др. значение признака определяется при помощи специальных шкал измерения.

    3. Шкалы измерения . Измерение - это приписывание числовых форм объектами или событиям в соответствии с определенными правилами.

    С. Стивенсом предложена классификация из 4 типов шкал измерения:

    а) Номинативная, или номинальная, или шкала наименований;

    б) Порядковая, или ординальная, шкала;

    в) Интервальная, или шкала равных интервалов;

    г) Шкала равных отношений.

    Шкала наименований . К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству. При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характеристик.

    Шкала порядка . Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка - это видно из ее названия - именно на эту последовательность переключается все внимание. К этой шкале в статистике относят такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше - меньше, выше - ниже и т.п.

    Шкала интервалов . К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Например, в опытах учитывалось, сколько точек могут поставить, работая с максимально доступной скоростью, испытуемые. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным поставить за отведенное время каждому участнику опытов. Главная трудность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повторных изменениях тождественной самой себе, т.е. одинаковой и неизменной.

    Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой ведется отчет. При изучении психологических объектов эта шкала практически неприменима.

    4. Статистические гипотезы. Формулирование гипотез систематизирует предположения исследователя и представляет их в четком и лаконичном виде. Благодаря гипотезам исследователь не теряет путеводной нити в процессе расчетов и ему легко понять после их окончания, что, собственно, он обнаружил. Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.

    Нулевая гипотеза - это гипотеза об отсутствий различий. Она обозначается как Н0 и называется нулевой потому, что содержит число 0: Х1 - Х2 = 0, где Х1, Х2 - сопоставляемые значения признаков. Нулевая гипотеза - это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.

    Альтернативная гипотеза - это гипотеза о значимости различий. Она обозначается как Н1. альтернативная гипотеза - это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.

    Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

    5. Статистические критерии. Статистический критерий - это правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью. Статистический критерий обозначает метод расчета определенного числа и само это число. Среди возможных статистических критериев выделяют: односторонние и двусторонние,

    параметрические и непараметрические, более и менее мощные.

    Параметрические критерии - это критерии, включающие в формулу расчета параметры распределения, то есть средние и дисперсии (t-критерий Стъюдента, критерий F и др.) Непараметрические критерии - это критерии, не включающие в формулу расчета параметров распределения и основанные на оперировании частотами или рангами (критерий-Q Розенбаума, критерий-Т Вилкоксона и др.)

    Параметрические критерии и непараметрические критерии имеют свои преимущества и недостатки.

    Параметрические критерии могут оказаться несколько более мощными, чем непараметрические, но только в том случае, если признак измерен по интервальной шкале и нормально распределен. Лишь с некоторой натяжкой мы можем считать данные, представленные в стандартизованных оценках, как интервальные. Кроме того, проверка распределения «на

    нормальность» требует достаточно сложных расчетов, результат которых заранее не известен. Может оказаться, что распределение признака отличается от нормального, и нам так или иначе все равно придется обратиться к непараметрическим критериям.

    Непараметрические критерии лишены всех этих ограничений и не требуют таких длительных и сложных расчетов. По сравнению с параметрическими критериями они ограничены лишь в одном – с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака. [ 1; 16 ]

    Статистический анализ экспериментальных данных

    Рассматрим в самых общих чертах три главных раздела статистики.

      Описательная статистика, как следует из названия, позволяет описывать, подытоживать и воспроизводить в виде таблиц или графиков данные того или иного распределения, вычислять среднее для данного распределения и его размах и дисперсию.

      Задача индуктивной статистики - проверка гипотезы о том, можно ли распространить результаты, полученные на данной выборке, на всю популяцию (генеральную совокупность), из которой взята эта выборка. Иными словами, правила этого раздела статистики позволяют выяснить, до какой степени можно путем индукции обобщить на большее число объектов ту или иную закономерность, обнаруженную при изучении их ограниченной группы в ходе какого-либо наблюдения или эксперимента. Таким образом, при помощи индуктивной статистики делают какие-то выводы и обобщения, исходя из данных, полученных при изучении выборки.

      Наконец, измерение корреляции позволяет узнать, насколько связаны между собой две переменные, с тем чтобы можно было предсказывать возможные значения одной из них, если мы знаем другую.

    Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. В частности, в обработке данных, получаемых при испытаниях по психологической диагностике, это будет информация индивидуально-психологических особенностях испытуемых.

    Методами статистической обработки результатов эксперимента называются математические приемы, формулы, способы количественных расчетов, с помощью которых показатели, получаемые в ходе эксперимента, можно обобщать, приводить в систему, выявляя скрытые в них закономерности. Речь идет о таких закономерностях статистического характера, которые существуют между изучаемыми в эксперименте переменными величинами.

    Некоторые из методов математико-статистического анализа позволяют вычислять так называемые элементарные математические статистики, характеризующие выборочное распределение данных, например, выборочное среднее, выборочная дисперсия, мода, медиана и ряд других. Иные методы математической статистики, например, дисперсионный анализ, регрессионный анализ, позволяют судить о динамике изменения отдельных статистик выборки. С помощью третьей группы методов, скажем, корреляционного анализа, факторного анализа, методов сравнения выборочных данных, можно достоверно судить о статистических связях, существующих между переменными величинами, которые исследуют в данном эксперименте.

    Все методы математико-статистического анализа условно делятся на первичные и вторичные. Первичными называют методы, с помощью которых можно получить показатели, непосредственно отражающие результаты производимых в эксперименте измерений. Соответственно под первичными статистическими показателями имеются в виду те, которые применяются в самих психодиагностических методиках и являются итогом начальной статистической обработки результатов психодиагностики. С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.

    Методы первичной статистической обработки результатов эксперимента

    К первичным методам статистической обработки относят, например, определение выборочной средней величины, выборочной дисперсии, выборочной моды и выборочной медианы. Рассмотрим методы вычисления элементарных математических статистик, начав с выборочного среднего.

    Выборочное среднее значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

    Дисперсия как статистическая величина характеризует, на сколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных. Иногда вместо дисперсии для выявления разброса частных данных относительно средней используют производную от дисперсии величину, называемую выборочное отклонение. Оно равно квадрат ному корню, извлекаемому из дисперсии, и обозначается тем же самым знаком, что и дисперсия, только без квадрата - :

    Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков.Модой называют количественное значение исследуемого признака, наиболее часто встречающегося в выборке.

    Выборочное среднее (среднее арифметическое) значение как статистический показатель представляет собой среднюю оценку изучаемого в эксперименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качества.

    Выборочное среднее определяется при помощи следующей формулы:

    где х - выборочная средняя величина или среднее арифметическое значение по выборке; n - количество испытуемых в выборке или частных психодиагностических показателей, на основе которых вычисляется средняя величина; х k - частные значения показателей у отдельных испытуемых. Всего таких показателей n, поэтому индекс k данной переменной принимает значения от 1 до n; ∑ - принятый в математике знак суммирования величин тех переменных, которые находятся справа от этого знака. Выражение соответственно означает сумму всех х с индексом k, от 1до n. В психодиагностике и в экспериментальных психолого-педагогических исследованиях среднее, как правило, не вычисляется с точностью, превышающей один знак после запятой, т.е. с большей, чем десятые доли единицы. В психодиагностических обследованиях большая точность расчетов не требуется и не имеет смысла, если принять во внимание приблизительность тех оценок, которые в них получаются, и достаточность таких оценок для производства сравнительно точных расчетов.

    Мода. Числовой характеристикой выборки, как правило, не требующей вычислений, является так называемая мода. Модой называют количественное значение исследуемого признака, наиболее часто встречающееся в выборке. Для симметричных распределений признаков, в том числе для нормального распределения, значение моды совпадает со значениями среднего и медианы. Для других типов распределении, несимметричных, это не характерно. К примеру, в последовательности значений признаков 1, 2, 5, 2, 4, 2, 6, 7, 2 модой является значение 2, так как оно встречается чаще других значений - четыре раза.

    Моду находят согласно следующим правилам:

    1) В том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 - в этой выборке моды нет.

    2) Когда два соседних (смежных) значения имеют одинаковую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений. Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1). Следовательно, модой этого ряда будет величина =3,5

    3) Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. Например, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодальной.

    Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод).

    4) Если мода оценивается по множеству сгруппированных данных, то для нахождения моды необходимо определить группу с наибольшей частотой признака. Эта группа называется модальной группой.

    Медиана. Медианой называется значение изучаемого признака, которое делит выборку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количеству признаков. Например, для выборки 2, 3, 4, 4, 5, 6, 8, 7, 9 медианой будет значение 5, так как слева и справа от него остается по четыре показателя. Если ряд включает в себя четное число признаков, то медианой будет среднее, взятое как полусумма величин двух центральных значений ряда. Для следующего ряда 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медиана будет равна 3,5.

    Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нормального распределения обычно совпадают или очень мало отличаются друг от друга. Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.

    Разброс выборки. Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т.е.

    R= х max - х min

    Понятно, что чем сильнее варьирует измеряемый признак, тем больше величина R, и наоборот. Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный. Например, даны две выборки:

    Х = 10 15 20 25 30 35 40 45 50X = 30 R = 40

    Y = 10 28 28 30 30 30 32 32 50 Y=30 R = 40

    При равенстве средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы более четко представлять характер варьирования выборок, следует обратиться к их распределениям.

    Дисперсия. Дисперсия - это среднее арифметическое квадратов отклонений значений переменной от её среднего значения.

    Дисперсия как статистическая величина характеризует, насколько частные значения отклоняются от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных.

    где 5 - выборочная дисперсия, или просто дисперсия;

    2 (……) - выражение, означающее, что для всех х, от первого до последнего в данной выборке необходимо вычислить разности между частными и средними значениями, возвести эти разности в квадрат и просуммировать;

    п - количество испытуемых в выборке или первичных значений, по которым вычисляется дисперсия. Однако сама дисперсия, как характеристика отклонения от среднего, часто неудобна для интерпретации.

    Стандартное отклонение. Для того, чтобы приблизить размерность дисперсии к размерности измеряемого признака применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называют стандартным отклонением.

    Из суммы квадратов, делённых на число членв ряда извлекаеся квадратный корень.

    Иными словами стандартное отклонение есть квадратный корень из дисперсии. Стандартное отклонение является более удобным показателем в

    отличие от дисперсии. Для многих распределений мы можем приблизительно

    знать, какой процент данных лежит внутри одного, двух, трех и более

    стандартных отклонений среднего. [ 3; 7 ]

    Иногда исходных частных первичных данных, которые подлежат статистической обработке, бывает довольно много, и они требуют проведения огромного количества элементарных арифметических операций. Для того чтобы сократить их число и вместе с тем сохранить нужную точность расчетов, иногда прибегают к замене исходной выборки частных эмпирических данных на интервалы. Интервалом называется группа упорядоченных по величине значений признака, заменяемая в процессе расчетов средним значением.

    Вторичные методы обработки материалов психологических исследований.

    С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики. Обсуждаемую группу методов можно разделить на несколько подгрупп:

    1. Регрессионное исчисление.

    2. Методы сравнения между собой двух или нескольких элементарных статистик (средних, дисперсий и т.п.), относящихся к разным выборкам.

    3. Методы установления статистических взаимосвязей между переменными, например их корреляции друг с другом.

    4. Методы выявления внутренней статистической структуры эмпирических данных (например, факторный анализ).

    Регрессионный анализ. Регрессионное исчисление - это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому линейному графику, приблизительно отражающему их внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой

    переменной [ 6;556 ].

    Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшие предсказания зависимой переменой (Y) по независимым переменным (X).

    Регрессию выражают с помощью двух уравнений регрессии, которые в самом прямом случае выглядят, как уравнения прямой.

    Y = a 0 + a 1 * X (1)

    X = b 0 + b 1 * Y (2)

    В уравнении (1) Y - зависимая переменная, X - независимая переменная, a 0 - свободный член, a 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

    В уравнении (2) X - зависимая переменная, Y - независимая переменная, b 0 - свободный член, b 1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

    Количественное представление связи (зависимости) между Х и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается в нахождении коэффициентов a 0, b 0, a1и b 1 и определении уровня значимости полученных аналитических выражений, связывающих между собой переменные Х и У.

    При этом коэффициенты регрессии a 1 и b 1 показывают, насколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициент регрессии a 1 в уравнении можно подсчитать по формуле:

    а коэффициент b 1 в уравнении по формуле

    где r yx - коэффициент корреляции между переменными X и Y;

    S x - среднеквадратическое отклонение, подсчитанное для переменной X;

    S y - среднеквадратическое отклонение, подсчитанное для переменной У/

    Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:

    1. Сравниваемые переменные Х и Y должны быть измерены в шкале интервалов или отношений.

    2. Предполагается, что переменные Х и Y имеют нормальный закон распределения.

    3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым. [ 4 ; 263 ].

    Корреляционный анализ. Следующий метод вторичной статистической обработки, посредством которого выясняется связь или прямая зависимость между двумя рядами экспериментальных данных, носит название метод корреляций. Он показывает, каким образом одно явление влияет на другое или связано с ним в своей динамике. Подобного рода зависимости существуют, к примеру, между величинами, находящимися в причинно-следственных связях друг с другом. Если выясняется, что два явления статистически достоверно коррелируют друг с другом и если при этом есть уверенность в том, что одно из них может выступать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости.

    Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идёт о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят об отрицательной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией.

    Имеется несколько разновидностей данного метода: линейный, ранговый, парный и множественный. Линейный корреляционный анализ позволяет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название "линейный". Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми местами, или рангами, занимаемыми ими в упорядоченном по величине ряду. Парный корреляционный анализ включает изучение корреляционных зависимостей только между парами переменных, а множественный, или многомерный, - между многими переменными одновременно. Распространенной в прикладной статистике формой многомерного корреляционного анализа является факторный анализ.

    Коэффициент линейной корреляции определяется при помощи следующей формулы:

    где r xy - коэффициент линейной корреляции;

    х, у - средние выборочные значения сравниваемых величин;

    х i , у i - частные выборочные значения сравниваемых величин;

    n - общее число величин в сравниваемых рядах показателей;

    S 2 x , S 2 y - дисперсии, отклонения сравниваемых величин от средних значений.К коэффициенту ранговой корреляции в психолого-педагогических исследованиях обращаются в том случае, когда признаки, между которыми устанавливается зависимость, являются качественно различными и не могут быть достаточно точно оценены при помощи так называемой интервальной измерительной шкалы. Большинство показателей, которые получают в психолого-педагогических исследованиях, относятся к порядковым, а не к интервальным шкалам (например, оценки типа "да", "нет", "скорее нет, чем да" и другие, которые можно переводить в баллы), поэтому коэффициент линейной корреляции к ним неприменим. В этом случае обращаются к использованию коэффициента ранговой корреляции, формула которого следующая:

    где R s - коэффициент ранговой корреляции по Спирмену;

    d i - разница между рангами показателей одних и тех же испытуемых в упорядоченных рядах;

    n - число испытуемых или цифровых данных (рангов) в коррелируемых рядах.

    Метод множественных корреляций в отличие от метода парных корреляций позволяет выявить общую структуру корреляционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух переменных, и представить эти корреляционные зависимости в виде некоторой системы.

    Для применения частного коэффициента корреляции необходимо соблюдать следующие условия:

    1. Сравниваемые переменные должны быть измерены в шкале интервалов или отношений.

    2. Предполагается, что все переменные имеют нормальный закон распределения.

    3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.

    4. Для оценки уровня достоверности корреляционного отношения Пирсона следует пользоваться формулой (11.9) и таблицей критических значений для t-критерия Стьюдента при k = n - 2. [ 4 ; 253 ] Корреляционный анализ позволяет обнаружить наличие связи но не даёт оснований для установления причинно- следственных отношений.

    Факторный анализ . Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

    Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, "сырых", экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

    Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению. Элементы факторной матрицы называется «факторными нагрузками или весами».При этом факторный вес демонстрирует меру или тесноту этой связи. [ 4; 276]

    С помощью выявленных факторов объясняют взаимозависимость психологических явлений.

    Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные. Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни). Общие - это факторы, у которых часть факторных нагрузок отлична от нуля. Единичные - это факторы, в которых существенно отличается от нуля только одна из нагрузок.

    Факторный анализ может быть уместен, если выполняются следующие критерии.

    1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.

    2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.

    3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.

    4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.

    5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.

    Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых. .

    В теоретическом плане использование факторного анализа связано с разработкой так называемого факторно-аналитического подхода к изучению структуры личности, темперамента и способностей. Использование факторного анализа в этих сферах основано на широко принятом допущении, согласно которому наблюдаемые и доступные для прямого измерения показатели являются лишь косвенными и/или частными внешними проявлениями более общих характеристик. Эти характеристики, в отличие от первых, являются скрытыми, так называемыми латентными переменными, поскольку они представляют собой понятия или конструкты, которые не доступны для прямого измерения. Однако они могут быть установлены путем факторизации корреляционных связей между наблюдаемыми чертами и выделением факторов, которые (при условии хорошей структуры) можно интерпретировать как статистическое выражение искомой латентной переменной.

    Заключение.

    Как говорит Мак-Коннелл, статистика - это прежде всего способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики. В нашей повседневной жизни мы, сами о том не догадываясь, постоянно занимаемся статистикой. Хотим ли мы спланировать бюджет, рассчитать потребление бензина автомашиной, оценить усилия, которые потребуются для усвоения какого-то курса, с учетом полученных до сих пор отметок, предусмотреть вероятность хорошей и плохой погоды по метеорологической сводке или вообще оценить, как повлияет то или иное событие на наше личное или совместное будущее, - нам постоянно приходится отбирать, классифицировать и упорядочивать информацию, связывать ее с другими данными так, чтобы можно было сделать выводы, позволяющие принять верное решение.
    Все эти виды деятельности мало отличаются от тех операций, которые лежат в основе научного исследования и состоят в синтезе данных, полученных на различных группах объектов в том или ином эксперименте, в их сравнении с целью выяснить черты различия между ними, в их сопоставлении с целью выявить показатели, изменяющиеся в одном направлении, и, наконец, в предсказании определенных фактов на основании тех выводов, к которым приводят полученные результаты. Именно в этом заключается цель статистики в науках вообще, особенно в гуманитарных. В последних нет ничего абсолютно достоверного, и без статистики выводы в большинстве случаев были бы чисто интуитивными и не могли бы составлять солидную основу для интерпретации данных, полученных в других исследованиях. Если данные, полученные в эксперименте, качественного характера, то правильность делаемых на основе их выводов полностью зависит от интуиции, эрудиции и профессионализма исследователя, а также от логики его рассуждений. Если же эти данные количественного типа, то сначала проводят их первичную, а затем вторичную статистическую обработку. Первичная статистическая обработка заключается в определении необходимого числа элементарных математических статистик. Такая обработка почти всегда предполагает как минимум определение выборочного среднего значения. В тех случаях, когда информативным показателем для экспериментальной проверки предложенных гипотез является разброс данных относительного среднего, вычисляется дисперсия или квадратическое отклонение. Значение медианы рекомендуется вычислять тогда, когда предполагается использовать методы вторичной статистической обработки, рассчитанные на нормальное распределение, Для такого рода распределения выборочных данных медиана, а также мода совпадают или достаточно близки к средней величине. Этим критерием можно воспользоваться для того, чтобы приблизительно судить о характере полученного распределения первичных данных.

    Вторичная статистическая обработка (сравнение средних, дисперсий, распределений данных, регрессионный анализ, корреляционный анализ, факторный анализ и др.) проводится в том случае, если для решения задач или доказательства предложенных гипотез необходимо определить статистические закономерности, скрытые в первичных экспериментальных данных. Приступая к вторичной статистической обработке, исследователь прежде всего должен решить, какие из различных вторичных статистик ему следует применить для обработки первичных экспериментальных данных. Решение принимается на основе учета характера проверяемой гипотезы и природы первичного материала, полученного в результате проведения эксперимента. Если экспериментальная гипотеза содержит предположение о том, что в результате проводимого психолого-педагогического исследования возрастут (или уменьшатся) показатели какого-либо качества, то для сравнения до - и постэкспериментальных данных рекомендуется использовать критерий Стъюдента или χ 2 -критерий. К последнему обращаются в том случае, если первичные экспериментальные данные относительны и выражены, например, в процентах.

    Если экспериментально проверяемая гипотеза включает в себя утверждение о причинно-следственной зависимости между некоторыми переменными, то её целесообразно проверять, обращаясь к коэффициентам линейной или ранговой корреляции. Линейная корреляция используется в том случае, когда измерения независимой и зависимой переменных производятся при помощи интервальной шкалы, а изменения этих переменных до и после эксперимента небольшие. К ранговой корреляции обращаются тогда, когда достаточно оценить изменения, касающиеся порядка следования друг за другом по величине независимых и зависимых переменных, или когда их изменения достаточно велики, или когда измерительный инструмент был порядковым, а не интервальным.

    Иногда гипотеза включает предположение о том, что в результате эксперимента возрастут или уменьшатся индивидуальные различия между испытуемыми. Такое предположение хорошо проверяется с помощью критерия Фишера, позволяющего сравнить дисперсии до и после эксперимента. Результаты количественного и качественного анализа материала, полученного в ходе проведения эксперимента, первичной и вторичной статистической обработки этого материала, используются для доказательства правильности предложенных гипотез. Выводы об их истинности являются логическим следствием доказательства, в процессе которого в качестве основного аргумента выступает безупречность логики самого доказательства, а в качестве фактов - то, что установлено в результате количественного и качественного анализа экспериментальных данных.

    Факты в ходе доказательства обязательно должны соотноситься с гипотезами. В процессе такого соотнесения выясняется, насколько полно имеющиеся факты доказывают, подтверждают предложенные гипотезы.

    В заключении хочется сказать, что психологу никогда не бывает скучно, потому что он всегда изучает и исследует – людей, ситуации, самого себя. Он постоянно ищет свой путь в выявлении новых закономерностей и фактов. Методы математической статистики могут оказать на этом пути неоценимую помощь, но они лишь средство. которое не должно заслонить собою цель. Необходимо помнить, что достоверная статистическая тенденция – это всё же не психологическая закономерность, что могут быть закономерности более высокого порядка, чем те что выявляются с помощью математических методов.

    Если продолжить аналогию С.Стивенса с верёвочной лестницей, то мы используем верёвочную лестницу чтобы подняться наверх, хотя знаем, что и без неё можем летать. Главное чтобы из-за привязанности к верёвочной лестнице мы не утратили этой способности к полёту..

    математической статистики . Строго говоря, для реализации регрессионного...
  • Математические методы экономики

    Реферат >> Экономико-математическое моделирование

    На основе статистических данных и с применением методов математической статистики . Оставляя подробное обсуждение этого вопроса... на основе статистических данных и с применением методов математической статистики . Оставляя подробное обсуждение этого вопроса...

  • Математические методы системы управления качеством продукции

    Реферат >> Менеджмент

    Качества в качестве математических методов рассматриваются преимущественно методы математической статистики . Отдельные отрасли, ... изменчивости отслеживаемых данных. Методы математической статистики способствуют эффективному применению имеющихся...

  • Методы педагогических исследований (4)

    Реферат >> Педагогика

    Широкое распространение в педагогических исследованиях получили методы математической статистики . С их помощью устанавливается, в частности, среднее...