Определение и применение корреляции

Рейтинг брокеров за 2020 год:

Коэффициент корреляции (Correlation coefficient) — это

Коэффициент корреляции — это статистический показатель зависимости двух случайных величин

Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение коэффициента корреляции

Структура публикации

Коэффициент корреляции — это, определение

Коэффициент корреляции — это статистический показатель зависимости двух случайных величин. Коэффициент корреляции может принимать значения от -1 до +1. При этом, значение -1 будет говорить об отсутствии корреляции между величинами, 0 — о нулевой корреляции, а +1 — о полной корреляции величин. Т.е., че ближе значение коэффициента корреляции к +1, тем сильнее связь мезду двумя случайными величинами.

Коэффициент корреляции — это корреляцинное отношение, математическая мера корреляции двух случайных величин. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Коэффициент корреляции — это мера линейной зависимости двух случайных величин в теории вероятностей и статистике. Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и её направление.

Коэффициент корреляции — это статистический показатель, показывающий, насколько связаны между собой колебания значений двух других показателей. Например, насколько движение доходности ПИФа связано, перекликается (коррелирует) с движением индекса, выбранного для расчета коэффициента бета для этого ПИФа. Чем ближе значение коэффициента корреляции к 1, тем больше коррелируют ПИФ и индекс, а значит коэффициент бета и, следовательно, коэффициент альфа можно принимать к рассмотрению. Если значение этого коэффициента корреляции меньше 0,75, то указанные показатели бессмысленны.

Коэффициент корреляции — это математическая мера корреляции двух величин. В том случае, когда изменение одной из величин не приводит к закономерному изменению другой величины, то можно говорить об отсутствии корреляции между этими величинами. Коэффициенты корреляции могут быть положительными и отрицательными. Если при увеличении значения одной величины происходит уменьшение значений другой величины, то их коэффициент корреляции отрицательный. В случае, когда увеличение значений первого объекта наблюдения приводит к увеличениям значения второго объекта, то можно говорить о положительном коэффициенте.

Коэффициент корреляции — это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной — минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Коэффициент корреляции — это показатель связи между двумя переменными. Расчёты подобных двумерных критериев взаимосвязи основываются на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.

Коэффициент корреляции — это сила и направление связи между независимой и зависимой переменными. Значения r находятся в диапазоне между — 1.0 и + 1.0. Когда r имеет положительное значение, связь между х и у является положительной, а когда значение r отрицательно, связь также отрицательна. Коэффициент корреляции, близкий к нулевому значению, свидетельствует о том, что между х и у связи не существует.

Коэффициент корреляции — это объективный показатель, свидетельствующий о наличии или отсутствии связи между переменными, и измеряющий выраженность этой связи. Коэффициент корреляции был предложен как инструмент, с помощью которого можно проверить гипотезу о зависимости и измерить силу зависимости двух переменных. Сразу заметим, что коэффициент корреляции оказался не идеальным инструментом, он пригоден лишь для измерения силы линейной зависимости.

Белый список русскоязычных брокеров:

Коэффициент корреляции — это инструмент, с помощью которого можно проверить гипотезу о зависимости и измерить силу зависимости двух переменных. Если распределение переменных нормальное или несущественно отличается от нормального, применяют коэффициент корреляции Пирсона. Для порядковых (ранговых) переменных или переменных, чье распределение существенно отличается от нормального, используется коэффициент корреляции Спирмана или Кендалла. Имейте в виду, существуют и другие коэффициенты.

Для чего нужен коэффициент корреляции?

Связь, которая существует между случайными величинами разной природы, например, между величиной Х и величиной Y, не обязательно является следствием прямой зависимости одной величины от другой (так называемая функциональная связь). В некоторых случаях обе величины зависят от целой совокупности разных факторов, общих для обеих величин, в результате чего и формируется связанные друг с другом закономерности. Когда связь между случайными величинами обнаружена с помощью статистики, мы не можем утверждать, что обнаружили причину происходящего изменения параметров, скорее мы лишь увидели два взаимосвязанных следствия.

Например, дети, которые чаще смотрят по телевизору американские боевики, меньше читают. Дети, которые больше читают, лучше учатся. Не так-то просто решить, где тут причины, а где следствия, но это и не является задачей статистики. Статистика может лишь, выдвинув гипотезу о наличии связи, подкрепить ее цифрами. Если связь действительно имеется, говорят, что между двумя случайными величинами есть корреляция. Если увеличение одной случайной величины связано с увеличением второй случайной величины, корреляция называется прямой. Например, количество прочитанных страниц за год и средний балл (успеваемость). Если, напротив рост одной величины связано с уменьшением другой, говорят об обратной корреляции. Например, количество боевиков и количество прочитанных страниц.

Взаимная связь двух случайных величин называется корреляцией, корреляционный анализ позволяет определить наличие такой связи, оценить, насколько тесна и существенна эта связь. Все это выражается количественно.

Как определить, есть ли корреляция между величинами? В большинстве случаев, это можно увидеть на обычном графике. Например, по каждому ребенку из нашей выборки можно определить величину Хi (число страниц) и Yi (средний балл годовой оценки), и записать эти данные в виде таблицы. Построить оси Х и Y, а затем нанести на график весь ряд точек таким образом, чтобы каждая из них имела определенную пару координат (Хi, Yi) из нашей таблицы. Поскольку мы в данном случае затрудняемся определить, что можно считать причиной, а что следствием, не важно, какая ось будет вертикальной, а какая горизонтальной.

Если график имеет вид а), то это говорит о наличии прямой корреляции, в случае, если он имеет вид б) — корреляция обратная. Отсутствие корреляции тоже можно приблизительно определить по виду графика — это случай в). С помощью коэффициента корреляции можно посчитать насколько тесная связь существует между величинами. Пусть, существует корреляция между ценой и спросом на товар. Количество купленных единиц товара в зависимости от цены у разных продавцов показано в таблице:

Видно, что мы имеем дело с обратной корреляцией. Для количественной оценки тесноты связи используют коэффициент корреляции. Коэффициент r мы считаем в Excel, с помощью функции fx, далее статистические функции, функция КОРРЕЛ. По подсказке программы вводим мышью в два соответствующих поля два разных массива (Х и Y). В нашем случае коэффициент корреляции получился r= — 0,988. Надо отметить, что чем ближе к 0 коэффициент корреляции, тем слабее связь между величинами. Наиболее тесная связь при прямой корреляции соответствует коэффициенту r, близкому к +1. В нашем случае, корреляция обратная, но тоже очень тесная, и коэффициент близок к -1.

Что можно сказать о случайных величинах, у которых коэффициент имеет промежуточное значение? Например, если бы мы получили r=0,65. В этом случае, статистика позволяет сказать, что две случайные величины частично связаны друг с другом. Скажем на 65% влияние на количество покупок оказывала цена, а на 35% — другие обстоятельства.

И еще одно важное обстоятельство надо упомянуть. Поскольку мы говорим о случайных величинах, всегда существует вероятность, что замеченная нами связь — случайное обстоятельство. Причем вероятность найти связь там, где ее нет, особенно велика тогда, когда точек в выборке мало, а при оценке Вы не построили график, а просто посчитали значение коэффициента корреляции на компьютере. Так, если мы оставим всего две разные точки в любой произвольной выборке, коэффициент корреляции будет равен или +1 или -1. Из школьного курса геометрии мы знаем, что через две точки можно всегда провести прямую линию. Для оценки статистической достоверности факта обнаруженной Вами связи полезно использовать так называемую корреляционную поправку:

В то время как задача корреляционного анализа — установить, являются ли данные случайные величины взаимосвязанными, цель регрессионного анализа — описать эту связь аналитической зависимостью, т.е. с помощью уравнения. Мы рассмотрим самый несложный случай, когда связь между точками на графике может быть представлена прямой линией. Зная уравнение прямой, мы можем находить значение функции по значению аргумента в тех точках, где значение Х известно, а Y — нет. Эти оценки бывают очень нужны, но они должны использоваться осторожно, особенно, если связь между величинами не слишком тесная. Отметим также, что из сопоставления формул для b и r видно, что коэффициент не дает значение наклона прямой, а лишь показывает сам факт наличия связи.

Термин «корреляция» означает «связь». В эконометрике этот термин обычно используется в сочетании «коэффициенты корреляции». Рассмотрим линейный и непараметрические парные коэффициенты корреляции. Обсудим способы измерения связи между двумя случайными переменными. Пусть исходными данными является набор случайных векторов:

Выборочным коэффициентом корреляции, более подробно, выборочным линейным парным коэффициентом корреляции К. Пирсона, как известно, называется число:

Таким образом, близость коэффициента корреляции к 1 (по абсолютной величине) говорит о достаточно тесной линейной связи. Если случайные векторанезависимы и одинаково распределены, то выборочный коэффициент корреляции сходится к теоретическому при безграничном возрастании объема выборки (сходимость по вероятности):

Более того, выборочный коэффициент корреляции является асимптотически нормальным. Это означает, что

Она имеет довольно сложное выражение:

где теоретические центральные моменты порядка k и m:

Коэффициенты корреляции типа rn используются во многих алгоритмах многомерного статистического анализа. В теоретических рассмотрениях часто считают, что случайные вектора имеют двумерное нормальное распределение. Распределения реальных данных, как правило, отличны от нормальных. Почему же распространено представление о двумерном нормальном распределении? Дело в том, что теория в этом случае проще. В частности, равенство 0 теоретического коэффициента корреляции эквивалентно независимости случайных величин. Поэтому проверка независимости сводится к проверке статистической гипотезы о равенстве 0 теоретического коэффициента корреляции. Эта гипотеза принимается, если

Если предположение о двумерной нормальности не выполнено, то из равенства 0 теоретического коэффициента корреляции не вытекает независимость случайных величин. Нетрудно построить пример случайного вектора, для которого коэффициент корреляции равен 0, но координаты зависимы. Кроме того, для проверки гипотез о коэффициенте корреляции нельзя пользоваться таблицами, рассчитанными в предположении нормальности. Можно построить правила принятия решений на основе асимптотической нормальности выборочного коэффициента корреляции. Но есть и другой путь — перейти к непараметрическим коэффициентам корреляции, одинаково пригодным при любом непрерывном распределении случайного вектора.

Для расчета непараметрического коэффициента ранговой корреляции Спирмена необходимо сделать следующее. Для каждого xi рассчитать его ранг ri в вариационном ряду, построенном по выборке Для каждого yi рассчитать его ранг qi в вариационном ряду, построенном по выборке Для набора из n пар (ri, qi), i=1,2. n вычислить линейный коэффициент корреляции. Он называется коэффициентом ранговой корреляции, поскольку определяется через ранги.В качестве примера рассмотрим данные из таблицы:

Для данных таблицы коэффициент линейной корреляции равен 0,83, непосредственной линейной связи нет. А вот коэффициент ранговой корреляции равен 1, поскольку увеличение одной переменной однозначно соответствует увеличению другой переменной. Во многих экономических задачах, например, при выборе инвестиционных проектов, достаточно именно монотонной зависимости одной переменной от другой.

Поскольку суммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговой корреляции Спирмена равен

Отметим, что коэффициент ранговой корреляции Спирмена остается постоянным при любом строго возрастающем преобразовании шкалы измерения результатов наблюдений. Другими словами, он является адекватным в порядковой шкале, как и другие ранговые статистики, например, статистики Вилкоксона, Смирнова, типа омега-квадрат для проверки однородности независимых выборок.

Широко используется также коэффициент ранговой корреляции Кендалла, коэффициент ранговой конкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этой тематики содержится в монографии, необходимые для практических расчетов таблицы имеются в справочнике. Дискуссия о выборе вида коэффициентов корреляции продолжается до настоящего времени.

Формула и переменные коэффициента корреляции

Коэффициент корреляции показывает степень статистической зависимости между двумя числовыми переменными. Он вычисляется следующим образом:

где n — количество наблюдений, x — входная переменная, y — выходная переменная. Значения коэффициента корреляции всегда расположены в диапазоне от -1 до 1 и интерпретируются следующим образом:

— если коэффициент корреляции близок к 1, то между переменными наблюдается положительная корреляция. Иными словами, отмечается высокая степень связи входной и выходной переменных. В данном случае, если значения входной переменной x будут возрастать, то и выходная переменная также будет увеличиваться;

— если коэффициент корреляции близок к -1, это означает, что между переменными наблюдается отрицательная корреляция. Иными словами, поведение выходной переменной будет противоположным поведению входной. Если значение x будет возрастать, то y будет уменьшаться, и наоборот;

— промежуточные значения, близкие к 0, будут указывать на слабую корреляцию между переменными и, соответственно, низкую зависимость. Иными словами, поведение входной переменной x не будет совсем (или почти совсем) влиять на поведение y.

Коэффициент корреляции равен квадратному корню коэффициента детерминации, поэтому может применяться для оценки значимости регрессионных моделей. Очевидно, что если корреляция между переменными высокая, то, зная поведение входной переменной, проще предсказать поведение выходной, и полученное предсказание будет точнее (говорят, что входная переменная хорошо «объясняет» выходную). Однако, чем выше корреляция наблюдается между переменными, тем очевиднее связь между ними, например, взаимозависимость между ростом и весом людей, однако данное соотношение настолько очевидно, что не представляет интереса.

Пусть X,Y — две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:

где cov обозначает ковариацию, а D — дисперсию, или, что то же самое,

где символ Е обозначает мат ожидание.

1. Ковариация (корреляционный момент, ковариационный момент) в теории вероятностей и математической статистике мера линейной зависимости двух случайных величин. Пусть X, Y — две случайные величины, определённые на одном и том же вероятностном пространстве. Тогда их ковариация определяется следующим образом:

Предполагается, что все математические ожидания Е в правой части данного выражения определены.

Пусть X1, X2. Xn, Y1, Y2. Yn — выборки Xn и Yn случайных величин, определённых на одном и том же вероятностном пространстве. Тогда ковариацией между выборками Xn и Yn является:

Если ковариация положительна, то с ростом значений одной случайной величины, значения второй имеют тенденцию возрастать, а если знак отрицательный — то убывать. Однако только по абсолютному значению ковариации нельзя судить о том, насколько сильно величины взаимосвязаны, так как её масштаб зависит от их дисперсий. Масштаб можно отнормировать, поделив значение ковариации на произведение среднеквадратических отклонений (квадратных корней из дисперсий). При этом получается так называемый коэффициент корреляции Пирсона, который всегда находится в интервале от -1 до 1.

Случайные величины, имеющие нулевую ковариацию, называются некоррелированными. Независимые случайные величины всегда некоррелированы, но не наоборот. Обсудим достоинства и недостатки ковариации, как величины, характеризующей зависимость двух случайных величин.

1. Если ковариация отлична от нуля, то случайные величины зависимы. Чтобы судить о наличии зависимости согласно любому из определений независимости, требуется знать совместное распределение пары случайных величин. Но найти совместное распределение часто бывает сложнее, чем посчитать мат. ожидание произведения случайных величин. Если нам повезёт, и мат ожидание произведения случайных величин не будет равняться произведению их математических ожиданий, мы скажем, что случайные величины зависимы, не находя их совместного распределения! Это очень хорошо.

2. Величина ковариации не является «безразмерной»: если е — объем газа в сосуде, а n — давление этого газа, то ковариация измеряется в м3Па. Иначе говоря, при умножении этих величин на какое-нибудь число ковариация тоже умножается на это число. Но умножение на число не сказывается на «степени зависимости» величин (они от этого «более зависимыми» не становятся), так что большое значение ковариации не означает более сильной зависимости. Это очень плохо.

Нужно как-то нормировать ковариацию, получив из неё «безразмерную» величину, абсолютное значение которой: не менялось бы при умножении случайных величин на число и свидетельствовало бы о «силе зависимости» случайных величин.

Замечание: Говоря о «силе» зависимости между случайными величинами, мы имеем в виду следующее. Самая сильная зависимость — функциональная, а из функциональных — линейная зависимость, когда:

Бывают гораздо более слабые зависимости. Так, если по последовательности независимых случайных величин построить величины:

то эти величины зависимы, но очень «слабо»: через единственное общее слагаемое Е25. Сильно ли зависимы число гербов в первых двадцати пяти подбрасываниях монеты и число гербов в испытаниях с двадцать пятого по девяностое? Итак, следующая величина есть всего лишь ковариация, нормированная нужным образом.

Теорема (неравенство Коши — Буняковского):

Ковариационная матрица (или матрица ковариаций) в теории вероятностей — это матрица, составленная из попарных ковариаций элементов одного или двух случайных векторов. Ковариационная матрица случайного вектора — квадратная симметрическая матрица, на диагонали которой располагаются дисперсии компонент вектора, а внедиагональные элементы — ковариациями между компонентами.

Такая матрица ковариации является обобщением дисперсии для многомерной случайной величины, а ее след — скалярным выражением дисперсии многомерной случайной величины. Собственные векторы и собственные числа этой матрицы позволяют оценить размеры и форму облака распределения такой случайной величины, аппроксимировав его эллипсоидом (или эллипсом в двумерном случае).

Свойства мартиц ковариации:

2. Математическое ожидание. Рассмотрим случайную величину с числовыми значениями. Часто оказывается полезным связать с этой функцией число — ее «среднее значение» или, как говорят, «среднюю величину», «показатель центральной тенденции». По ряду причин, некоторые из которых будут ясны из дальнейшего, в качестве «среднего значения» обычно используют математическое ожидание.

Определение 1. Математическим ожиданием случайной величины Х называется число:

т.е. мат. ожидание случайной величины — это взвешенная сумма значений случайной величины с весами, равными вероятностям соответствующих элементарных событий.

Пример. Вычислим мат ожидание числа, выпавшего на верхней грани игрального кубика. Непосредственно из определения 1 следует, что

Утверждение 2. Пусть случайная величина Х принимает значения х1, х2,…, хm. Тогда справедливо равенство:

т.е. математическое ожидание случайной величины — это взвешенная сумма значений случайной величины с весами, равными вероятностям того, что случайная величина принимает определенные значения. В отличие от (4), где суммирование проводится непосредственно по элементарным событиям, случайное событие

может состоять из нескольких элементарных событий. Иногда соотношение принимают как определение мат. ожидания. Однако с помощью определения, как показано далее, более легко установить свойства мат ожидания, нужные для построения вероятностных моделей реальных явлений, чем с помощью соотношения. Для доказательства соотношения сгруппируем в члены с одинаковыми значениями случайной величины:

Поскольку постоянный множитель можно вынести за знак суммы, то

По определению вероятности события:

С помощью двух последних соотношений получаем требуемое:

Понятие мат. ожидания в вероятностно-статистической теории соответствует понятию центра тяжести в механике. Поместим в точки х1, х2,…, хm на числовой оси массы P(X=x1), P(X=x2),…, P(X=xm) соответственно. Тогда равенство показывает, что центр тяжести этой системы материальных точек совпадает с мат. ожиданием, что показывает естественность определения.

Утверждение 3. Пусть Х — случайная величина, М(Х) — ее мат ожидание, а — некоторое число. Тогда:

Для доказательства рассмотрим сначала случайную величину, являющуюся постоянной, т.е. функция отображает пространство элементарных событий в единственную точку. Поскольку постоянный множитель можно выносить за знак суммы, то

Если каждый член суммы разбивается на два слагаемых, то и вся сумма разбивается на две суммы, из которых первая составлена из первых слагаемых, а вторая — из вторых. Следовательно, мат ожидание суммы двух случайных величин Х+У, определенных на одном и том же пространстве элементарных событий, равно сумме математических ожиданий М(Х) и М(У) этих случайных величин:

Упростим последнее равенство. Как показано в начале доказательства утверждения 3, математическое ожидание константы — сама эта константа. Поскольку постоянный множитель можно выносить за знак суммы и правая часть последнего равенства равна 0:

Из сказанного вытекает

поскольку второе слагаемое в равенстве 3) всегда неотрицательно и равно 0 только при указанном значении а.

Утверждение 4. Пусть случайная величина Х принимает значения х1, х2,…, хm, а f — некоторая функция числового аргумента. Тогда

Для доказательства сгруппируем в правой части равенства, определяющего мат. ожидание, члены с одинаковыми значениями:

Пользуясь тем, что постоянный множитель можно выносить за знак суммы, и определением вероятности случайного события, получаем:

что и требовалось доказать.

Утверждение 5. Пусть Х и У — случайные величины, определенные на одном и том же пространстве элементарных событий, а и b — некоторые числа. Тогда

С помощью определения мат ожидания и свойств символа суммирования получаем цепочку равенств:

Выше показано, как зависит мат. ожидание от перехода к другому началу отсчета и к другой единице измерения, а также к функциям от случайных величин. Полученные результаты постоянно используются в технико-экономическом анализе, при оценке финансово-хозяйственной деятельности предприятия, при переходе от одной валюты к другой во внешнеэкономических расчетах, в нормативно-технической документации и др. Рассматриваемые результаты позволяют применять одни и те же расчетные формулы при различных параметрах масштаба и сдвига.

3. Дисперсия. Мат ожидание показывает, вокруг какой точки группируются значения случайной величины. Необходимо также уметь измерить изменчивость случайной величины относительно мат ожидания.

Определение 5. Дисперсией случайной величины Х называется число

Установим ряд свойств дисперсии случайной величины, постоянно используемых в вероятностно-статистических методах принятия решений. Утверждение 8. Пусть Х — случайная величина, а и b — некоторые числа,

Поскольку постоянный множитель можно выносить за знак суммы, то

Утверждение 8 показывает, в частности, как меняется дисперсия результата наблюдений при изменении начала отсчета и единицы измерения. Оно дает правило преобразования расчетных формул при переходе к другим значениям параметров сдвига и масштаба.

Утверждение 9. Если случайные величины Х и У независимы, то дисперсия их суммы Х+У равна сумме дисперсий. Для доказательства воспользуемся тождеством:

которое вытекает из известной формулы элементарной алгебры:

Из утверждений 3 и 5 и определения дисперсии следует, что:

Согласно утверждению 6 из независимости Х и У вытекает независимость Х-М(Х) и У-М(У). Из утверждения 7 следует, что:

Из утверждения 3 правая часть последнего равенства равна 0, откуда с учетом двух предыдущих равенств и следует заключение утверждения 9.

Утверждение 10. Пусть X1, X2,…, Xk — попарно независимые случайные величины. Пусть Yk — их сумма, тогда мат ожидание суммы равно сумме математических ожиданий слагаемых, дисперсия суммы равна сумме дисперсий слагаемых:

Соотношения, сформулированные в утверждении 10, являются основными при изучении выборочных характеристик, поскольку результаты наблюдений или измерений, включенные в выборку, обычно рассматриваются в математической статистике, теории принятия решений и эконометрике как реализации независимых случайных величин.

Для любого набора числовых случайных величин (не только независимых) математическое ожидание их суммы равно сумме их математических ожиданий. Это утверждение является обобщением утверждения 5. Строгое доказательство легко проводится методом математической индукции.

При выводе формулы для дисперсии D(Yk) воспользуемся следующим свойством символа суммирования:

Воспользуемся теперь тем, что мат. ожидание суммы равно сумме математических ожиданий:

Как показано при доказательстве утверждения 9, из попарной независимости рассматриваемых случайных величин следует, что

Следовательно, в сумме (8) остаются только члены с i=j, а они равны как раз D(Xi). Полученные в утверждениях 8-10 фундаментальные свойства таких характеристик случайных величин, как мат ожидание и дисперсия, постоянно используются практически во всех вероятностно-статистических моделях реальных явлений и процессов.

Пример 9. Рассмотрим событие А и случайную величину Х такую, что

Воспользуемся формулой для математического ожидания. Случайная величина Х принимает два значения — 0 и 1, значение 1 с вероятностью Р(А) и значение 0 с вероятностью 1 — Р(А), а потому:

Вынося общий множитель, получаем, что:

Пример 10. Рассмотрим k независимых испытаний, в каждом из которых некоторое событие А может наступить, а может и не наступить. Введем случайные величины X1, X2,…, Xk следующим образом:

Тогда случайные величины X1, X2,…, Xk попарно независимы. Как показано в примере 9

Иногда р называют «вероятностью успеха» — в случае, если наступление события А рассматривается как «успех».

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков — критерий хи-квадрат.

Свойства коэффициента корреляции

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (Xi, Yi), полученную при совместномизмерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

Коэффициенты корреляции — удобный показатель связи, получивший широкое применение в практике. К их основным свойствам необходимо отнести следующие:

1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи.

2. Значения коэффициентов корреляции — это отвлеченные числа, лежащее в пределах от -1 до +1.

3. При независимом варьировании признаков, когда связь между ними отсутствует.

4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+) знак и находится в пределах от 0 до +1.

5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (-) знаком и находится в пределах от 0 до -1.

6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если коэффициент корреляции + — 1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y.

7. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

В практической деятельности, когда число коррелируемых пар признаков Х и Y невелико, то при оценке зависимости между показателями используется следующую градацию:

— высокая степень взаимосвязи — значения коэффициента корреляции находится в пределах от 0,7 до 0,99;

— средняя степень взаимосвязи — значения коэффициента корреляции находится в пределах от 0,5 до 0,69;

— слабая степень взаимосвязи — значения коэффициента корреляции находится от 0,2 до 0,49.

Оценка корреляционной связи по коэффициенту корреляции

При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в реальной действительности на изменение результативного признака влияют несколько факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий в качестве главного, решающего фактора может выступать другой.

При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. А вопрос необходимо ли вообще изучать более подробно данную связь и практически ее использовать, решается с учетом степени тесноты связи. Зная количественную оценку тесноты корреляционной связи, таким образом, можно решить следующую группу вопросов: необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение; сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях; последовательное рассмотрение и сравнение признака у с различными факторами (х1, х21, …) позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами;

Показатели тесноты связи должны удовлетворять ряду основных требований: величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует; при наличии между изучаемыми признаками (х и у) функциональной связи величина степень тесноты связи равна единице; при наличии между признаками (х и у) корреляционной связи показатель тесноты связи выражается правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице); при прямолинейной корреляционной связи показатели тесноты связи отражают и направление связи: знак (+) означает наличие прямой (положительной) связи; а знак (-) — обратной (отрицательной).

Для характеристики степени тесноты корреляционной связи могут применяться различные статистические показатели: коэффициент Фехнера (КФ), коэффициент линейной (парной) корреляции (r), коэффициент детерминации, корреляционное отношение ( ), индекс корреляции, коэффициент множественной корреляции (R), коэффициент частной корреляции (r) и др. В данном вопросе рассмотрим коэффициент линейной корреляции (r) и корреляционное отношение.

Более совершенным статистических показателем степени тесноты корреляционной связи является линейный коэффициент корреляции (r), предложенный в конце XIX в. При расчете коэффициента корреляции сопоставляются абсолютные значения отклонений индивидуальных величин факториального признака х и результативного признака у от их средних.

Однако непосредственно сопоставлять между собой эти полученные результаты нельзя, т.к. признаки, как правило, выражены в различных единицах и даже при наличии одинаковых единиц измерения будут иметь различные по величине средние и различные вариации. В этой связи сравнению подлежат отклонения, выраженные в относительных величинах, т.е. в долях среднего квадратического отклонения (их называют нормированными отклонениями).

На практике коэффициент корреляции используется как некоторый «градусник», который показывает «ноль» в случае независимости переменных, плюс единицу в случае прямой линейной зависимости переменных и минус единицу в случае обратной линейной зависимости переменных. Значения коэффициента, находящиеся между нулем и единицей понимаются (с математической точки зрения необосновано!) так: чем ближе значение коэффициента корреляции к нулю, тем слабее зависимость, чем ближе к (плюс или минус) единице — тем сильнее зависимость. Отметим, что речь идет лишь об интерпретации свойств коэффициента корреляции, при этом аналитик далеко выходит за рамки математически точных утверждений.

Важно! Принято считать, что чем cor(x,y) ближе по модулю к 1, тем ближе связь между анализируемыми переменными к линейной. Если величина cor(x,y) близка к -1, то связь обратная (С возрастанием переменной х переменная у убывает). Если величина cor(x,y) близка к +1, то связь прямая (С возрастанием переменной х переменная у возрастает).

Обычно задается вопрос, какие значения коэффициента корреляции указывают на сильную зависимость, а какие на слабую. Этот вопрос не имеет ответа. Строгая теория по этому поводу ничего не говорит. Тем не менее, во многих пособиях приводится ответ, но к огорчению новичков, в каждой книге ответ свой! Отчасти это связано с тем, что в разных дисциплинах сложились разные традиции интерпретации коэффициента.

Имейте в виду, что значения, приведенные в таблице, могут служить лишь неточными ориентирами. Заметьте, что в таблице рассматривается модуль коэффициента корреляции.

Взаимосвязь должна интерпретироваться в оба направления. Формально, корреляция не обозначает причинно-следственной связи! Это ВЗАИМОсвязь, ВЗАИМОсовпадение, явлений. Возвращаясь к примеру: застенчивость взаимосвязана с депрессивностью. Логично подумать, что депрессивный человек более застенчив, чем не депрессивный, но почему не наоборот? С чего начинать рассуждение? Мы интерпретируем корреляцию в оба направления и не констатируем причинно-следственную связь. Пишем «кореляция», «взаимосвязь», подразумеваем — совпадение. Причем сильная корреляция обозначает неслучайное совпадение.

Есть случаи, когда корреляция может говорить о причинно следственной связи. Это случаи, когда одна из переменых общективна, а вторая субъективна. К объективным переменным относятся возраст, стаж, рост, которые просто не могут зависеть от субъективных переменных: настроения, особенностей личности, мотивации и т.д. Однако, такие объективные переменные, как вес, количество детей в семье, частота смены места работы, количество контактов и т.п. могут и часто зависят от субъективных психологических показателей.

К примеру, профессионализм рабочего повышается со стажем. Стаж и профессионализм коррелируют и мы можем быть уверены, что для повышения профессионализма стаж является объективной причиной. Объективные переменные, основанные на времени всегда являются причиной при наличии корреляции с субъективными характеристиками. В остальных случаях нужно очень осторожно относиться к причинно-следственным интерпретациям коэффициента корреляции.

Если причинно-следственная связь обоснована в теоретической части работы и подтверждается многими авторами, то корреляцию так же можно интерпретировать как причинно-следственную связь.

— прямая положительная и отрицательная взаимосвязь. Два явления непосредственно совпадают, поэтому взаимосвязаны. Интеллект и успеваемость в школе, общительность и застенчивость — яркие примеры прямой взаимосвязи;

— косвеная взаимосвязь. Два явления сильно коррелируют с третьим, поэтому между собой так же имеют корреляцию. К примеру, стиль общения ребенка взаимосвязан со стилем воспитания в семье за счет третьей переменной — установок личности. Очевидно, что воспитание в семье формирует установки ребенка, в свою очередь установки влияют на поведение;

— нулевая корреляция. Предполагает отсутствие закономерной взаимосвязи между переменными;

— сучайная взаимосвязь. Корреляция может быть случайной! Очень многие процессы происходят одновременно и совпадают. Здесь уместно сказать, что если много-много коррелировать — что нибудь обязательно скоррелируется.

Значения коэффициента корреляции

Значимость коэффициента корреляции. Выборочный коэффициент корреляции Пирсона является оценкой генерального коэффициента корреляции. В данном случае решается следующий вопрос. Может ли выборочный коэффициент корреляции случайно отличаться от нуля, а в действительности случайные переменные Х и Y — некоррелированы?

Решение этого вопроса дается с помощью распределения вероятностей для выборочного коэффициента корреляции при условии, что генеральный коэффициент корреляции = 0. Существует таблица случайных отклонений от нуля произведения

в зависимости от вероятности Р и объема выборки n.

Если выборочный коэффициент корреляции окажется больше приведенного в таблице граничного значения, то с надежностью Р можно утверждать, что генеральный коэффициент корреляции ρ(X,Y) отличен от нуля. Значимость коэффициента корреляции можно проверить, решив следующую задачу проверки гипотез. Выдвигаются гипотезы:

Задается уровень значимости. Статистика Т определяется по формуле:

где n — число пар данных. Статистика Т подчиняется t-распределению Стьюдента с n-2 числом степеней свободы. По таблице t-распределения определяется:

Если Т, полученное по выборке, удовлетворяет условию, то отвергается и коэффициент корреляции считается значимым. При проверке значимости коэффициента корреляции рангов исходят из того, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи между переменными, при n>10 , статистика:

имеет t-распределение Стьюдента с k=n-2 степенями свободы. Коэффициент корреляции значим на уровне а, если фактически наблюдаемое значение t будет больше критического по абсолютной величине:

При интерпретации коэффициента корреляции следует понимать, что:

— корреляция между двумя случайными величинами может быть вызвана влиянием других факторов, и для объяснения полученных результатов нужно хорошо знать область приложения;

— корреляция как формальное статистическое понятие не вскрывает причинного характера связи, т. е. нельзя указать, какую переменную принимать в качестве причины, а какую — в качестве следствия.

Относительная сила зависимости, или связи, между двумя переменными, образующими двумерную выборку, измеряется коэффициентом корреляции, изменяющимся от -1 для идеальной обратной зависимости до +1 для идеальной прямой зависимости. Коэффициент корреляции обозначается греческой буквой ρ. Линейность корреляции означает, что все точки, изображенные на диаграмме разброса, лежат на прямой. На панели А изображена обратная линейная зависимость между переменными X и Y. Таким образом, коэффициент корреляции ρ равен -1, т.е., когда переменная X возрастает, переменная Y убывает. На панели Б показана ситуация, в которой между переменными X и Y нет корреляции. В этом случае коэффициент корреляции ρ равен 0, и, когда переменная X возрастает, переменная Y не проявляет никакой определенной тенденции: она ни убывает, ни возрастает. На панели В изображена линейная прямая зависимость между переменными X и Y. Таким образом, коэффициент корреляции ρ равен +1, и, когда переменная X возрастает, переменная Y также возрастает.

При анализе выборок, содержащих двумерные данные, вычисляется выборочный коэффициент корреляции, который обозначается буквой r. В реальных ситуациях коэффициент корреляции редко принимает точные значения -1, 0 и +1. На рисунке приведены шесть диаграмм разброса и соответствующие коэффициенты корреляции r между 100 значениями переменных X и Y.

На панели А показана ситуация, в которой выборочный коэффициент корреляции r равен -0,9. Прослеживается четко выраженная тенденция: небольшим значениям переменной X соответствуют очень большие значения переменной Y, и, наоборот, большим значениям переменной X соответствуют малые значения переменной Y. Однако данные не лежат на одной прямой, поэтому зависимость между ними нельзя назвать линейной. На панели Б приведены данные, выборочный коэффициент корреляции между которыми равен -0,6. Небольшим значениям переменной X соответствуют большие значения переменной Y. Обратите внимание на то, что зависимость между переменными X и Y нельзя назвать линейной, как на панели А, и корреляция между ними уже не так велика. Коэффициент корреляции между переменными X и Y, изображенными на панели В, равен -0,3. Прослеживается слабая тенденция, согласно которой большим значениям переменной X, в основном, соответствуют малые значения переменной Y. Панели Г-Е иллюстрируют положительную корреляцию между данными — малым значениям переменной X соответствуют большие значения переменной Y.

Обсуждая рисунке, мы употребляли термин тенденция, поскольку между переменными X и Y нет причинно-следственных связей. Наличие корреляции не означает наличия причинно-следственных связей между переменными X и Y, т.е. изменение значения одной из переменных не обязательно приводит к изменению значения другой. Сильная корреляция может быть случайной и объясняться третьей переменной, оставшейся за рамками анализа. В таких ситуациях необходимо проводить дополнительное исследование. Таким образом, можно утверждать, что причинно-следственные связи порождают корреляцию, но корреляция не означает наличия причинно-следственных связей.

Средняя ошибка коэффициента корреляции

Коэффициенты корреляции и регрессии, характеризующие зависимость между признаками групп животных, являются статистическими величинами, поэтому обладают свойством репрезентативности. Достоверность их величин устанавливают при помощи ошибок репрезентативности, вытекающих из самой сущности выборочного обследования, при котором целое характеризуется на основании изучения части.

Ошибки коэффициентов корреляции вычисляют по следующим формулам:

— для коэффициента корреляции r при многочисленной выборке (n>30):

— для r при малочисленной выборке (n Ошибка коэффициента корреляции при малочисленной выборке

Для коэффициентов регрессии:

Используя величины статистических ошибок, определяют достоверность выборочных коэффициентов корреляции и регрессии:

— критерий достоверности коэффициентов корреляций:

— критерий достоверности коэффициентов регрессии:

Величины корреляции и регрессии считаются достоверными, если они превышают свои ошибки в определенное количество раз, зависящие от размера выборки. Критерии достоверности сравнивают со стандартами значений по таблице Стьюдента для установленного числа степеней свободы и порога вероятности безошибочных прогнозов.

Показатели связи имеют реальный смысл, если они оказываются статистическими достоверными. Практическое же значение они приобретают лишь тогда, когда имеют достаточную величину. Например, коэффициент корреляции между многоплодием свиноматок и энергий роста их потомства 0,25 0,03 имеет вполне реальный смысл, так как он более чем в восемь раз превосходит свою квадратическую ошибку (tp = 8,3). Однако практическое значение этого показателя весьма невелико: он свидетельствует, что всего 6% общей вариации признака (r2=0,252=0,06=6%) зависит от изменчивости другого, связанного с ним признака; 94% составляют так называемую остаточную вариацию, не зависящую от связи признаков между собой. Поэтому строить практические расчеты на основании коэффициента корреляции, значение которого не превышает 0,5, по меньшей мере, ненадежно. Однако практическая значимость показателей связи зависит от цели исследования, т.е. от того, с какой степенью точности допустимы их вычисления и какова может быть их величина в заданных условиях.

В ходе биологических исследований биометрические величины показывают, какая доля общей вариации зависит от взаимного влияния биологических признаков и какая — от случайных причин.

Когда не следует рассчитывать коэффициент корреляции?

Расчет r может ввести в заблуждение, если:

1. Соотношение между двумя переменными нелинейное, например квадратичное. Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций: например, равносторонней гиперболы, параболы второй степени и др. Различают два класса нелинейных регрессий: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам; регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции: полиномы разных степеней; равносторонняя гипербола.

К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная; показательная; экспоненциальная.

Параметры нелинейной регрессии по включенным переменным оцениваются, как и в линейной регрессии, методом наименьших квадратов, поскольку эти функции линейны по параметрам.

Как показывает опыт большинства исследователей, среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях — полином третьего порядка. Ограничения в использовании полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку.

Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени. Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.

Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу. Иначе обстоит дело с регрессией, нелинейной по оцениваемым параметрам. Данный класс нелинейных моделей подразделяется на два типа: нелинейные модели внутренне линейные и нелинейные модели внутренне нелинейные. Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции. Например, в эконометрических исследованиях широко используется степенная функция.

Данная модель нелинейна относительно оцениваемых параметров, ибо включает параметры a и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию е приводит его к линейному виду. Соответственно оценки параметров a и b могут быть найдены с помощью МНК.

В специальных исследованиях по регрессионному анализу часто к нелинейным относят модели, только внутренне нелинейные по оцениваемым параметрам, а все другие модели, которые внешне нелинейны, но путем преобразований параметров могут быть приведены к линейному виду, относятся к классу линейных моделей. В этом плане к линейным относят, например, экспоненциальную модель, поскольку логарифмируя ее по натуральному основанию, получим линейную форму модели:

Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей применяемого итеративного подхода.

2. Данные включают более одного наблюдения по каждому случаю. Количественная характеристика социально-экономических процессов в непосредственной связи с их качественной сущностью невозможна без глубокого статистического исследования. Использование различных способов и приемов статистической методологии предполагает наличие исчерпывающей и достоверной информации об изучаемом объекте, что включает этапы сбора статистической информации и ее первичной обработки, сведения и группировки результатов наблюдения в определенные совокупности, обобщения и анализа полученных материалов.

Если при сборе статистических данных допущена ошибка или материал оказался недоброкачественным, это повлияет на правильность и достоверность как теоретических, так и практических выводов. Поэтому статистическое наблюдение от начальной до завершающей стадии должно быть тщательно продуманным и четко организованным.

Статистическое наблюдение — это первая стадия всякого статистического исследования, представляющая собой научно организованный по единой программе учет фактов, характеризующих явления и процессы общественной жизни, и сбор полученных на основе этого учета массовых данных.

Однако не всякий сбор сведений является статистическим наблюдением. О статистическом наблюдении можно говорить лишь тогда, когда, во-первых, обеспечивается регистрация устанавливаемых фактов в специальных учетных документах и, во-вторых, изучаются статистические закономерности, т.е. такие, которые проявляются только в массовом процессе, в большом числе единиц какой-то совокупности. Поэтому статистическое наблюдение должно быть планомерным, массовым и систематическим.

К статистическому наблюдению предъявляются следующие требования: полноты и практической ценности статистических данных; достоверности и точности данных; их единообразия и сопоставимости. Любое статистическое исследование необходимо начинать с точной формулировки его цели и конкретных задач, а тем самым и тех сведений, которые могут быть получены в процессе наблюдения. После этого определяются объект и единица наблюдения, разрабатывается программа, выбираются вид и способ наблюдения.

С точки зрения полноты охвата фактов статистическое наблюдение может быть сплошным и несплошным. Сплошное наблюдение представляет собой полный учет всех единиц изучаемой совокупности. Несплошное наблюдение организуют как учет части единиц совокупности, на основе которой можно получить обобщающую характеристику всей совокупности. К видам несплошного наблюдения относятся: способ основного массива, выборочные наблюдения, монографические описания.

При непосредственном учете фактов сведения получают путем личного учета единиц совокупности: пересчета, взвешивания, измерения и т.д. Документальный способ сбора статистической информации базируется на систематических записях в первичных документах, подтверждающих тот или иной факт. В ряде случаев для заполнения статистических формуляров прибегают к опросу населения, который может быть произведен экспедиционным, анкетным или корреспондентским способом.

Существуют различные способы формирования выборочной совокупности. Это, во-первых, индивидуальный отбор, включающий такие разновидности, как собственно случайный, механический, стратифицированный, и, во-вторых, серийный, или гнездовой, отбор.

3. Есть аномальные значения (выбросы).Любая изучаемая совокупность может содержать единицы наблюдения, значения признаков которых резко выделяются из основной массы значений. Такие нетипичные значения признаков (выбросы) могут быть обусловлены воздействием каких-либо сугубо случайных обстоятельств, возникать в результате ошибок наблюдения или же быть объективно присущими наблюдаемому явлению. В любом случае они являются аномальными для совокупности, так как нарушают статистическую закономерность изучаемого явления. Следовательно, статистическое изучение совокупности без предварительного выявления и анализа возможных аномальных наблюдений может не только исказить значения обобщающих показателей (средней, дисперсии, среднего квадратического отклонения и др.), но и привести к серьезным ошибкам в выводах о статистических свойствах совокупности, сделанных на основе полученных оценок показателей.

Для выявления и исключения аномальных единиц наблюдения построена диаграмма рассеяния изучаемых признаков.

4. Данные содержат ярко выраженные подгруппы наблюдений. Собранный в процессе статистического наблюдения материал нуждается в определенной обработке, сведении разрозненных данных воедино. Научно организованная обработка материалов наблюдения (по заранее разработанной программе), включающая в себя кроме обязательного контроля собранных данных систематизацию, группировку материалов, составление таблиц, получение итогов и производных показателей (средних, относительных величин), называется в статистике сводкой.

Сводка представляет собой второй этап статистического исследования. Целью сводки является получение на основе сведенных материалов обобщающих статистических показателей, отражающих сущность социально-экономических явлений и определенные статистические закономерности.

Статистическая сводка осуществляется по программе, которая должна разрабатываться еще до сбора статистических данных, практически одновременно с составлением плана и программы статистического наблюдения. Программа сводки включает определение групп и подгрупп; системы показателей; видов таблиц. Группировка — это разбиение совокупности на группы, однородные по какому-либо признаку. С точки зрения отдельных единиц совокупности группировка — это объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам.

Устойчивое разграничение объектов выражается классификацией, которая основывается на самых существенных признаках (например, классификация отраслей народного хозяйства, классификация основных фондов и т.д.). Таким образом, классификация — это узаконенная, общепринятая, нормативная группировка.

Метод группировки основывается на следующих категориях — это группировочный признак, интервал группировки и число групп. Группировочный признак — это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Интервал очерчивает количественные границы групп. Как правило, он представляет собой промежуток между максимальными и минимальными значениями признака в группе.

Интервалы бывают: равные, когда разность между максимальным и минимальным значениями в каждом из интервалов одинакова; неравные, когда, например, ширина интервала постепенно увеличивается, а верхний интервал часто не закрывается вовсе; открытые, когда имеется только либо верхняя, либо нижняя граница; закрытые, когда имеются и нижняя, и верхняя границы.

При проведении группировки приходится решать ряд задач: выделение группировочного признака; определение числа групп и величины интервалов; при наличии нескольких группировочных признаков описание того, как они комбинируются между собой; установление показателей, которыми должны характеризоваться группы, т.е. сказуемого группировки.

Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования существующих зависимостей. Каждой из этих целей соответствует особый вид группировки: типологическая, структурная, аналитическая (факторная).

Типологическая группировка решает задачу выявления и характеристики социально-экономических типов (частных подсовокупностей). Структурная дает возможность описать составные части совокупности или строение типов, а также проанализировать структурные сдвиги. Аналитическая (факторная) группировка позволяет оценивать связи между взаимодействующими признаками. В зависимости от числа положенных в их основание признаков различают простые и многомерные группировки. Группировка, выполненная по одному признаку, называется простой.

Многомерная группировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации. Структурная группировка применяется для характеристики структуры совокупности и структуры сдвигов.

Структурный называется группировка, в которой происходит разделение выделенных с помощью технологической группировки типов явлений, однородных совокупностей на группы, характеризующие их структуру по какого либо варьирующему признаку. Например, группировка населения по размеру среднедушевого дохода. Анализ структурных группировок взятых за ряд периодов или моментов времени, показывает изменения структуры изучаемых явлений, то есть структурные сдвиги. В изменении структуры общественных явлений отражаются важнейшие закономерности их развития.

Показатель численности групп представлен либо частотой (количеством единиц в каждой группе), либо частотностью (удельным весом каждой группы). Среди простых группировок особо выделяют ряды распределения. Ряд распределения — это группировка, в которой для характеристики групп (упорядоченно расположенных по значению признака) применяется один показатель — численность группы. Другими словами, это ряд чисел, показывающий, как распределяются единицы некоторой совокупности по изучаемому признаку. Ряды, построенные по атрибутивному признаку, называются атрибутивными рядами распределения. Ряды распределения, построенные по количественному признаку, называются вариационными рядами.

Примером атрибутивных рядов могут служить распределения населения по полу, занятости, национальности, профессии и т.д. Примером вариационного ряда распределения могут служит распределения населения по возрасту, рабочих — по стажу работы, заработной плате и т.д. Вариационные ряды распределения состоят их двух элементов вариантов и частот. Вариантами называются числовые значения колличественного признака в ряду распределения, они могут быть положительными и отрицательными, абсолютными и относительными.

Частоты — это численности отдельных вариантов или каждой группы вариационного ряда. Сумма всех частот называется объемом совокупности и определяет число элементов всей совокупности. Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Виды коэффициента корреляции

До сих пор статистические методы касались одной случайной переменной и ее распределения. Однако многие проблемы в статистике касаются нескольких переменных. Во многих проблемах несколько переменных изучаются с целью установления их взаимосвязи или определения корреляции между ними. Две случайные величины — Х и Y — находятся в корреляционной зависимости, если каждому значению любой из них соответствует определенное распределение другой величины.

Чтобы определить корреляцию между двумя случайными величинами (Х и Y), необходимо иметь две случайные выборки, одна из которых соответствует Х, другая — Y. Например, при анализе торговли ковровыми покрытиями было обнаружено изменение цен в % и соответствующие изменения в продаже. В результате имеем:

Взаимосвязь между этими случайными величинами можно проанализировать с использованием диаграммы рассеивания. С помощью этой диаграммы можно установить, есть ли связь между переменными и какого она вида. Для представленных данных диаграмма рассеивания имеет вид:

Анализ этой диаграммы показывает, что при увеличении цен продажа имеет тенденцию к снижению. Более того, можно грубо оценить, что этот спад идет по прямой. Взаимосвязь между переменными Х и Y можно представить следующими диаграммами:

Взаимосвязь между Х и Y, представленная на этих рисунках, классифицируется как: а — слабая положительная линейная; b — слабая отрицательная линейная (когда с возрастанием одной переменной другая убывает); с — отсутствие связи; d — сильная положительная линейная; е — сильная отрицательная линейная; f — нелинейная связь. Для оценки линейной взаимосвязи между двумя случайными переменными Х и Y используется выборочный коэффициент корреляции Пирсона:

Коэффициент корреляции Пирсона предполагает, что случайные переменные Х и Y являются непрерывного типа. Кроме того, предполагается, что они распределены по нормальному закону. Это ограничивает применение коэффициента корреляции. Существует непараметрический аналог коэффициента корреляции Пирсона — ранговый коэффициент корреляции Спирмена. Коэффициент ранговой корреляции Спирмена находится по формуле:

То есть в данном случае проблема оценки тесноты связи решается с использованием ранжирования или упорядочивания объектов по степени выраженности измеряемых признаков. При этом каждому объекту присваивается определенный номер, называемый рангом.

Например. Объекту с наименьшим значением признака присваивается ранг 1, следующему за ним — ранг 2 и т. д. При ранжировании иногда сталкиваются со случаями, когда величина проявления рассматриваемого признака одна и та же для нескольких объектов. В таких случаях объекты называются связанными. Связанным объектам приписываются одинаковые средние ранги.

Например. Если 4 объекта оказались равнозначными в отношении рассматриваемого признака и невозможно определить, какие из следующих рангов (4, 5, 6, 7) приписать этим объектам, то каждому объекту приписывается средний ранг, равный (4+5+6+7)/4 = 5.5. При наличии связанных рангов ранговый коэффициент корреляции Спирмена вычисляется по формуле:

Пример. Десять однородных предприятий были проранжированы по двум признакам — x1 и x2. В итоге имеем следующие выборки:

Определить коэффициент корреляции рангов. Решение. В первой ранжировке имеем четыре группы неразличимых рангов. Во второй ранжировке имеем две таких группы:

Используя формулу, имеем r = 0.917. Примечание. Коэффициент корреляции рангов может использоваться для изучения связи между ординальными (порядковыми) переменными, которые еще называются качественными. В отличие от количественных переменных, для которых можно определить, на сколько или во сколько раз проявления одного признака у одного объекта больше (меньше), чем у другого, для качественных признаков этого определить нельзя.

Например. По некоторой дисциплине два студента имеют соответственно оценки «отлично» и «удовлетворительно». В этом случае можно утверждать, что уровень подготовки у первого студента выше, чем у другого, но нельзя сказать, на сколько или во сколько раз.

Коэффициент корреляции Пирсона

Линейный корреляционный анализ позволяет установить прямые связи между переменными величинами по их абсолютным значениям. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона. В общем виде формула для подсчета коэффициента корреляции такова:

Расчет коэффициента корреляции Пирсона предполагает, что переменные X и Y распределены нормально. Даная формула предполагает, что из каждого значения xi переменной X, должно вычитаться ее среднее значение x. Это не удобно, поэтому для расчета коэффициента корреляции используют не данную формулу, а ее аналог, получаемый с помощью преобразований:

Используя данную формулу, решим следующую задачу: 20 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X — обозначает среднее время решения наглядно-образных, а переменная Y — среднее время решения вербальных заданий тестов.

Для решения данной задачи представим исходные данные в виде таблицы, в которой введены дополнительные столбцы, необходимые для расчета по формуле В таблице 12 даны индивидуальные значения переменных X и Y, построчные произведения переменных X и Y, квадраты переменных всех индивидуальных значений переменных X и Y, а также суммы всех вышеперечисленных величин.

Рассчитываем эмпирическую величину коэффициента корреляции по формуле:

Определяем критические значения для полученного коэффициента корреляции. Величины критических значений коэффициентов линейной корреляции Пирсона даны по абсолютной величине. Следовательно, при получении как положительного, так и отрицательного коэффициента корреляции по формуле оценка уровня значимости этого коэффициента проводится по той же таблице приложения без учета знака, а знак добавляется для дальнейшей интерпретации характера связи между переменными X и Y. При нахождении критических значений для вычисленного коэффициента корреляции Пирсона число степеней свободы рассчитывается как:

Строим соответствующую «ось значимости»:

Ввиду того, что величина расчетного коэффициента корреляции попала в зону значимости — Н0 отвергается и принимается гипотеза Н1. Иными словами, связь между временем решения наглядно-образных и вербальных задач статистически значима на 1% уровне и положительна. Полученная прямо пропорциональная зависимость говорит о том, что чем выше среднее время решения наглядно-образных задач, тем выше среднее время решения вербальных и наоборот.

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия: сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений, распределения переменных X и Y должны быть близки к нормальному, число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Пример решения задачи при помощи коэффициента Пирсона. На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основным запросам в поисковой системе необходимо проверить, можно ли говорить о линейной зависимости между позицией сайта и числом посетителей. Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

1. На основании исходных данных, приведенных в таблице, расчитаем средние значения для X и Y:

Все необходимые для расчета коэффициента корреляции промежуточные данные и их суммы представлены в таблице:

Оценим полученное нами эмпирическое значение коэффициента Пирсона, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента корреляции Пирсона. Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Пирсона = 0,67, с уровнем значимости p = 0,01 критическое значение коэффициента Пирсона = 0,8. Так как абсолютное значение, полученного нами коэффициента корреляции меньше критического значения, взятого из таблицы (находится вне зоны значимости), мы принимаем гипотезу Н0 об отсутcтвии корреляционной зависимости между выборками. Полученный результат свидетельствует об отсутствии линейной зависимости между числом посетителей сайта и его позицией в поисковой системе, однако это не означает, что эти параметры не связаны между собой.

Модификация коэффициента корреляции Пирсона

До сих пор мы подробно рассматривали два вида коэффициентов корреляции: коэффициент линейной корреляции Пирсона для интервальных шкал и коэффициент ранговой корреляции Спирмена. Существуют и другие типы коэффициентов для различных сочетаний шкал. Для коррелирования переменных, измеренных в дихотомической и интервальной шкале используют точечно-бисериальный коэффициент корреляции.

Точечно-бисериальный коэффициент корреляции — это метод корреляционного анализа отношения переменных, одна из которых измерена в шкале наименований и принимает только 2 значения (к примеру, мужчины/женщины, ответ верный/ответ неверный, признак есть/признака нет), а вторая в шкале отношений или интервальной шкале. Формула расчета коэффициента точечно-бисериальной корреляции:

Чаще всего данный вид коэффициента корреляции применяется для расчета связи пунктов теста с суммарной шкалой. Это один из видов проверки валидности. Случаи, когда одна из переменных представлена в дихотомической шкале, а другая в ранговой (порядковой), требуют применения коэффициента рангово-бисериальной корреляции:

Если обе переменные представляют собой дихотомическую шкалу то следует использовать коэффициент четырехклеточной сопряженности Пирсона. Классификация объектов по дихотомической шкале приведет к построению четырехклеточной таблицы. К примеру, студент может посетить более 50% лекций, а может и не посетить, может сдать зачет с первого раза, а может и не сдать. На основе такой классификации построим таблицу:

В клетки a,b,c,d таблицы следует вписать количество объектов, обладающих соответствующими признаками. Формула расчета коэффициента четырехклеточной сопряженности Пирсона:

Приведенный коэффициент является ни чем иным, как модификацией коэффициента корреляции Пирсона, поэтому так же изменяется от — 1 до + 1 и критические значения этого коэффициента даны в таблице критических значений для коэффициента Пирсона. Коэффициент четырехклеточной сопряженности часто применяется для коррелирования ответов на вопросы теста, закодированные в дихотомической шкале.

Коэффициент корреляции Спирмена

Коэффициент ранговой корреляции Спирмена (Spearman rank correlation coefficient) — мера линейной связи между случайными величинами. Для оценки силы связи между величиными используются не численные значения, а соответствующие им ранги. Этот коэффициент определяет степень тесноты и направленность связи признаков. Величина коэффициента лежит в интервале от +1 до -1. Абсолютное значение характеризует тесноту связи, а знак — направленность связи между двумя признаками.

Преимущество: можно ранжировать по признакам, которые нельзя выразить численно: субъективные оценки, предпочтения и т.д. При экспертных оценках можно ранжировать оценки разных экспертов и найти их корреляции друг с другом, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелирующие с оценками других. Коэффициент корреляции рангов применяется для оценки устойчивости тенденции динамики.

Недостатки: недостатком коэффициента корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений (в случае количественных признаков). Недоучет размеров отклонений признаков от их средних величин занижает меру тесноты связи. Поэтому для количественных признаков корреляция рангов обладает меньшей информативностью, чем коэффициент корреляции числовых значений этих признаков.

Свойства коэффициента ранговой корреляции Спирмена:

1. Нормируемость. Коэффициент корреляции рангов может принимать значения от -1 до +1. Значение 1 свидетельствует о возможном наличии прямой связи, значение — 1 свидетельствует о возможном наличии обратной связи.

2. Ограниченность. Для оценки данных необходима выборка от 5 до 40 наблюдений по каждой переменной. При большом количестве одинаковых рангов по сопоставляемым переменным коэффициент дает приближенные значения. При совпадении значений вносится поправка на одинаковые ранги. В этом случае формула имеет вид:

3. Независимость. Чтобы получить адекватный результат, необязательно наличие нормального закона распределения коррелируемых рядов.

Коэффициент корреляции рангов используется для оценки качества связи между двумя совокупностями. Кроме этого, его статистическая значимость применяется при анализе данных на гетероскедастичность.

При ранжировании возможно появление одинаковых рангов в каждом ряду. Одинаковые ранги называются связками. Возможно присутствие нескольких связок в одном ряду рангов. Повторяющиеся ранги для X и Y отсутствуют: количество значений переменных в X и Y — должно быть одинаково; разность рангов для пары значений X и Y.

Повторяющиеся ранги для X и Y есть. В этом случае вводится поправка на связки в ранговых рядах. Поправка рассчитывается для каждого ряда отдельно. Поправка для каждого ряда рассчитывается с учетом всех связок в этом ряду: поправка для связок рангов в ряду X; поправка для связок рангов в ряду Y; номер связки в ряду X; количество одинаковых рангов в связке с номером j; номер связки в ряду Y; количество одинаковых рангов в связке с номером k.

Пример решения задачи с использованием коэффициента Спирмана: На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основны м запросам в поисковой системе необходимо проверить, можно ли говорить о линейная зависимость между позицией сайта и числом посетителей.

Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

Проранжируем каждый из элементов признаков (X и Y) в порядке возрастания значений (самому маленькому элемнту присвоим ранг 1 и т. д. до самого большого элемента последовательности, который получит ранг m). Результаты ранжирования представлены в таблице:

Кроме рангов, для каждого элемента из наборов признаков X и Y в таблице расчитаны Di — разность рангов и D2 — квадрат разности рангов пары соответствующих элементов X и Y. Для расчета коэффициена ранговой корреляции Спирмена используется формула:

Найдем сумму квадратов разностей рангов, сложив для этого элементы столбца. Подставим полученные значения в формулу, и найдем значение коэффициента Спирмена.

Оценка коэффициента корреляции Спирмена. Оценим полученное нами эмпирическое значение коэффициента Спирмена, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента ранговой корреляции Спирмена. Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Спирмена = 0,68.

Так как абсолютное значение, полученного нами коэффициента корреляции больше критического значения, взятого из таблицы, мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии связи.

Оценка коэффициента корреляции Спирмена на основании t-критерия. Произведем оценку значимости полученного нами коэффициента ранговой корреляции Спирмена, используя таблицу «Стьюдента».

Так как коэффициент ранговой корреляции больше t-критерия мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии отрицательной связи между числом посетителей сайта и его позицией в поисковой системе.

Заметим, что для тех же исходных данных при подсчете коэффициента корреляции Пирсона в результате было получено заключение об отсутствии связи. Такой результат можно обьяснить тем, что коэффициент корреляции Пирсона подтверждает илиопровергает наличие линейной зависимости. Коэффициент рангов Спирмена подтверждает присутствие монотонно-возрастающей или убывающей зависимости (не обязательно линейной). В нашем случае зависимость нелинейная, но монотонно-убывающая.

Коэффициент корреляции Кендалла

Коэффициент корреляции Кенделла (Kendall tau rank correlation coefficient) — мера линейной связи между случайными величинами. Корреляция Кенделла является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Коэффициент корреляции Кенделла вычисляется по формуле:

Коэффициент Кенделла принимает значения отрезка -1; +1. Значение +1 — указывает на строгую прямую линейную зависимость, -1 — на обратную.

Для измерения степени согласия Кенделл предложил следующий коэффициент:

Таким образом, коэффициент Кенделла можно считать мерой неупорядоченности второй последовательности относительно первой. Статистическая проверка наличия корреляции. Нулевая гипотеза Н0: Выборки x и y не коррелируют. Рассмотрим центрированную и нормированную статистику Кенделла:

Нулевая гипотеза отвергается (против альтернативы Н1 — наличие корреляции), если:

Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением. Заметно, что в большинстве случаев коэффициент Спирмена больше коэффициента Кенделла. Объяснение этого эффекта приводится ниже. Направление линейной зависимости.

Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными. Наклон линейного тренда.

Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости. Нелинейная зависимость.

Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными. Линейная и нелинейная зависимости. На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом.

По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают. В случае выборок из нормального распределения коэффициент корреляции Кенделла может быть использован для оценки коэффициента корреляции Пирсона по формуле:

Выборкам x и y соответствуют последовательности рангов:

Проведем операцию упорядочивания рангов.

Коэффициент корреляции Кенделла и коэффициент корреляции Спирмена выражаются через ранги следующим образом:

Заметно, что в случае с коэффициентом Спирмана инверсиям придаются дополнительные веса, таким образом коэффициент Спирмана сильнее реагирует на несогласие ранжировок, чем коэффициент Кенделла. Этот эффект проявляется в приведённых выше примерах: в большинстве из них коэффициент Спирмана больше коэффициент Кенделла.

Утверждение. Если выборки x и y не коррелируют (выполняется гипотеза Н0), то величины Кенделла и Спирмена сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле:

Коэффициент корреляции знаков Фехнера

Коэффициент Фехнера — это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такми коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков.

Г. Фехнер предложил очень простой способ оценки степени связи между составляющими двумерной выборки без использования уравнения регрессии. Для определения индекса Фехнера вычисляют средние Х и У, а затем для каждой пары определяют знаки отклонений. Для каждой пары возможны четыре сочетания знаков: ++; +-; -+; —.

Очевидно, что i больше либо равно -1 и i меньше либо равно +1, и что при i больше 0 имеем положительную корреляцию, при i меньше 0 — отрицательную, при i = 0 связь в указанном смысле отсутствует. Коэффициент Фехнера изменяется в пределах -1; +1 и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Расчет коэффициента Фехнера состоит из следующих этапов:

1. Определяют средние значения для каждого признака (X и Y).

2. Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.

3. Если знаки совпадают, присваивают значение А, иначе В.

4. Считают количество А и В, вычисляя коэффициент Фехнера по формуле:

Найдем индексы Фехнера для примера.

Коэффициент множественной ранговой корреляции (конкордации)

До сих пор рассматривались модели простой корреляции, т.е. корреляционной зависимости между двумя признаками Однако в практике экономического анализа часто приходится изучать явления, которые складываются под влиянием не одного, а многих различных факторов, каждый из которых в отдельности может не производить решающего влияния Совокупный же влияние факторов иногда оказывается достаточно сильным, чтобы по их изменениях можно было делать виснет овкы о величинах показателя изучаемого явления Методы измерения корреляционной связи одновременно между двумя, тремя и более корреляционными признакам создают учение о множественной корреляции.

В моделях множественной корреляции зависимая переменная рассматривается как функция нескольких (в общем случае п) независимых переменных. Множественное корреляционное уравнение устанавливает связь между исследуемыми признаками и позволяет вычислить ожидаемые значения результативного признака под влиянием включенных в анализ признаков-факторов, связанных да аниме уравнением.

Для оценки степени тесноты связи между результативным и факторными признаками вычисляют коэффициент множественной корреляции Величина его всегда положительное число, которое находится в пределах от 0 до 1. В множественных корреляционно-регрессионных моделях коэффициент простой корреляции между результативным признаком и факторными, а также между самими факторными признаками.

Методы корреляции произведения моментов Пирсона и линейного регрессионного анализа Гальтона были обобщены и расширены в 1897 г. Джорджем Эдни Юлом до модели множественной линейной регрессии, предполагающей использование многомерного нормального распределения. Методы множественной корреляции позволяют оценить связь между множеством непрерывных независимых переменных и одной зависимой непрерывной переменной. Коэффициент множественной корреляции обозначается через R0. Его вычисление требует решения совместной системы линейных уравнений. Число линейных уравнений равно числу независимых переменных.

Иногда необходимо исключить эффект третьей переменной, с тем чтобы определить «чистую» связьмежду любой парой переменных. Частный (парциальный) коэффициент корреляции выражает связь между двумя переменными при исключенном (элиминированном) влиянии еще одной или несколко других переменных. В простейшем случае частный коэффициент корреляции вычисляется как функция парных корреляций (произведений моментов) между Y, X1 и Х2.

При небходимости можно воспользоваться услугами группы из m-экспертов, установить результирующиеранги целей, но тогда возникнет вопрос о согласованности мнений этих экспертов или конкордации. Пусть у нас имеются ранжировки 4 экспертов по отношению к 6 факторам, которые определяют эффективность некоторой системы.

Заметим, что полная сумма рангов составляет 84, что дает в среднем по 14 на фактор. Для общего случая n факторов и m экспертов среднее значение суммы рангов для любого фактора определится выражением.

Теперь можно оценить степень согласованности мнений экспертов по отношению к шести факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы. Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений.

В нашем случае сумма таких квадратов составит S= 64, а в общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:

М. Кэндэллом предложен показатель согласованности или коэффициент конкордации, определяемый как:

В нашем примере значение коэффициента конкордации составляет около 0,229, что при четырех экспертах и шести факторах достаточно, чтобы с вероятностью не более 0.05 считать мнения экспертов несогласованными. Дело в том, что как раз случайность ранжировок, их некоррелированность просчитывается достаточно просто. Так для нашего примера указанная вероятность соответствует сумме квадратов отклонений S = 143,3, что намного больше 64.

В заключение вопроса об особенностях метода экспертных оценок в системном анализе отметим еще два обстоятельства. В первом примере мы получили результирующие ранги 10 целей функционирования некоторой системы. Как воспользоваться этой результируюзей ранжировкой? Как перейти от ранговой шкалы целей к шкале весовых коэффициентов — в диапазоне от 0 до 1?

Здесь обычно используются элементарные приемы нормирования. Если цель 3 имеет ранг 1, цель 8 имеет ранг 2 и т. д., а сумма рангов составляет 55, то весовой коэффициент для цели 3 будет наибольшим и сумма весов всех 10 целей составит 1. Вес цели придется определять как:

При использовании групповой экспертной оценки можно не только выяснять мнение экспертов о показателях, необходимых для системного анализа. Очень часто в подобных ситуациях используют так называемый метод Дельфы (от легенды о дельфийском оракуле). Опрос экспертов проводят в несколько этапов, как правило — анонимно. После очередного этапа от эксперта требуется не просто ранжировка, но и ее обоснование. Эти обоснования сообщаются всем экспертам перед очередным этапом без указания авторов обоснований.

Имеющийся опыт свидетельствует о возможностях существенно повысить представительность, обоснованность и, главное, достоверность суждений экспертов. В качестве “побочного эффекта” можно составить мнение о профессиональности каждого эксперта.

Сравнение коэффициентов корреляции

Для проверки гипотезы о равенстве двух корреляций (H0) величины сравниваемых корреляций r1 и r2 подвергаются преобразованию Фишера:

Определенные таким образом z1 и z2 можно считать нормально распределенными с параметрами распределений:

соответственно. В том случае, если верна нулевая гипотеза, то есть значения корреляций не различаются, величина z1 — z2 оказывается нормально распределенной со средним равным 0 и дисперсией:

В этой связи (z1 — z2)/σ правомерно считать наблюдением стандартной нормальной величины U, где большие значения будут выглядеть неправдоподобными, отвергая нулевую гипотезу. Таким образом, для z1 и z2 уровень значимости равен:

Где Φ — функция нормального распределения с параметрами 0 и 1.

Сравнение двух коэффициентов корреляции необходимо, когда нужно узнать, какой из них достоверно выше или ниже, иными словами, насколько достоверно различие между ними. Для сравнения коэффициентов корреляции применяем следующий алгоритм и сразу же разберем его на примере. Исходные данные:

— N1 (количество пар значений для первого коэффициента) = 100;

— R1 (первый коэффициент корреляции) = 0,2;

— N2 (количество пар значений для второго коэффициента) = 50;

— R2 (второй коэффициент корреляции) = 0,5.

1. Вычисляем ошибку разницы по формуле:

2. Преобразуем оба коэффициента с помощью z-преобразования Фишера:

3. Вычисляем значения t-критерия по формуле:

Получившееся значение проверяется по таблице критических значений t-критерия Стьюдента.

4. Проверяем значимость полученного значения. Вычисляем количество степеней свободы (df), далее пользуемся таблицей критических значений t-критерия Стьюдента или используем Excel:

Итого — вероятность того, что коэффициенты корреляции одинаковы составляет 0,04 (4%). Если взять за критическое значение p Сравнение двух коэффициентов корреляции в Excel

Естественно, вместо R1, R2, N1, N2, df подставляем или адреса ячеек или конкретные числа. Таким образом можно сравнивать целые матрицы корреляций, что очень удобно и позволяет значительно повысить точность выводов. Для сравнения матриц необходимо указывать адреса ячеек коэффициентов корреляций из этих матриц, а количество пар постоянно для обеих коэффициентов и может быть введено как постоянное число в формулу. Приведем пример с матрицами:

Вывод по матрицам: коэффициенты корреляции между V2 и V3 в выборке 1 и 2 значимо не различаются.

Использование Excel для вычисления коэффициента корреляции

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами.

Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры тесноты такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (x, y) из совместной генеральной совокупности X и Y. Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используется коэффициент линейной корреляции , предполагающий, что выборки X и Y распределены по нормальному закону.

Коэффициент корреляции — параметр, который характеризует степень линейной взаимосвязи между двумя выборками. Коэффициент корреляции определяет степень, тесноту линейной связи между величинами и может принимать значения от -1 (строгая обратная линейная за-висимость) до +1 (строгая прямая линейная зависимость). Приближенно принимают следующую классификацию корреляционных связей: сильная, или тесная при коэффициенте корреляции rв>0,70; средняя — при 0,50.

Для более точного ответа на вопрос о наличии линейной корреляционной связи необходима проверка соответствующей статистической гипотезы.

В MS Excel для вычисления парных коэффициентов линейной корреляции используется специальная функция КОРРЕЛ (массив1; массив2), где массив1 — ссылка на диапазон ячеек первой выборки (X); массив2 — ссылка на диапазон ячеек второй выборки (Y).

Пример. 10 студентам были даны тесты на конструкторское и логическое мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? (Переменная X — среднее время решения конструкторских заданий, а переменная Y- среднее время решения логических заданий тестов).

Алгоритм решения. Для выявления степени взаимосвязи, прежде всего, не-обходимо ввести данные в таблицу MS Excel. Затем вычисляется значение коэффициента корреляции. Для этого курсор установите в ячейку C1. На панели инструментов нажмите кнопку Вставка функции (fx). В появившемся диалоговом окне Мастер функций выберите категорию Статистические и функцию КОРРЕЛ, после чего нажмите кнопку ОК. Указателем мыши введите диапазон данных выборки Х в поле массив1 (А1:А10). В поле массив2 введите диапазон данных выборки Y (В1:В10). Нажмите кнопку ОК.

В ячейке С1 появится значение коэффициента корреляции — 0,54119. После этого нужно вычислить наблюдаемое значение критерия по формуле:

Далее необходимо по статистическим таблицам определить критические значения по Приложению 6 (критические точки распределения Стьюдента — двусторонние). При нахождении критических значений число степеней свободы. Тогда критические точки t(0,05;8)=2,31. Поскольку наблюдаемое значение критерия принадлежит области принятия нулевой гипотезы, она принимается. Иными словами линейной корреляционной связи между временем решения конструкторских и логических заданий теста нет.

При большом числе наблюдений, когда коэффициенты корреляции необходимо последовательно вычислять для нескольких выборок, для удобства получаемые коэффициенты сводят в таблицы, называемые корреляционными матрицами. Корреляционная матрица — это квадратная таблица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами.

В MS Excel для вычисления корреляционных матриц используется процедура Корреляция из пакета Анализ данных. Процедура позволяет получить корреляционную матрицу, содержащую коэффициенты корреляции между различными параметрами. Для реализации процедуры необходимо:

— выполнить команду Анализ данных и в появившемся списке Инструменты анализа выбрать строку Корреляция инажать кнопку ОК;

— впоявившемся диалоговом окне указать Входной интервал, то есть ввести ссылку на ячейки, содержащие анализируемые данные. Входной интервал должен содержать не менее двух столбцов;

— в разделе Группировка переключатель установить в соответствии с введенными данными (по столбцам или по строкам);

— указать выходной интервал, то есть ввести ссылку на ячейку, с которой будут показаны результаты анализа. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные. Нажать кнопку ОК.

В выходной диапазон будет выведена корреляционная матрица, в которой на пересечении каждых строки истолбца находится коэффициент корреляции между соответствующими параметрами. Ячейки выходного диапазона, имеющие совпадающие координаты строк и столбцов, содержат значение 1, так как каждый столбец во входном диапазоне полностью коррелирует сам с собой. Рассматривается отдельно каждый коэффициент корреляции между соответствующими параметрами. Отметим, что хотя в результате будет получена треугольная матрица, корреляционная матрица симметрична. Подразумевается, что в пустых клетках в правой верхней половине таблицы находятся те же коэффициенты корреляции, что и в нижней левой (симметрично относительно диагонали).

Пример. Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музеев и парков. Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков.

Алгоритм решения. Для выполнения корреляционного анализа введите в диапазон A1:G3 исходные данные (рис. 3). Затем выберите пункт Анализ данных и далее укажите строку корреляция. В появившемся диалоговом окне укажите Входной интервал (А2:С7). Укажите, что данные рассматриваются по столбцам. Укажите выходной диапазон (Е1) и нажмите кнопку ОК.

На рисунке видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,92; а между состоянием погоды и посещаемостью парка 0,97; между посещаемостью парка и музея -0,92. Таким образом, в результате анализа выявлены зависимости: сильная степень обратной линейной взаимосвязи между посещаемостью музея и количеством солнечных дней; практически линейная (очень сильная прямая) связь между посещаемостью парка и состоянием погоды; сильная обратная взаимосвязь между посещаемостью музея и парка.

Выборочный коэффициент корреляции:

В Excel для вычисления коэффициента корреляции используется функция =КОРРЕЛ():

Итак, коэффициент корреляции свидетельствует о линейной зависимости, или связи, между двумя переменными. Чем ближе коэффициент корреляции к -1 или +1, тем сильнее линейная зависимость между двумя переменными. Знаккоэффициента корреляции определяет характер зависимости: прямая (+) и обратная (-). Сильная корреляция не является причинно-следственной зависимостью. Она лишь свидетельствует о наличии тенденции, характерной для данной выборки.

Допустим, у меня есть две дискретных случайных величины: вероятность: 0,1. 0,8. 0,1, значения:100. 150. 200 и вторая случайная величина аналогична, только вероятности 0,25;0,5;0,25 и значения 200, 250, 300 соответственно. Как рассчитать ковариацию на основе этих распределений? Нужно ли считать распределение произведения? В Excel есть функция КОВАР — но она вместо мат. ожидания использует СРЗНАЧ, просьба подсказать как рассчитать вручную.

Перепробовал все какие нашел формулы из Интернета, все выдают какую-то лажу, в частности коэффициент корреляции по ним получается то больше единицы, то всегда 0, то не получается единицей в указанном выше случае. Коэффициент корреляции получаю делением на произведение среднеквадратичных отклонений, дисперсию для стандартного отклонения считаю как взвешенную по вероятностям сумму разниц квадратов значений случайной величины и её мат. ожидания (мат ожидание рассчитываю как взвешенные по вероятности значения случайной величины).

Для вычисления корреляции случайных величин нужно знать их совместное распределение. То есть, грубо говоря, знать, как часто вторая величина принимает значения 200, 250 и 300, если первая величина равна 100 (то же для других значений). Вы такой информации не дали. То, что Вы нашли в Excel — это другая величина, выборочная корреляция (ее можно рассматривать как оценку истинной, но это другая тема). Она вычисляется для парной выборки (x1,x2. xn),(y1,y2. yn), где одинаковый индекс соответствует одному и тому же объекту. При таком понимании эти величины взаимосвязаны. Если же значения в каждом наборе перемешать независимо от другого (например, упорядочить), получим совсем другой (и неправильный) ответ.

Посмотрела Ваш файл. Вы пытаетесь найти совместное распределение как произведение распределений двух величин. Это означает, что две Ваши величины независимы, и корреляция между ними должна быть равна 0. Дополнение.Скриншот вычисления при правильно подобранных совместных вероятностях.

Принципы интерпретации коэффициента корреляции

Основные принципы интерпретации различных коэффициентов корреляции одинаковы. В случае дихотомической шкалы мы говорим о вероятности совпадения (прямого или обратного) ответов типа да/нет, в случае рангов о вероятности совпадения порядка, в случае коэффициента линейной корреляции мы говорим о степени совместного изменения переменных или о их взаимосвязи.

Полученный коэффициент нужно проверить на значимость, которая зависит от вероятности ошибки и количества человек. Коэффициент корреляции может быть формально небольшим, к примеру r=0,17, но если исследование проведено на 500 человек и вероятность ошибки (р) менее 0,05, то мы признаём значимым даже такой небольшой коэффициент. С другой стороны, при выборке в 5 человек очень большой коэффициент мы признаем незначимым, т.к. из-за малого количества человек мы можем совершить ошибочный вывод об этой корреляции.

Таким образом, для нас главное узнать какой должна быть вероятность ошибки и количество человек, чтобы признать полученный коэффициент действительно значимым.

Расчет значения р (вероятности ошибки) — сложная процедура, поэтому компьютерные программы, в которых можно считать коэффициент корреляции, расчитывают вероятность ошибки самостоятельно. Если же расчет производился вручную или по другим причинам конкретное значение р неизвестно, то используем уже рассчитанные таблицы критических значений.

Таблицы критических значений предназначены чтобы можно было найти критическое значение коэффициента корреляции, т.е. такое, после которого взаимосвязь можно считать значимой и неслучайной. При этом значение вероятности ошибки задаётся исследователем. В таблицах обычно есть критические значения коэффициентов корреляции для р Пример таблицы критических значений

Обычно в психологических исследованиях вероятность ошибки выбирают на уровне p Названия коэффициентов корреляции для различных типов шкал

Коэффициент корреляции — это мера взаимосвязи измеренных явлений.На самом примитивном уровне его можно рассматривать как меру совпадения двух рядов чисел. Любой коэффициент корреляции изменяется в пределах от -1 до +1. Отрицательные значения говорят про обратнопропорциональную взаимосвязь, положительные о прямопропорциональной. Полученный коэффициент необходимо сравнивать с критическим табличным.

Применение коэффициента корреляции на практике

Для каждого трейдера важно понимать, что мы работаем с торговыми инструментами, состоящими из пары валют. В отличие от фондового рынка, где, как правило, каждый торговый инструмент это всего лишь одна индивидуальная единица, на Forex используется измерение стоимости одной валюты в единицах другой. При этом мы не редко можем наблюдать, визуальную схожесть в движении нескольких валютных пар. Это может быть связано с тем, что обе пары могут содержать одну и ту же валюту в обоих случаях. Например, можно говорить о корреляции валютных пар EURUSD и USD — CHF с отрицательным значением К.

Одним из способов использования корреляции пар в торговле является устранение расхождения инструментов. Например, трейдер выбрал для своей работы две валютные пары, которые коррелируют с К = 0.8. В этом случае, при наблюдении за движением подопытных, человек заметит, что К время от времени меняется, то несколько увеличиваясь, то несколько уменьшаясь. Тем не менее, средние значения коэффициента все равно находятся в диапазоне 0.7 Торговые индикаторы на рынке Форекс

Нахождение подобных ситуаций и дальнейшее их использование затрудняется непостоянностью значения К. Мы можем не верно толковать новые значения коэффициента, принимая из за ожидаемый нами разрыв, но позже может оказаться, что это новое значение данного коэффициента, которое теперь станет постоянным на определенное время. Существуют специальные корреляционные индикаторы, помогающие трейдерам наблюдать за схождением и расхождением инструментов, а другими словами, за изменениями текущих значений К.

Сложно переоценить значимость коэффициента корреляции в рыночной торговле. Его использование позволяет смотреть на трейдинг более глобально, учитывая движения пар, относительно друг друга. Еще одной областью применения коэффициента стало хеджирование. Желая снизить риски в своей торговле, спекулянты могут проводить хеджирование не только на разных рынках, но и с помощью коррелирующих инструментов. Таким образом, происходит частичное хеджирование.

Коэффициент корреляции показателей фондового рынка

Для начала разберемся в самой сути такого понятия, как арбитраж. Это несколько логически связанных сделок, направленных на извлечение прибыли из разницы в ценах на одинаковые или связанные активы в одно и то же время на разных рынках (пространственный арбитраж), либо на одном и том же рынке в разные моменты времени (временно́й арбитраж, обычная биржевая спекуляция). Выделяют эквивалентный арбитраж — операции с комбинацией составных или производных активов (опционов, фондовых индексов) и обычных контрактов, когда между теоретически эквивалентными комбинациями на практике возникает разница цен.

Упрощенно арбитраж выглядит следующим образом: торгуются пары или группы инструментов, суммарная стоимость которых должна быть равна определенной величине, исходя из природы инструментов. Например: акции одной и той же компании на различных торговых площадках, группа инструментов входящих в индекс и фьючерс на индекс. При отклонении стоимости корзины от расчетной величины, совершается сделка. Трейдеры-арбитражеры сглаживают дисбаланс цен на родственных» инструментах.

В первоначальном виде арбитраж возник на заре развития вторичных (региональных) бирж, когда один итот же актив торговался на разных площадках по разным ценам и с 44 каждым годом разрыв этой цены стремительно сокращался, а вместе с ним скорость арбитражных стратегий и их объем.

Сегодня существует в качестве межбиржевого варианта, когда актив торгуется на биржах разных стран, например на токийской и нью-йоркской, лондонской и франкфуртской. А также на NYSE и National Association of Securities Dealers Automated Quotation Index в качестве арбитража разных активов, например двух-трех акций из одного сектора.

В основе арбитража лежит такое понятие, как корреляция. Корреляция, если простыми словами — это взаимосвязь двух или более событий, т.е. когда происходит одно, то вероятно (статистически подтверждено) и другое. Когда-то корреляции на рынке были невыраженными в моменте, они были растянуты во времени. Вот к примеру, как рассуждают экономисты/аналитики: «Если индекс доллара упадет, цена нефти должна расти…» или «Если индекс SNP упадет, цена на золото должна вырасти или наоборот…», ну это как бы простые причинно-следственные связи. Однако совершенно очевидно, что если все так просто, то все бы с легкостью зарабатывали, чего, как мы все прекрасно знаем, не происходит. Пример самой жесткой корреляции — это пары типа Евро Доллар. Они намертво связаны между собой. Малейшее изменение цены одного приводит к мгновенному изменению цены другого. Тут, понятно, корреляция обратная и речь идет о торгуемых инструментах, например, на СМЕ. И данная корреляция действительна в обе стороны. Есть же, например, бумаги, которые сами «ничего не решают», но есть у них «старший», который и скажет, куда им «идти». А есть ситуации, в которых таких «старших» два и более, вот тут совсем все интересно становится.

Когда речь заходит о корреляциях, в том смысле, в каком я их понимаю, неизбежно возникает вопрос: «а кто главный (ведущий)?». Для этого введем понятие «Поводырь» — это будет любой торгуемый инструмент, изменение цены которого приведет к какой-либо реакции того, за которым мы наблюдаем (торгуем).

Основные поводыри для Американского фондового рынка следующие (в порядке убывания силы глобального влияния):

1. Фьючерсный контракт на индекс SNP 500 — главный поводырь, самый влиятельный, нет ни одного ликвидного инструмента, на который бы не оказало влияние изменение цены фьючерсного контракта хотя бы на тик, реакция есть всегда. Вопрос о первичности (кто за кем «ходит»), индекс или фьючерсный контракт, всегда рождает много споров, но нас, спекулянтов, скальперов, волнует только одно — кто из них быстрее. Я могу ответственно заявить, что фьючерсный контракт — быстрее, изменчивее (в разы) и главнее в данном контексте.

2. Фьючерс на нефть WTI — углеводороды, что тут еще сказать. Сильное влияние оказывает на некоторые сектора, на отдельные индустрии, связанные с нефтедобычей и переработкой нефти, а также на те отрасли, где существенная статья издержек — топливо и ГСМ, например авиакомпании. Сам актив несколько зависим от Индекса доллара.

3. Фьючерсный контракт на золото (и другие драг металлы) — Au рулит по-прежнему, ибо мировое «золотое плечо» уже вылезло за все допустимые рамки, не дам источник, но цитату приведу: «В мире обещания продать золото, больше в 100 раз, чем самого золота», как-то так. Т.е. это и мерило ценности некоторых валют, и надежный (однако!) для многих актив, и инструмент хеджирования рисков и еще много чего полезного делает. Также как и нефть, оказывает серьезное влияние на компании, занимающиеся золотодобычей, переработкой, реализацией и прочим. Сам по себе поводырь зависим (в моменте) от Индекса доллара.

4. Индекс доллара — с появлением евро все сильнее стал подвержен колебаниям, связанным с проблемами в Еврозоне, также изменчив за счет спекулятивных действий в торгуемой валютной паре EURUSD. Сам зависим от макроэк. статистики, стоимости облигаций (и наоборот тоже, тут уже сложный аналитический расклад, который данной статьи никак не касается, тем более, я не аналитик и тем более, не экономист, а спекулянт. Оказывает влияние на многие товарные фьючерсные контракты, расчет по которым ведется в американских долларах.

Поводырем вторичным (а иногда и первичным) может также являться акция, которая в данный момент самая сильная/слабая в секторе/индустрии, которая сама по себе является более весомой в индексе из всего сектора. Например, если $C (Citigroup) измениться резко в цене на полпроцента, это мгновенно скажется на остальных акциях, связанных с банковской деятельностью и с финансами, не так сильно отразиться на $JPM и $BAC, но точно «дернет» $BBT и $PNC, к примеру, а уж $FAZ и $FAS отреагируют как следует, по взрослому, с резким изменением котировок и объемом. А вот обратное не будет иметь такого влияния. Если $PNC или какой-нибудь банк Испании или Ирландии не обрушиться на пару процентов, то никто из «толстых» не заметит, однако по цепочке может привести к некоей корректировке на графике. Скажем так, $PNC также входит в состав портфеля, торгуемого в виде ETF $FAZ ($FAS), так вот сильное его ($PNC) изменение приведет к неминуемому (но небольшому) изменению цены индекса, что, закономерно, приведет к корректировке даже $C и $BAC, первого на несколько центов, а второго, возможно, ни на сколько, разве стакан уплотниться в «сильную» сторону. Это один из вариантов, комбинаций может быть очень много. На графике видно, как акции вторичные стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны, и как послушно они «идут» за всеми, если направление сильных совпадает:

На графике изображены: SPY — SPDR S&P 500 (белая линия), C — Citigroup, Inc., JPM — JP Morganand Co., BAC — Bank of America Corp Corporation, GS — The Голдман Сакс Group, Inc., BBT — BB&T Corporation, PNC — PNC Financial Services Group Inc.

Теперь давайте рассмотрим какой-нибудь самый необычный пример. Вот Авиакомпании. Например $UAL или $DAL или $LCC, не входят в состав индекса SNP 500 и тем более DJIA, однако довольно объемны, имеют высокую капитализацию, в целом привязаны к рынку, как таковому, но главное — зависят от цен на топливо. И не нужно рассказывать, что у них все поставки фьючерсные, с фиксированной ценой на пару лет вперед и прочее, это все так, но откройте их график минутный и понаблюдайте, что происходит, когда нефть очень резко изменяется в цене. А теперь добавьте сюда индекс доллара, который влияет на них самих, т.к. Цены их услуг — они в долларахи сама нефть зависит от него (доллара), ну и SNP 500, который частенько идет в противоход нефти… Вот их (акции авиакомпаний) разрывает в разные стороны. А еще помню день был, когда у $LCC отчет случился и нефть с рынком в разные стороны… Вот остальных трепало! График выглядел интересно. Вот пример за эту неделю, $LCC валится на растущей черного золота и растущем фьючерсе, и отрастает на падающей черного золота (тикер $USO):

На графике изображены: SPY — SPDR S&P 500 (белая линия), USO — United States Oil, UAL — United Continental Holdings, Inc., LCC — US Airways Group, Inc., DAL — Delta Air Lines Inc.

Также, для дальнейшего понимания написанного мною, потребуется ввести еще один термин — «Драйвер», под которым понимается некое событие, которое сильно влияет на поведение торгуемого актива, либо, что немаловажно, поводыря, за которым мы также наблюдаем, это может быть новость в компании, отчет, понижение/повышение рейтинга или новость, касающаяся сектора в целом, макроэк. статистика, изменение ставки вложения инвистиций и другие. Т.е. драйверы глобальные влияют на фьючерсные контракты (поводыри, описанные выше), а те, в свою очередь, на торгуемые инструменты и т.д.

Теперь вопрос: почему акции так одинаково ходят и кто за всем этим стоит? Да все, особенно скальперы, роботы-скальперы, люди-скальперы. Роботы-арбитражеры в первую очередь, а также алгоритмы, котирующие акцию (читай маркетмейеры). Ведь иначе невозможно было бы такую массу акций заставить двигаться более менее одинаково, речь, понятно, внутри дня. Потому что, если мы взглянем на большие тайм фреймы, то выясниться, что многие сектора живут своей отдельной жизнью. Вот например, график месячный, с 2000 года:

На нем изображены: XLK — Technology Select Sector SPDR, XLF — Financial Select Sector SPDR, XLP — customer Staples Select Sector SPDR, XLE — energy Select Sector SPDR, XLV — Health Care Select Sector SPDR, XLI — Industrial Select Sector SPDR, XLB — Materials Select Sector SPDR, XLU — Utilities Select Sector SPDR, XLY — customer Discret Select Sector SPDR, SPY — SPDR S&P 500 (белая линия).

Ютилитис какие слабенькие. Интересно, они рванут вверх, за ростом фьючерса или на малейшем его откате шлёпнутся еще ниже? Разброс относительно $SPY приличный. А вот, что на меньших масштабах времени, дневка, за 2012 год:

Действующие лица те же. В общем есть некое понимание, что графики похожи, но одни сильнее рынка в целом, а другие слабее, в абсолютном выражении, при расчете на начало года. Это все глобально, на год, а вот на месяц:

Действующие лица те же. Меня же в торговле интересует арбитраж внутридневной, график — от пятиминутного до минутного:

Или, например, технологический сектор в пятницу (14.09.2012), смотрите, как на откатах фьючерса вниз они «валяться» и «стоят» на его росте, между прочим — это и есть входы в шорт:

На графике изображены: SPY — SPDR S&P 500 (белая линия), T — AT&T, Inc., VZ — Verizon Communications Inc., XLK — Technology Select Sector SPDR.

Это, что касательно фьючерса SNP 500 (на графиках, для моего удобства показан не сам фьючерсный контракт, а ETF на индекс SNP 500, учитывая, что график — линия, различий нет совсем). А вот пример акций нефтяной индустрии, в сравнении с черным золотом:

На графике изображены: USO — United States Oil, XOM — Exxon Mobil Corporation, SLB — Schlumberger Limited, CVX — Chevron. Или, например, «золотые» акции, в сравнении, понятно, с золотом:

На графике изображены: GLD — SPDR gold Shares, NEM — Newmont mining Corp., KGC — Kinross gold Corporation, ABX — Barrick gold Corporation.

Однако, график — одно, а стакан с лентой (LEVEL II + Time & sales) — совсем другое дело (кстати, именно это и позволяет торговать $SPY, опираясь на фьючерсный контракт). Показать в картинках, что происходит и какая реакция — сложно, потому распишу немного словами. Что можем видеть на ведомых, если на ведущих есть большое движение? В первую очередь — изменение котировки без сделок, оно и понятно, акции скоррелированы, а торговать-то некому, ибо акции не первого эшелона, но машинки-котировщики будут исправно двигать биды с оферами, в след за «старшим» братом, держа при этом некий спред, обычно больше 3-4 ц. Если же движение общее, не только на сильных акциях, а на всем рынке в целом, то может произойти сильное движение, с объемом, и с еще большим расширением спреда в противоположную от него (движения) сторону. Например, нефть ($USO) улетела вверх на полпроцента за секунду, в $SLB будет расширен спред в сторону оферов (ASK), чтобы продать повыше, а потом закрыться пониже, поднимая биды (BID). Это один из десятков сценариев, понятно, что всегда есть вариации, но уловить общее можно, если тщательно понаблюдать и проанализировать поведение акций и их поводырей.

Стиль торговли таким образом называется «арбитраж», торгуется, как правило, минимум два инструмента, причем часто в разные стороны, но можно торговать один, рассматривая другие инструменты, как поводырей. Стиль сегодня очень роботизирован, но и для «мануальных скальперов» еще есть место.

Сложим все варианты арбитража в одну табличку и определим четыре варианта действий (простым языком, не пинайте, но так понятно всем будет): что отросло и главное — продавать, а что недоросло — покупать; что упало и главное — покупать, а что недоупало — продавать; что отросло и главное — не трогать, а что недоросло — продавать; что упало и главное — не трогать, а что недоупало — покупать.

Имея ввиду торговлю одного инструмента, чаще поступают так, торгуя по тренду сектора (индустрии): что не главное и отросло сильно — продавать, в случае, когда главное — «стоит и смотрит» вниз (было на вебинаре, кто помнит, $TCK); что не главное и упало сильно — покупать, в случае, когда главное — «стоит и смотрит» вверх.

Еще более кратко сам процесс можно описать так: определяем глобально (по секторам), кто сильный, кто слабый — по дневке; смотрим внутри сектора (на дневках) между акциями тоже самое; смотрим внутри дня на акции (по тренду сектора), опираясь на фьючерсный контракт (+ другие поводыри).

Теперь, как определить «главного» в секторе/индустрии. Те, кто первый в столбце, те и рулят, как правило. НО. В случае, если нет глобальных новостей по сектору или если нет отчетов у разных акций из этого сектора. Т.е. их главенство имеет место быть в самый скучный понедельник, а не в день статистики, газовых запасов, безработицы да еще с отчетом старших акций.

Вычисление коэффициента корреляции портфеля

Итак, перейдем к вычислению средней доходности, дисперсии и стандартного отклонения для портфеля акций, состоящего на 60% из акций А и на 40% из акций В. Мы предполагаем, что доходность по каждой из акций А и В — это случайные величины Rа и Rв. Среднее значение доходности акции А равно 10%, со стандартным отклонением 8,66%. Среднее значение доходности акции В равно 15%, со стандартным отклонением 12%.

Теперь нас интересует, каково будет среднее значение доходности портфеля и стандартное отклонение для портфеля. Вопрос средней доходности портфеля решается просто. А вот стандартное отклонение — показатель уровня изменчивости доходности портфеля, не отражает средней изменчивости доходности его компонентов (акций). Причина в том, что диверсификация снижает изменчивость, так как цены различных акций изменяются неодинаково. Во многих случаях снижение стоимости одной акции компенсируется ростом цены на другую.

Ожидаемая доходность нашего портфеля равна средневзвешенной ожидаемых значений доходностей отдельных акций:

Для того, чтобы найти дисперсию и стандартное отклонение доходности портфеля, мы должны знать значения ковариации акций А и В. Ковариация служит для измерения степени совместной изменчивости двух акций. Общая формула вычисления ковариации:

Из формулы видно, что ковариация любой акции с ней самой равна ее дисперсии. В задачах, значение ковариации двух активов будет дано. Или, вместо нее будет дано значение коэффициента корреляции — безразмерной величины, которая стандартизует ковариацию для облегчения сравнения, и принимает значения от -1 до 1. Пусть нам дано, что коэффициент корреляции акций А и В равен 0,7. Формула коэффициента корреляции:

В большинстве случаев, изменение акций происходит в одном направлении. В этом случае коэффициент корреляции и, соответственно, ковариация, положительны. Если акции изменяются соверженно не связанно, тогда коэффициент корреляции и ковариация равны нулю. Если акции изменяются в противоположных направляения — коэффициент корреляции и ковариация отрицательны. Для нахождения дисперсии портфеля, нам надо заполнить матрицу:

Эта матрица очень похожа на матрицу ковариаций. Заполнив матрицу, надо просто сложить полученные в ней величины и найдем дисперсию портфеля:

Вычислим дисперсию портфеля:

Стандартное отклонение равно квадратному корню из дисперсии, то есть:

Легко подсчитать, что только в том случае, если коэффициент корреляции двух акций равен +1, то стандартное отклонение портфеля равно средневзвешенному стандартных отклонений доходности отдельных акций:

Если же коэффициент корреляции равен -1, то стандартное отклонение портфеля равно:

и можно было бы добиться, изменяя пропорции X1 и X2 акций в портфеле, чтобы стандартное отклонение портфеля было равно нулю. К сожалению, в реальности, отрицательная корреляция акций практически не встречается.

Применение линейного коэффициента корреляции в трейдинге

Коллеги, добрый день! В настоящей статье я хочу предложить вашему вниманию небольшое исследование, посвященное одному из статистических показателей — линейному коэффициенту корреляции. А также поделюсь некоторыми соображениями по его применению в трейдинге на примере акций Лукойла.

Для начала позвольте небольшой экскурс в историю возникновения показателя корреляции (да возблагодарим Википедию!): Корреляция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и ее направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

Линейный коэффициент корреляции (далее ЛКК) (коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

Коэффициент корреляции изменяется в пределах [-1…+1]. Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Итак, коллеги, ЛКК определяет: во-первых, наличие связи между двумя потоками данных, во-вторых, силу этой связи (сила связи определяется приближением абсолютного значения ЛКК к единице), в-третьих, направление этой связи (прямая — ЛКК больше единицы или обратная — ЛКК меньше единицы). Важным и необходимым условием для расчета ЛКК является наличие двух одинаковых по количеству данных потоков данных. Так же в общем случае считается, что значения ЛКК можно считать достоверным, если в расчете участвует поток из более, чем 30 пар данных.

В Excel расчет значения ЛКК реализован через функцию «КОРРЕЛ()». Пример наличия корреляции: Положительная корреляция: температура окружающего воздуха и продажи летней одежды. Чем теплее на улице, тем больше покупаем летних вещей. Рост температуры — рост продаж. Отрицательная корреляция: та же самая температура окружающего воздуха, но продажи уже зимней одежды. Чем холоднее на улице, тем больше покупаем зимних теплых вещей. Снижение температуры — рост продаж.

Примеры применения ЛКК в трейдинге. Области применения ЛКК в трейдинге достаточно широки. Например, долго считалось, что при падении фондовых рынков в целом растет спрос на золото. То есть между динамикой фондовых рынков и динамикой цены золота существует обратная корреляционная зависимость. Другой пример. Рост котировок нефти и рост рынков, вес «нефтянки» в которых высок и является значимым. К таким рынкам относится и фондовый рынок России. Но в последние несколько лет, а именно в основном начиная с 2007 года, такие зависимости явно изменились. И либо сильно ослабли, либо исчезли совсем.

У приведенных выше примеров есть одна общая особенность: они построены строго на двух потоках данных, как того и требует формула расчета ЛКК. Тем не менее, в одной из книг, посвященных теории управления капиталом (а именно, Р.Винс «Математика управления капиталом») я нашел интересный подход к построению ЛКК на массиве, состоящем только из одного потока данных. Это может быть, например, непрерывный поток исходов в системных сделках или поток цен какой-то одной акции. О таком методе построения ЛКК ниже.

Торговая стратегия, построенная на коэффициенте корреляции

Итак, давайте исследуем, например, поток цен на акции Лукойла (LKOH). Составим поток из недельных свечей. Мне удалось найти архив, начиная с 01.01.2001 и по сей день, то есть поток из почти 600 недельных свечей за десять с половиной лет. Исследовать будем не свечи в целом, а, например, максимальные цены в каждой свечей. Таким образом, перед нами непрерывный поток из 600 данных — максимальные цены в каждой торговой неделе, начиная с 01 января 2001 года. Кроме этих данных, пока никакие другие данные нам не нужны.

На рисунке показана динамика максимальных недельных цен в акциях LKOH. Расчет ЛКК должен дать ответы на вопросы: Есть ли зависимость между максимальными ценами двух любых соседних недель. Если зависимость есть, то какова ее направленность? Коллеги, если упростить, то вопрос можно сформулировать так: Если на истекшей неделе Лукойл обновил свой недельный максимум по сравнению с предыдущей неделей, то можем ли мы ожидать продолжения роста и на будущей неделе? Для расчета ЛКК поток данных требует некоторой трансформации. Составим таблицу:

В таблице на рисунке в последнем столбце, построенном на основе данных столбца «High цена», логика расчета следующая: если максимум текущей недели выше, чем максимум предыдущей недели, то в ячейке стоит значение 1. В противном случае значение равно 0. Таким образом, поток цен преобразован в поток единиц и нулей. Далее произведем расчет ЛКК на основе данных столбца «Обновление High цены». Поскольку для расчета ЛКК необходимо два потока данных, то сделаем следующее:

Как видно из рисунка, поток 2 «сдвинут» относительно потока 1 на один период. Таким образом, из одного потока данных получено два. И теперь смысл расчета ЛКК заключается в выяснении связи между двумя соседними значениями выборки. В нашем случае — максимальными ценами соседних недель (текущей и предыдущей). Теперь собственно по расчету ЛКК. Расчет произведем двумя способами: Охватим весь период выборки (600 недель).

Начиная с 30й недели выборки (август 2001 года) для каждой недели рассчитаем значение ЛКК по последним 30 неделям. То есть для каждой недели рассчитаем т.н. «скользящее» значение ЛКК с периодом n=30 (по аналогии со скользящей средней), поскольку при n>30 в общем случае значение ЛКК считается значимым. Результаты расчетов отражены на рисунке:

Выводы по рисунка: На протяжении всего периода выборки у акций Лукойла наблюдается неярко выраженная положительная корреляция между максимальными ценами соседних недель (красная линия графика с ЛКК = +0,1). То есть факт обновления максимальной цены на текущей неделе по сравнению с предыдущей позволяет сделать предположение о том, что на следующей неделе в сравнении с текущей вероятность обновления максимума выше вероятности НЕобновления максимума.

ЛКК, построенное по последним 30 неделям (синяя линия на графике), изменяется в диапазоне от -0,35 (сильная отрицательная корреляция) до +0,6 (очень сильная положительная корреляция). Самый продолжительный период, в течение которого корреляция между недельными максимумами была положительная — это период с мая 2004 года до августа 2007 года. В этот период обновление максимумов на прошлой неделе в большинстве случаев приводило к обновлению максимумов в течение текущей недели. Именно в этот период акции Лукойла агрессивно росли.

Самый продолжительный период, в течение которого корреляция между недельными максимумами была отрицательная — это период с августа 2007 года по июль 2011 года. В этот период недельной обновление максимумов на прошлой неделе в большинстве случаев не приводило к обновлению максимумов в течение текущей недели. И наоборот, НЕобновление недельных максимумов в течение текущей недели в большинстве случае приводило к росту на следующей неделе. В этот период акции Лукойла «запилило» от максимумов весной 2008 года до низов в июле 2009 года.

В точках, где синяя линия находится выше красной, корреляция между недельными максимумами выше средней за период и имеет прямую направленность. В таких точках при обновлении недельных максимумов на текущей неделе наиболее вероятно обновление максимумов в течение следующей недели. В точках, где синяя линия находится ниже красной, корреляция между недельными максимумами ниже средней за период и имеет в основном обратную направленность. В таких точках, в отличие от ситуации п.5, наиболее вероятно обновление максимумов в течение следующей недели при НЕобновлении недельных максимумов текущей недели.

Коллеги, на основании последних двух выводов у меня сформировалась идея тестирования стратегии, построенной на принципах такого парного корреляционного эффекта.

Торговля ациями по коэффициенту корреляции

Стратегия, построенная на принципах автокорреляции. Общее описание стратегии. Принципы стратегии: тестируемый инструмент — акции Лукойла (LKOH) на недельном ТФ за период с 01.01.2001 по 31.07.2012; типы совершаемых сделок — исключительно Long; время удержания позиции — вход на Open недельной свечи, выход на Close этой же свечи. Таким образом, удержание позиции строго в течение торговой недели без ухода в бумагах на выходные; внешние факторы — цены нефти, мировые новости, динамика западных рынков и проч. — не учитываются; внутренние факторы — внутрикорпоративные новости, дивидендные отсечки и проч. — не учитываются.

Принципы формирования сигналов: Методом тестирования определяется некое критическое скользящее значение линейного коэффициента корреляции (далее — ЛККкр) по 30 периодам. Покупка Вариант 1. Если текущее значение ЛКК ВЫШЕ критического значения и на текущей неделе ПРОИЗОШЛО обновление максимума по сравнению с прошлой неделей, то на Open следующей недели происходит покупка. Срок удержания позиции — не позднее Close недели открытия позиции.

Покупка Вариант 2. Если текущее значение ЛКК НИЖЕ критического значения и на текущей неделе НЕ ПРОИЗОШЛО обновление максимума по сравнению с прошлой неделей, то на Open следующей недели происходит покупка. Срок удержания позиции — не позднее Close недели открытия позиции. Во всех остальных случаях — вне позиции (cash). Таким образом, для принятия решения о входе/невходе в позицию необходима информация о максимальных ценах последних 30ти недель. И ничего более сверх этого.

Само решение принимается в промежутке между закрытием торговой недели и открытием следующей торговой недели. В случае формирования торгового сигнала трейдеру необходимо находиться в рынке утром первого дня торговой недели для открытия позиции и вечером последнего дня торговой недели для выхода из бумаг. Для тестирования такой стратегии вполне хватило возможностей Excel. У недельного Лукойла критическим значением ЛКК оказалось значение 0,15. Приведу пару примеров для иллюстрации:

Сигнал от 25.06.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1855 (>0,15) и обновлен максимум предыдущей недели (1805 руб. > 1765 руб.). На основании этого на Open свечи 02.07.12 совершена покупка по 1804 руб. Позиция закрыта на Close свечи 02.07.12, то есть 06.07.12, по цене 1825 руб. Рентабельность сделки составила +1,2% при периоде удержания позиции 5 сессий.

Сигнал от 02.07.12. В данном случае так же выполнены оба условия покупки: ЛККкр=0,2472 (>0,15) и обновлен максимум предыдущей недели (1857 руб. > 1805 руб.). На основании этого на Open свечи 09.07.12 совершена покупка по 1826 руб. Позиция закрыта на Close свечи 09.07.12, то есть 13.07.12, по цене 1818 руб. Рентабельность сделки составила -0,4% при периоде удержания позиции 5 сессий.

Сигнал от 07.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1098 ( Динамика дохода тестируемой стратегии в сравнении с принципом B&H

На рисунке показана динамика дохода тестируемой стратегии в сравнении с принципом B&H. За точку отчета (0%) принята цена акций Лукойла в начале января 2001 года (270 руб.). Как видно, принцип B&H опережал стратегию в течение 2001-2008 гг. Падение ранка в 2008 году сравняло результаты обоих стратегий до уровня примерно +200% к старту. Затем, начиная с 2009 года, обе стратегии показали примерно одинаковые результаты и на сегодня корреляционная стратегия незначительно опережает по доходности принцип B&H.

Как видно из профилей графиков, волатильность (риск) принципа B&H гораздо выше волатильности тестируемой стратегии. Размер среднегодовой доходности тестируемой стратегии составляет 20% годовых на всем периоде тестирования.

Риск-менеджмент, основанный на коэффициенте корреляции

Покупка по Варианту 1 (ЛККкр >0,15 + новый максимум)

Из 600 недель тестового периода сигналы по Варианту 1 возникли в 109 случаях (19% потока или каждая пятая неделя). Из 109 сигналов 74 отработали в плюс (68%, или два из трех сигналов). Средний результат положительного исхода равен по модулю среднему результату отрицательного исхода (38 руб./акция) Общий положительный результат потока сигналов сформирован за счет превышения в 2 раза количества положительных исходов над отрицательными исходами.

С учетом частоты распределения положительных и отрицательных исходов расчет мат. ожидания выглядит следующим образом: Размер ожидаемого успеха +26 руб./акция, Размер ожидаемого убытка -13 руб./акция, Общий ожидаемый результат +13 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 24 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-11 руб.;+38 руб.], Максимальная серия подряд убыточных сигналов составила 2 сигнала с максимальным риском не более 178 руб./акция. В нынешних ценах это около 9% торгового депозита.

Покупка по Варианту 2 (ЛККкр Покупка по Варианту 2 (ЛККкр меньше 0,15 + нет нового максимума)

Фактически покупки по варианту 2 — это покупки против падения рынка. Поэтому показатели риска и волатильности выше, нежели по варианту 1. Из 600 недель тестового периода сигналы по Варианту 2 возникли в 190 случаях (33% потокаили каждая третья неделя). Из 190 сигналов 91 отработали в плюс (48% или половина сигналов). Средний результат положительного исхода равен +66 руб./акция, а отрицательного исхода -50 руб./акция. Общий положительный результат потока сигналов сформирован за счет превышения размера средней прибыли над средним убытком.

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +32 руб./акция, Размер ожидаемого убытка -26 руб./акция, Общий ожидаемый результат +6 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 49 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-44 руб.;+55 руб.], Максимальная серия подряд убыточных сигналов составила 6 сигналов с максимальным риском 187 руб./акция. В нынешних ценах это около 10% торгового депозита. Стратегия в целом:

Из 600 недель тестового периода сигналы по стратегии в целом возникли в 299 случаях (53% потока или каждая вторая неделя). Из 299 сигналов 165 отработали в плюс (55% или более половины сигналов). Средний результат положительного исхода равен +53 руб./акция, а отрицательного исхода -47 руб./акция. Общий положительный результат потока сигналов сформирован как за счет превышения количества положительных исходов над отрицательными исходами, так и за счет превышения размера средней прибыли над средним убытком.

С учетом частоты распределения положительных и отрицательных исходов расчет мат ожидания выглядит следующим образом: Размер ожидаемого успеха +29 руб./акция, Размер ожидаемого убытка -21 руб./акция, Общий ожидаемый результат +8 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 55 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-47 руб.;+63 руб.], Максимальная серия подряд убыточных сигналов составила 6 сигналов с максимальным риском 187 руб./акция. В нынешних ценах это около 10% торгового депозита при доходности 20% годовых.

В целом стратегия показала неплохой тренд-следящий результат, а так же оказалась достаточно устойчива в условиях падения 2008 года. Особенно, если учесть усилия трейдера по следованию сигналам. Коллеги, за сим пока все по описанию линейной корреляции и ее применении в трейдинге.

Коэффициент корреляции валютных пар

Рассмотрим такое явление, как межвалютная корреляция на Рынке Forex. Данная методика может существенно повысить понимание рыночных процессов, а также улучшить качество ваших краткосрочных и среднесрочных прогнозов. Существует две разновидности межвалютной корреляции, которые могут помочь в работе трейдера. Рассмотрим подробнее.

Корреляция — это статистический термин, означающий наличие взаимосвязанных тенденций изменений между двумя рядами данных. В нашем случае Валютная корреляция — это взаимосвязь между историческими данными курсов одной валютной пары. Или изменения курса одной пары могут быть взаимосвязанными с изменениями другой пары. Данная взаимосвязь чаще всего имеет фундаментальное экономическое обоснование и уходит корнями в особенности всемирного хозяйства. Проще говоря, есть две валютных пары: A/B и C/D. Если между ними есть корреляция, при росте курса A/B может стабильно наблюдаться или рост кусра C/D (тогда это прямая корреляция) или его падение (тогда корреляция буде обратной).

Выше мы говорили о двух разновидностях. Это скользящая и прямая корреляция. Прямая корреляция валютных пар — явление, полезное для повышения точности прогнозов. Даже торгуя на одном инструменте, вы можете повысить точность прогнозирования, применяя анализ нескольких валютных пар. Вернемся к нашим A/B и C/D, допустим, вы торгуете инструментом A/B. Известно, что эти валютные пары в прямой корреляции, то есть вверх и вниз идут синхронно. Ваш технический анализ показал, что пара A/B должна падать. Соответственно, если теханализ пары C/D говорит об обратном, есть повод усомниться в достоверности сигнала. Если же всё совпало, — вы можете с большей уверенностью открывать позицию. Получается, зная взаимосвязи, можно уменьшить количество случайных сигналов. Однако нужно помнить, что корреляционный анализ работает на относительно больших масштабах (в лучшем случае на часовых или получасовых графиках). Если ваша торговая стратегия базируется на «минутках», эти данные могут только помешать.

Следующий вид корреляции — скользящая. Суть в том, что взаимосвязь проявляется на сдвинутом по временной шкале наборе данных. То есть изменение курса пары A/B сейчас является предвестником изменения пары C/D в будущем. Если собрать информацию, достаточно детальную для формирования торговой стратегии, наличие таких корреляций может очень существенно повысить точность. Фактически, у вас появляется инструмент базового прогнозирования курса.

Как анализировать корреляцию?

Чтобы отыскать корреляционную связь, можно пользоваться существующими утилитами из Интернета (которые не сложно найти в Гугле по запросу «корреляция валют форекс») или делать всё руками, в старом добром экселе. Там есть такая замечательная функция КОРРЕЛ, которая показывает корреляцию двух выбранных множеств данных. Берем курсы нескольких инструментов, копируем исторические данные в Эксель и ищем корреляцию. Чтобы искать прямую корреляцию, необходимо выделять два совпадающих по временному промежутку набора данных. Чтобы искать скользящую взаимосвязь, сдвигаем множество вправо или влево на несколько периодов. Корреляция более 0.5 свидетельствует о прямой взаимосвязи, менее 0.5 — об обратной взаимосвязи, в пределах от -0.5 до 0.5 — об отсутствии взаимосвязи. Эти границы более чем условны, следует проверять их на практике.

Для того чтобы легче было понять взаимосвязи и соотношение с числом коэффициента корреляции я подготовил рисунки, которые наглядно показывают коэффициент и визуальное сходство двух рядов. В качестве примера взяты рад косинуса и зашумлённый ряд косинусоиды, от амплитуды зашумления зависит коэффициент корреляции:

А здесь пример обратной корреляции валют. Как видим когда одна расчёт другая падает! Как EURUSD и Доллар Франк:

Текущая корреляция наиболее популярных валютных пар. Нужно понимать, что корреляция между валютами не является постоянной, рынок постоянно меняется. Приведенные здесь данные являются примерными, точную информацию нужно рассчитывать самостоятельно. Рассмотрим, как коррелирует с другими инструментами наиболее популярный среди трейдеров инструмент Евро Доллар: прямая корреляция с: AUD USD, BP/USD, NZD/USD; обратная корреляция с: Доллар Йена, USD CHF, Доллар США/Канадский доллар.

Еще один любимый нашими трейдерами инструмент — «йенадоллар», Доллар/Йена. Взгялем на него: прямая: USD/CHF, Доллар США Канадский доллар; обратная: Евро/Доллар, AUS/USD,GBP/USD,NZD/USD. Что касается скользящей корреляции, ловить ее довольно сложно. К примеру, часто цена золота опережает или немного отстает от GBP/USD. Но такую взаимосвязь нужно рассчитывать чуть ли не для каждого отдельного торгового дня.

Изменение коэффициента корреляции ценовых графиков

В качестве примера корреляции двух пар с положительным К, можно вспомнить о EURUSD и Euro — JPY. В обоих случаях мы покупаем EUR и продаем вторую валюту. Некоторые пары движутся относительно друг друга, но со временем К может меняться. Например, чтобы определить для своей работы две коррелирующие между собой валютные пары, достаточно найти такую из всего ассортимента, предоставляемого ДЦ, которая бы имела очень низкую волатильность. В 2012 году в качестве такого инструмента вполне могла бы выступать EURCHF. Не каждый день ширина ее движения на рынке превышала бы 30 пунктов, что можно считать малой величиной, относительно аналогичных показателей других пар.

Данную валютную пару можно без труда разложить на две пары, используя для этого ту валюту, которая “разбавит” выбранный нами инструмент. Для этого мы берем USD, который позволит представить нам EUR CHF, как EUR/USD*USD/CHF. Действительно, если перемножить две новых долларовых пары, то в результате мы вновь получаем исследуемую нами Евро Франк. Данное преобразование говорит о том, что обе пары будут коррелировать между собой, так как их произведение будет демонстрировать значения пары Евро Франк, а они относительно малы, о чем говорили в самом начале примера.

Для уверенной торговли необходимо иметь четкое представление не только об особенностях отдельных инструментов торговли, но и об их взаимодействии друг с другом. Существуют целые торговые стратегии, построенные с использованием К. Могут применяться даже наложения одного ценового графика на другой, для выявления аналогий в движениях цены. Коэффициент может периодически рассчитываться заново, учитывая последние изменения в поведении ценовых графиков.

Коэффициент корреляции в анализе инвестиционного портфеля

Согласно Гарри Марковицу, любой инвестор должен основывать свой выбор исключительно на ожидаемой доходности и стандартном отклонении при выборе портфеля. Таким образом, осуществив оценку различных комбинаций портфелей, ондолжен выбрать «лучший», исходя из соотношения ожидаемой доходности и стандартного отклонения этих портфелей. При этом соотношение доходность-риск портфеля остается обычным: чем выше доходность, тем выше риск.

Также, прежде чем приступить к формированию портфеля, необходимо дать определение термину «эффективный портфель». Эффективный портфель — это портфель, который обеспечивает: максимальную ожидаемую доходность для некоторого уровня риска, или минимальный уровень риска для некоторой ожидаемой доходности.

В дальнейшем будем находить эффективные портфели в среде Excel в соответствии со вторым принципом — с минимальным уровнем риска для любой ожидаемой доходности. Для нахождения оптимального портфеля необходимо определить допустимое множество соотношений «риск-доход» для инвестора, которое достигается путем построения минимально-дисперсионной границы портфелей, т.е. границы, на которой лежат портфели с минимальным риском при заданной доходности.

На рисунке выше жирной линией отображена «эффективная граница», а большими точками отмечены возможные комбинации портфелей.

Эффективная граница — это граница, которая определяет эффективное множество портфелей. Портфели, лежащие слева от эффективной границы применить нельзя, т.к. они не принадлежат допустимому множеству. Портфели, находящиеся справа (внутренние портфели) и ниже эффективной границы являются неэффективными, т.к. существуют портфели, которые при данном уровне риска обеспечивают более высокую доходность, либо более низкий риск для данного уровня доходности.

Для построения минимально-дисперсионной границы и определения «эффективной границы» нам будут необходимы значения ожидаемых доходностей, рисков (стандартных отклонений) и ковариации активов. Имея эти данные можно приступить к нахождению «эффективных портфелей».

Начнем с расчета ожидаемой доходности портфеля по формуле:

где Хi — доля i-ой бумаги в портфеле, E(ri) — ожидаемая доходность i-ой бумаги. А затем определим дисперсию портфеля, в формуле которой используется двойное суммирование:

И как следствие найдем стандартное отклонение портфеля, которое является квадратным корнем из дисперсии. Для наглядности приведем пример построения эффективной границы при помощи Microsoft Excel, а точнее при помощи встроенного в него компонента Поиск решения.

Зададим долю каждого актива в нашем первоначальном портфеле пропорционально их количеству. Следовательно, доля каждого актива в портфеле составит 1/3, т.е. 33%. Общая доля должна равняться 1, как для портфелей,в которых разрешены «короткие» позиции, так и для тех, в которых запрещены. Сам Гарри Макс Марковиц запрещает открывать «короткие» позиции по активам, входящим в портфель, однако современная портфельная это разрешает. Если «короткие» позиции разрешены, то доля по активу будет отображена как -0.33 и средства, вырученные от его продажи, должны быть вложены в другой актив, таким образом, доля активов в портфеле в любом случае будет равняться 1.

Рассчитаем ожидаемую доходность, дисперсию и стандартное отклонение средневзвешенного портфеля:

Как видно из таблицы, для определения дисперсии портфеля нужно просто просуммировать данные в ячейках B19-D19, а квадратный корень из значения ячейки C21 даст нам стандартное отклонение портфеля в ячейке C22. Произведение долей бумаг на их ожидаемую доходность даст нам ожидаемую доходность нашего портфеля, которая отражена в ячейке C23. Окончательный результат средневзвешенного портфеля представлен ниже.

Средняя (ожидаемая) месячная доходность средневзвешенного портфеля 0,28% при риске 6,94%. Теперь можноприменить тот самый второй принцип, о котором было написано выше, т.е. обеспечить минимальный риск при заданном уровне доходности. Для этого воспользуемся функцией «Поиск Решений» из меню «Сервис». Если нет, значит надо открыть «Сервис» выбрать «Надстройки» и установить «Поиск решений». Запускаем «Поиск решений», в пункте «Установить указанную ячейку» указываем ячейку С22, которую будем минимизировать за счет изменения долей бумаг в портфеле, т.е. варьированием значений в ячейках A16-A18. Далее надо добавить два условия, а именно:

— сумма долей должна равняться 1, т.е. ячейка A19 = 1;

— задать доходность, которая нас интересует, к примеру, доходность 0.28% (ячейка С23), которая получилась при расчете средневзвешенного портфеля.

Так как мы запрещаем наличие «коротких» позиций по бумагам в меню «Параметры» надо установить галочку «Неотрицательные значения». Вот так должно выглядеть:

В результате мы получаем:

Итак, задав «Поиск решений» найти минимальное стандартное отклонение при заданной ожидаемой доходности в 0,33% мы получили оптимальный портфель, состоящий на 83% из РАО ЕЭС, на 17% из Лукойла и на 0% из Ростелекома. Несмотря на то, что уровень доходности тот же, что и при средневзвешенном портфеле, риск снизился.

Парный трейдинг и коэффициент корреляции

Понятие корреляция лежит в основе многих прибыльных торговых стратегий рынка Forex. В качестве примера можно привести парный трейдинг, основанный на корреляции валютных пар, позволяющий получить стабильную высокую прибыль на разных коррелирующих инструментах (об этом мы писали в предыдущих статьях) и торгового робота Octopus Arbitrage, его реализующего. В этой статье мы попытаемся просто и доступно объяснить суть корреляции и показать, как это можно применить на практике для парного трейдинга.

Почему было решено посвятить этой теме отдельную статью? Дело вот в чем. Несмотря на то, что корреляция нашла широкое практическое применение, доступное объяснение найти весьма трудно.

Как говорил Альберт Эйнштейн «если ты не можешь объяснить шестилетнему ребенку, чем ты занимаешься, значит, ты шарлатан». К сожалению, математики, пишущие учебные материалы этого принципа не придерживаются. Как только открываешь их талмуды, желая понять достаточно простые вещи, например, корреляция, так на тебя злобно смотрят четырехэтажные формулы, тройные интегралы и двухстраничные доказательства с применением огромного количества матерных слов незнакомых терминов. Самые стойкие засыпают через три минуты прочтения. Менее стойкие — через пять секунд созерцания этой «математической гармонии» создают облако пыли от захлопывающегося талмуда или нажимают крестик в правом верхнем углу экрана.

Корреляция — величина, характеризующая взаимную зависимость двух случайных величин, X и Y, безразлично, определяется ли она некоторой причинной связью или просто случайным совпадением… Итак, что такое корреляция? По сути, корреляция показывает, насколько сильно связаны между собой величины. Если взять две произвольные величины, они могут быть сильно связаны между собой, никак не связаны, или слабо связаны.

Рассмотрим пример. Насколько связаны между собой количество прибыли, которую заработал трейдер за торговую сессию от количества выпитых им чашек кофе за тот же период? Т.е. имеем две величины: количество кружек кофе и прибыль.

Простой и наглядный способ анализа корреляции — загнать эти данные в Microsoft Excel и построить график. Стандартными средствами Excel можно вывести линию тренда, а также коэффициент корреляции R2. Как определяется коэффициент корреляции, поговорим чуть позже, пока лишь скажем, что эта величина изменяется от 0 до 1. При этом 0 — показывает, что связи нет вообще, а 1 — самая сильная связь, какая может быть. Линия тренда при отсутствии связи будет направлена параллельно оси X, при максимально сильной связи — под углом 45 градусов.

Ну что ж, похоже количество выпитого кофе на получение прибыли трейдером не влияет никак. Коэфициент корреляции R2 всего лишь 0,0289, линия тренда почти горизонтальна. Почему так ? Возможно, помимо выпитого кофе существует множество факторов, оказывающих куда более существенное влияния на получение прибыли: факторы рынка, работа ДЦ, особенности выбранной торговой стратегии, личные качества трейдера и т.д.

Теперь разберем другой пример. Рассмотрим связь между валютными парами EURUSD и GBP/USD. Были взяты скользящие средние дневных цен с 2 по 5 декабря 2013 года. Было взято четыре точки для простоты дальнейшего объяснения расчетов. Как правило, для подобных расчетов, точек нужно брать больше.

Теперь, аналогично, предыдущему примеру на основании этих данных построим график в Excel.

Так, здесь видно, что зависимость гораздо сильнее, так как R2 близко к единице, а линия тренда расположена почти под 45о. Можно сказать, что величины здесь коррелируют. Теперь рассмотрим, как рассчитывается коэффициент R. Здесь, к сожалению, без формул не обойтись. Однако, на самом деле, все заумные формулы можно свести к уровню седьмого класса средней школы. Для начала определимся, что у нас есть две «случайные» величины. Обозначим Евро Доллар как X, а Фунт/Доллар как Y.

Далее хочу отметить, что большинство понятий, математической статистики базируются на среднем значении выборки. Проще говоря, на среднем арифметическом, т.е. сумма всех элементов, поделенная на их число. Вычислим среднее для величин X и Y.

Далее, приведем формулу расчета R2 . В ней нет ничего сложного, как может показаться на первый взгляд. Здесь просто используются вычисленные нами средние арифметические:

Подставив выделенное в формулу получаем:

Таким образом, мы получили, посчитав «вручную», то, что автоматически делает Excel. Коэффициент R2 называется еще «коэффициентом Пирсона». Корреляция по EUR USD и Фунт Доллар, на самом деле, достаточно сильная, на это конечно есть фундаментальные причины, рассмотрение которых находится за рамками этой статьи.

Как корреляцию можно использовать для получения прибыли? Ярким примером может послужить стратегия парного трейдинга. Стратегия подразумевает, что большую часть времени выбранные валютные пары двигаются в рынке синхронно, но расхождения в поведении курсов происходят достаточно часто и каждое значительное рассогласование можно использовать для извлечения прибыли. Когда валютные пары расходятся на определенное количество пунктов: открываются две сделки, на одной паре — продажа, на другой — покупка. Когда пары возвращаются «друг к другу», позиции закрываются и прибыль фиксируется на одной или обеих позициях.

При расхождении инструментов открываются встречные позиции, при возвращении корреляции в исходное положение, встречные ордера закрываются, прибыль фиксируется на одной или обеих позициях

Безусловно, в нашей статье, описаны только основные принципы корреляции и парного трейдинга, поняв которые можно четко уяснить суть. Однако, для того, чтобы получать прибыль на Форекс, одних этих знаний недостаточно. Необходимо использовать специальные индикаторы, понимать расхождение каждой из пар и многое другое. Сколько трейдеров уже набили себе шишек на этом пути!

Кроме того, необходимо постоянно быть «в рынке», двадцать четыре часа в сутки, семь дней в неделю, чтобы «не проспать», когда разойдется или же наоборот сойдется корреляция. При этом для устойчивого получения прибыли необходимо использовать не две валютные пары, а больше. Трейдер просто физически не сможет этого сделать. Как же здесь быть?

К счастью, есть уникальный торговый советник Octopus Arbitrage. Правильно настроив его и установив на нескольких парах, от трейдера, как правило, больше ничего не требуется. Все остальное сделает робот. Уникальный алгоритм позволит получать достойную прибыль при минимальных просадках, трейдер просто наблюдает за ростом депозита. Как говорится: «Вкалывают роботы — счастлив человек».

Коэффициент корреляции в психологических исследованиях

Коэффициент корреляции является одним из самых востребованых методов математической статистики в психологических и педагогических исследованиях. Формально простой, этот метод позволяет получить массу информации и сделать такое же количество ошибок. В этой статье мы рассмотрим сущность коэффициента корреляции, его свойства и виды. Слово correlation (корреляция) состоит из приставки «co-», которая обозначает совместность происходящего (по аналогии с «координация») и корня «relation», переводится как «отношение» или «связь» (вспомним public relations — связи с общественностью). Дословно correlation переводится как взаимосвязь.

Коэффициент корреляции — это мера взаимосвязи измеренных явлений. Коэффициент корреляции (обозначается «r») рассчитывается по специальной формуле и изменяется от -1 до +1. Показатели близкие к +1 говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной. Показатели близкие к -1 свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются.

Пример. На большой выборке был проведён тест FPI. Проанализируем взаимосвязи шкал Общительность, Застенчивость, Депрессивность. Начнем с Застенчивости и Депрессивности. Для наглядности, задаём систему координат, на которой по X будет застенчивость, а по Y — депрессивность. Таким образом, каждый человек из выборки исследования может быть изображен точкой на этой системе координат. В результате расчетов, коэффициент корреляции между ними r=0,6992.

Как видим, точки (испытуемые) расположены не хаотично, а выстраиваются вокруг одной линии, причём, глядя на эту линию можно сказать, что чем выше у человека выражена застенчивость, тем больше депрессивность, т. е. эти явления взаимосвязаны. Построим аналогичный график для Застенчивости и Общительности.

Мы видим, что с увеличением застенчивости общительность уменьшается. Их коэффициент корреляции -0,43. Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…). Если бы точки были расположены хаотично, коэффициент корреляции приближался бы к 0.

Коэффициент корреляции отражает степень приближенности точек на графике к прямой. Приведём примеры графиков, отражающих различную степень взаимосвязи (корреляции) переменных исследования. Сильная положительная корреляция:

Блог форекс-инвестора

Все о заработке и инвестициях на форексе

Что такое корреляция: определение и применение в торговле

Корреляция широко применяется профессиональными трейдерами, которые работают на различных рынках. Благодаря этому феномену, инвестор может диверсифицировать свои риски и работать с большим количеством финансовых инструментов одновременно. В этой статье мы расскажем о том, что такое корреляция, какой она бывает, а также рассмотрим причины ее появления и приведем примеры.

Содержание:

  • Определение корреляции и ее виды;
  • Причины возникновения этого феномена на разных рынках и примеры;
  • Коэффициент;
  • Использование корреляции в трейдинге.

Определение корреляции

Под корреляцией понимают статистическую взаимосвязь двух или более величин. При изменении значений одной из них, происходит изменение значений всех других, имеющих подобную взаимосвязь. Это общее определение корреляции, которое можно найти в любом энциклопедическом издании.

Что касается финансовых рынков, здесь подобная взаимосвязь прослеживается регулярно как в рамках инструментов одной группы (к примеру, валютных пар Форекс), так и между ними (корреляция валют, индексов и товаров, например).

Взаимосвязь может быть двух видов. Прямая корреляция валютных пар, к примеру, указывает на то, что эти торговые инструменты имеют взаимосвязь, которая прослеживается в динамике и выражается в движении в одном направлении. То есть, если рассматривать такую связь между GBP/USD и EUR/USD, можно отметить, что эти активы вместе растут цене и вместе снижаются.

Обратная корреляция проявляется тогда, когда два или боле активов изменяются в цене в противоположных направлениях. Примером такого феномена могут служить колебания GBP/USD и USD/JPY.

Причины появления корреляции на рынках, примеры

К основным факторам, которые приводят к появлению такой взаимосвязи можно отнести фундаментальные аспекты и развитие международной торговли. Основной движущей силой колебания котировок являются процессы, происходящие в экономике и финансовом мире.

Корреляция на Форекс образуется за счет тесных экономических связей. К примеру, валютные пары EUR/USD и GBP/USD тесно связаны между собой. Великобритания является членом Европейского Союза. Соответственно, любые события в этом экономическом и политическом объединении сказываются на положении «кабеля» по отношению к «гринбэку».

Что касается межгрупповой корреляции, ее причина также кроется в экономических факторах. Наиболее свежий пример – падение всех «сырьевых» валют вместе со снижением цен на нефть. Причем, чем больше экономика государства зависит от экспорта сырья, тем существенней будет такая взаимосвязь.

Простой пример – корреляция курса рубля и цены на нефть. Доля экспорта нефти в российской экономике высока. Соответственно, чем дешевле будет этот товар, тем значительнее будет снижение российской валюты по отношению к доллару. Здесь также стоит отметить и тот факт, что нефть котируется в долларах США. Соответственно, снижение цен на нефть выражается в росте американского доллара.

Корреляция нефти и канадского доллара также связана исключительно с тем фактором, что экономика Канады зависит от экспорта этого вида углеводородов и, соответственно, цен на него. Интересный феномен краткосрочной взаимосвязи можно было наблюдать в начале 2016 года, когда вслед за падением цен на нефть ниже отметки в 30 долларов за баррель, достаточно резко снизились котировки фондового индекса Саудовской Аравии Tadawul All Shares Index (падение составило 300 позиций или 6,5%). Ранее, этот индекс также демонстрировал постепенное снижение вслед за котировками нефти.

На скриншоте можно видеть корреляцию индекса РТС и нефти. Она достаточно сильная и ее можно применять на практике.

Корреляция на фондовом рынке проявляется тогда, когда растут целые сектора экономики (или, наоборот, деловая активность в них снижается). В этом случае можно наблюдать либо «бычьи» настроения, либо «медвежьи» даже по ценным бумагам конкурирующих компаний. Правда, здесь стоит обращать внимание на степень взаимосвязи в корреляции акций.

Рост или снижение деловой активности в экономике в целом и в ее секторах в частности, может привести и к корреляции индексов. Но здесь важно учитывать еще и то, как рассчитывается индекс.

Такие финансовые инструменты и одновременно индикаторы фондовых рынков могут иметь взаимосвязь с рынком Форекс, к примеру. В период действия программ Количественного смягчения в США, валютная пара EUR/USD коррелировала со многими американскими фондовыми индексами. При этом, она находилась в обратной взаимосвязи с индексом доллара (что вполне логично) и американскими казначейскими облигациями (что также вполне логично, ведь последние номинированы в долларах США).

Коэффициент взаимосвязи

Данный коэффициент можно использовать на практике. С его помощью можно определить, насколько сильная связь между двумя или несколькими активами. Значения коэффициента находятся в диапазоне от +1 до -1.

Наиболее сильной взаимосвязью обладают активы с коэффициентом 1 или близким к нему. Финансовые инструменты со значением -1 демонстрируют обратную корреляцию графиков. При значении 0, взаимодействие между активами отсутствует.

Следует отметить, что этот коэффициент не является статичным. Его необходимо рассчитывать за определенный промежуток времени. Исходя из этих расчетов можно определить, к примеру, средний приблизительный коэффициент корреляции за час, день, месяц или даже год (в зависимости от ваших торговых предпочтений).

Минусом расчета такого коэффициента как раз и является возможность отклонений, ввиду чего трейдеры могут принимать неверные торговые решения.

Применение корреляции на практике

Использование корреляции в торговле возможно в нескольких направлениях:

  • диверсификация;
  • хеджирование рисков;
  • парный трейдинг.

Многие инвесторы и трейдеры стремятся диверсифицировать набор активов для того, чтобы получить больше прибыли или оптимизировать свою торговую систему. Для решения этой задачи и применяется корреляция, которая позволяет найти несколько активов с одинаковым направлением колебаний на рынке.

С помощью такой взаимосвязи, можно хеджировать свои торговые риски. Покупая, к примеру, одну валютную пару, можно продавать коррелирующую ей. Впоследствии, когда определится рыночное направление. Убыточная позиция закрывается. В этом случае, можно также открыть противоположную для увеличения дохода.

Стратегия «Парный трейдинг» — это еще один вид применения корреляции. Суть ее работы заключается в поиске максимальных расхождений во взаимосвязанных активах и торговле на сближение.

Заключение

Теперь вы знаете, что такое корреляция и как ее применяют в трейдинге. У вас есть не только теоретические, но и практические знания в этой области. Корреляция позволяет существенно улучшить торговые результаты и расширить список используемых активов за счет их взаимосвязи. Если же у вас остались какие-то вопросы или вы хотите сделать замечания по этой тематике, оставляйте свои отзывы в комментариях.

Частные и множественные коэффициенты корреляции, их определение и назначение

Коррелограмма

Последовательность коэффициентов автокорреляции уровней первого, второго и других порядков называется автокорреляционной функцией временного ряда. График значений коэффициентов автокорреляции разных порядков называют коррелограммой.

Анализ автокорреляционной функции и коррелограммы позволяет найти лаг, при котором автокорреляция наиболее высокая, а следовательно, и лаг, при котором связь между текущим и предыдущими уровнями временного ряда наиболее тесная.

Анализ коэффициентов автокорреляции

Если максимальным оказался коэффициент автокорреляции первого порядка, временной ряд содержит только тенденцию (тренд).
Если максимальным оказался коэффициент автокорреляции порядка n, ряд содержит циклические колебания с периодичностью в n моментов времени.

Если ни один из коэффициентов автокорреляции не является значимым (близок к 0), можно сказать, что либо ряд не содержит тенденции и циклических колебаний, либо ряд содержит нелинейную тенденцию, для выявления которой проводят дополнительный анализ.

Хер его знает.

Частные и множественные коэффициенты корреляции, их определение и назначение.

Как правило, регрессионному анализу предшествует анализ корреляционной зависимости переменных, который позволяет установить наличие связи между анализируемыми переменными, оценить ее тесноту и определить направление (прямая или обратная связь). Кроме того, в ходе корреляционного анализа происходит отбор существенных факторов, включаемых в уравнение регрессии.

Наиболее простой формой корреляционного анализа является парная корреляция – анализируется связь между парой признаков – откликом и одним предиктором . В этом случае уравнение регрессии принимает вид у =f(x).

В ходе множественного корреляционного анализа рассчитываются следующие характеристики:

парные коэффициенты корреляции оценки тесноты линейной корреляционной связи между всеми парами анализируемых признаков с учетом их взаимного влияния и взаимодействия. Совокупность парных коэффициентов корреляции, относящихся ко всем исследуемым признакам, может быть представлена в виде корреляционной матрицы R, которая рассчитывается по формуле
,
где – матрица стандартизованных значений исходных переменных. Ее элементы рассчитываются по формуле

.
На главной диагонали матрицы R стоят единицы, т.е. дисперсии стандартизованных переменных, а все другие элементы — парные коэффициенты корреляции ;

частные коэффициенты корреляции , характеризующие тесноту линейной корреляционной связи между парой анализируемых признаков ( и )без учета влияния на эту пару других переменных ( , , и т.д.). Эти коэффициенты характеризуют так называемую чистую корреляцию. В матричном виде формулу для расчета частных коэффициентов корреляции можно записать следующим образом:
, (2.2)
где , , – алгебраические дополнения соответствующих элементов матрицы парных корреляций R.

Знак частному коэффициенту корреляции присваивается такой же, как и у парного коэффициента корреляции;

-множественный коэффициент корреляции характеризует степень тесноты связи между результативным признаком (откликом) и всеми факторными признаками (предикторами – );

-множественный коэффициент детерминации характеризует долю дисперсии результативной переменной, обусловленную влиянием факторных переменных, участвующих в анализе. На основе корреляционной матрицы R множественный коэффициент корреляции и множественный коэффициент детерминации могут быть исчислены следующим образом:
; ,
где – определитель матрицы парных корреляций, определитель матрицы парных корреляций, полученной после вычеркивания строки и столбца, представляющих связи зависимой переменной ( ).

В множественном регрессионном анализе исследуется связь между несколькими независимыми переменными (предикторами) и результативным признаком (откликом) . Следовательно,
.
Обычно предполагается, что случайная величина ( ) имеет нормальный закон распределения с условным математическим ожиданием и постоянной, не зависящей от аргументов дисперсией . В анализе чаще всего используются уравнения регрессии линейного вида

Коэффициенты регрессии показывают, на какую величину в среднем изменяется результативный признак , если независимая переменная , изменяется на единицу ее измерения.

В матричной форме регрессионная модель имеет вид
,
где – случайный вектор-столбец размерности ( ) наблюдаемых значений результативного признака ( ); X – матрица размерности ( ) наблюдаемых значений аргументов. Элемент матрицы рассматривается как неслучайная величина ( ; ; ); А – вектор-столбец размерности ( )неизвестных параметров, подлежащих оценке в ходе регрессионного анализа (вектор коэффициентов регрессии); — случайный вектор-столбец размерности ( ) – вектор остатков, которые являются независимыми нормально распределенными случайными величинами с нулевым математическим ожиданием ( ) и неизвестной дисперсией .

На практике рекомендуется, чтобы число наблюдений (n)превышало число анализируемых признаков (m) не менее, чем в пять-шесть раз.

Для расчета вектора оценок коэффициентов регрессии по методу наименьших квадратов используется формула
,
где

– транспонированная матрица X;

– матрица, обратная матрице .

Для устранения влияния различия дисперсий и единиц измерения отдельных переменных на результаты регрессионного анализа в ряде случаев целесообразно вместо исходных значений переменных использовать нормированные значения . В этом случае уравнение множественной линейной регрессии будет иметь следующий вид:

где – нормированное значения отклика ;

– нормированные значения предикторов (независимых переменных – ,);

— нормированные коэффициенты регрессии, которые могут быть вычислены исходя из следующей системы уравнений:

Если решать данную систему по правилу Крамера, то равно
,
где – определитель матрицы системы уравнений;

– определитель матрицы системы линейных уравнений, в которой j-й столбец заменен столбцом свободных членов уравнений системы ( ).

Когда уравнение построено в нормированном масштабе, коэффициенты регрессии показывают, за сколько нормированных отклонений изменится при изменении каждой из на одно нормированное отклонение.

Между коэффициентами и существует следующая зависимость:
.
Кроме того, при помощи коэффициентов можно рассчитать частный ( ) и множественный ( )коэффициенты детерминации
;

.
После того как рассчитано само уравнение регрессии и перечисленные выше характеристики корреляционных связей, необходимо убедиться в адекватности полученных результатов.

Значимость уравнения регрессии в целом, т.е. нулевая гипотеза , проверяется по F-критерию Фишера. Его наблюдаемое значение определяется по формуле
,
где ,

.
По таблице распределения значений F-критерия Фишера, при заданных , , ,находят .Гипотеза отклоняется с вероятностью , если . Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии существенно отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотез , где , используют t-критерий Стьюдента, фактическое значение которого вычисляют следующим образом:
; ; ,
где – средняя ошибка коэффициента регрессии , оценка среднего квадрата ошибки; – соответствующие коэффициенту диагональные элементы матрицы .

По таблице значений t-критерия Стьюдента для заданного уровня значимости и числа степеней свободы ( ) находят . Значимость проверяемого коэффициента подтверждается, если . В противном случае коэффициент регрессии незначим, и соответствующая ему переменная не должна входить в модель.

Аналогичным образом осуществляется проверка значимости парных и частных коэффициентов корреляции. При этом табличное значение определяется для числа степеней свободы, равного ( ), а расчетное значение критерия начисляется по формуле
.
Значимость множественного коэффициента детерминации ( ) и соответственно множественного коэффициента корреляции ( ) оценивается по F- критерию Фишера. Расчетное значение этого критерия определяется по формуле
.
Гипотеза о значимости множественного коэффициента детерминации принимается в том случае, если для заданного уровня значимости и числа степеней свободы , и .

3.1 Пример решения задачи.
Пример 1. По пяти промышленным предприятиям имеются следующие данные о фондовооруженности труда рабочих ( ), уровне производительности труда ( ), удельном весе потерь от брака ( ) (таблица 1.1).
Таблица 1.1

Номер предприятия Фондовооруженность труда рабочего, тыс. ден. ед. Месячная производительность труда рабочего, тыс. ден. ед. Удельный вес потерь от брака, %
1 3,9 7,0 2,4
2 1,1 11,1 5,9
3 1,8 10,2 6,2
4 6,0 12,0 6,0
5 5,4 10,0 11,0

1) матрицы парных и частных коэффициентов корреляции;

2) множественный коэффициент детерминации и множественный коэффициент корреляции при условии, что – зависимая переменная;

3) матрицу ковариаций.
Решение.

1 Парные коэффициенты корреляции рассчитываются следующим образом:
;
;
.
Матрица парных коэффициентов корреляции имеет вид
.

  1. Частные коэффициенты корреляции рассчитываются по формуле

; ; ;
;
;
.
Матрица частных коэффициентов корреляции ( ) будет иметь вид
.
3 Множественный коэффициент корреляции определяется по формуле
; .
4. Элементы ковариационной матрицы определяются по формуле
.
В многомерном статистическом анализе ковариации принято иногда обозначать как (по аналогии с дисперсиями).

Рассчитаем последовательно все элементы ковариационной матрицы:
;

; .
Матрица ковариаций будет иметь следующий вид:
.
На основании матрицы ковариаций можно сравнить вариацию признаков в исследуемой статистической совокупности. Для этого рассчитаем коэффициенты ковариации по каждой переменной:
; ;

; .
Как показывают расчеты, исследуемая совокупность наиболее однородна по второй переменной – месячная производительность труда, а наименее однородна по переменной – фондовооруженность труда рабочего.

Используя элементы ковариационной матрицы, можно также проверить правильность расчета парных линейных коэффициентов корреляции
.
Например, коэффициент корреляции между переменными и будет равен
,
а в корреляционной матрице он равен 0,048, т.е. имеется небольшое расхождение за счет округлений.

Брокеры, дающие бонус при регистрации счета:
Понравилась статья? Поделиться с друзьями:
Торгуйте бинарными опционами в плюс!
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: