Обсуждение:Корреляция

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Вообще-то это disambig ... --Kaganer 10:24, 10 Фев 2005 (UTC)

Неверно утверждение, что сама корреляция может быть отрицателльной. Верно утверждение, что существуют коэффициенты корреляции, например, коэффициент корреляции Пирсона, которые могут принимать отрицательные значения. Но это не говорит об отрицательной корреляции, это говорит лишь о отношения порядка на множестве случайных событий. Поскольку гипотеза частичной упорядоченности есть независимая гепотеза, а введение понятия корреляции не нуждается в самом по себе введении отношения порядка, то говорить о том, что именно корреляция может быть отрицательной - неверно. --Марк Болдырев 10:31, 7 июля 2009 (UTC)


Не хватает примеров[править код]

Не хватает примеров применения, одни общие слова.

мягко выражаясь копипаста из учебника статистики для спецкурсов. Сам автор не понимает что он накопипастил, или не может этого обьяснить читателю. Практическая ценность - отрицательная, читатель не получает ответов, тратит время и вынужден искать далее. Статью удалить, или полностью переработать.

Ложная корреляция[править код]

Возможно, имеет смысл вынести раздел "Ложная корреляция" в отдельную статью? Assargadon 18:11, 29 июля 2010 (UTC)[ответить]

Статья не столь уж большая. По-моему, данный термин является следствием рассмотрения корреляции, а не самостоятельным явлением. Без насущной необходимости вычленение его в отдельную статью обязательно приведет к дублированию существенных объемов текста и будет противоречить ВП:Ответвление мнений. KLIP game 18:45, 29 июля 2010 (UTC)[ответить]

Отдельные предложения из ложной корреляции[править код]

"Например, существует корреляция между размером обуви и средним доходом человека" Забавное утверждение без пруфлинка Nlubchenko 15:36, 12 октября 2010 (UTC)[ответить]

Выкидывание значительной части информации из раздела "ложная корелляция"[править код]

Вот эти изменения меня смущают. С одной стороны, значительная часть информации выкинута. С другой стороны, введено предложение об "обязательном наличии связи, хотя и не обязательно причинно-следственной" - это утверждение, на мой взгляд...методически неверное, что ли. Являясь формально правильным, оно приведёт к тому, что значительная часть людей вынесет из статьи совсем не то, что там записано. Assargadon 17:30, 13 февраля 2011 (UTC)[ответить]

Там надо просто подправить о статистическом характере связи. KLIP game 19:18, 13 февраля 2011 (UTC)[ответить]

Количество степеней свободы для хи-квадрат в коэффициенте конкордации Кендалла[править код]

Точно ли ? Или же, все таки, ?

128.69.219.113 21:02, 18 мая 2013 (UTC) chi square[ответить]

формула[править код]

42.115.19.251 11:12, 20 октября 2017 (UTC)[ответить]

Ложные корреляции: важное упущение[править код]

Добрый день всем!

По-моему, в разделе "Ограничения корреляционного анализа" есть очень важное упущение. А именно, там присутствует пункт 2, где говорится про требование нормальности. Но ничего не сказано о том, что все сказанное в статье относится исключительно к случайным величинам. Однако на практике в 99% случаев корреляционные методы используются для анализа случайных процессов! Которые не только не эргодичны, а просто нестационарны. Понятно, что это может приводить к катастрофическому (на порядки!) завышению значимости и, соответственно к появлению "сверхвысокозначимых" ложных корреляций.

Когда мы говорим про случайные величины, то проверка на нормальность важна, однако если исследователь об этом "забудет", то скорее всего он ошибется не очень сильно. Дело в том, что в практической жизни распределения с тяжелыми хвостами встречаются не так уж часто, а если даже и встретились, то такие выбросы принято вычищать. Если же окажется, что вместо нормального распределения мы имеем, например, равномерное, то это исказит уровни значимости, рассчитанные по стандартным формулам, не очень сильно - максимум в разы. Но никак не на порядки.

Но если мы попытаемся применить наши формулы для анализа случайных процессов, то ошибки могут стать просто катастрофическими. Но именно это мы и делаем, когда анализируем экспериментальные временные ряды! В некоторых предметных областях именно такой способ ошибиться при корреляционном анализе - взять случайные процессы вместо случайных величин - является общепринятым ;-)

Поэтому для практической жизни гораздо важнее проверить на данные стационарность, а не заморачиваться с распределением. В противном случае есть не просто риск, а практически гарантия ошибиться со значимостью на порядки (если ряд достаточно длинный, конечно).

Именно эта ошибка приводит к огромной массе недоразумений, вплоть до дискредитации корреляционных методов в глазах тех, кто с таким артефактом столкнулся.

Я написал об этом отдельную статью на Хабре. Я думаю, что некоторые ее положения в сжатом виде вполне уместно привести и здесь тоже. И/или можно дать отсюда ссылку на Хабр.

Но я сам в редактировании Википедии никогда не участвовал, и поэтому я не берусь предложить конкретный формат таких правок. Поэтому у меня большая просьба к участникам обсуждения: пожалуйста, посмотрите упомянутую выше статью, и скажите свое резюме.

P.S. Вдогонку: кстати, для непараметрических корреляций функция распределения некритична, а вот нестационарность сигнала точно так же фатальна! Об этом тоже надо сказать в статье. Так как очень многие уверены, что при использовании, например, ранговой корреляции о свойствах исходных данных задумываться вообще не нужно. Хотя самый обычный линейный тренд вдребезги разбивает все построения. Просто изначально вся теория строилась для случайных величин, а там тренда в принципе быть не может (у нас же одна и та же генеральная совокупность). Поэтому математики об этом и не упоминают - для них это абсолютно очевидно. Но в википедию-то за советом не математики ходят! Для них все это надо сказать прямым текстом...

P.P.S. Вдогонку-2. Сейчас измерил температуру, у меня уже 39, и это точно ковид (знаю, от кого заразился, у них все подтверждено анализами). Поэтому не уверен, что смогу поучаствовать в обсуждении поднятого вопроса в ближайшие дни (мне уже 60). Короче, если решите править статью - это можно делать без меня ;-) Хотя я конечно надеюсь вернуться ;-)) A. Deshere (обс.) 22:28, 18 февраля 2021 (UTC)[ответить]

Проблема в том, что редакторы Википедии часто не являются специалистами в том предмете, о каком редактируемая статья. ВП:САМИЗДАТ запрещено использовать в качестве АИ, кроме случаев, когда его автор широко известный профильный специалист. Кроме того, есть прямой запрет использовать оригинальные исследования. Если Ваши подходы опубликованы в научных изданиях, тогда можно использовать ссылки на эти публикации, а Хабр указать как их популярное изложение. Но ссылаться только на Хабр как на первоисточник концепции правила Википедии не позволяют. KLIP game (обс.) 16:53, 19 февраля 2021 (UTC)[ответить]
Дело совершенно не в том, чтобы сослаться именно на Хабр. Важна не ссылка, а исправление упущения (я бы даже сказал, ошибки) в статье Википедии. Пожалуй, что отсутствие указания на принципиальную разницу между случайной величиной и случайным процессом в указанном контексте - это именно ошибка.

Приведу аналогию: если в некоторой статье написано, что все нечетные числа - простые, то для опровержения этой ошибки достаточно привести в качестве примера числа 9, 15, 21. Либо дать ссылку на таблицу с множителями: 9=3*3, 15=5*3, 21=7*3. И в этом случае совершенно не важно, опубликована ли эта таблица в научном издании или это просто "обои" на сайте с котиками. Важно не место публикации таблицы, а неопровержимые факты, опровергающие ложное утверждение. Я вхожу в редколлегию одного из известных российских научных журналов, и буквально каждые несколько месяцев мне приходится рассматривать статьи, в которых сделана именно такая ошибка: автор считает корреляцию между нестационарными временными рядами, но вычисляет доверительные интервалы по формулам для случайных величин. В результате все его корреляции оказываются не просто значимыми, а высоко достоверными. И каждый раз приходится мучительно объяснять, что он совершает подмену понятий и на самом деле значимость его корреляций просто никакая. Это не просто частая ошибка, она действительно массовая. Ее совершают авторы БОЛЬШЕЙ части поступающих к нам в журнал статей, в которых ведется корреляционный анализ геофизических и многих других временных рядов. И это - научные статьи, представляемые в рецензируемые журналы! Что уж говорить о менее искушенной публике. Я думаю, что отсутствие в Википедии (да и вообще в Сети) хотя бы минимальных разъяснений и предостережений по этому поводу - это одна из важных причин, провоцирующих такие ошибки. Фактически тут не с чем спорить. Если посмотреть в любую нормальную книжку, то там всегда поясняется, что корреляция вводится именно для случайных величин. Вычисляя корреляцию для нестационарного временного ряда (=неэргодического случайного процесса), мы заведомо нарушаем условия применимости метода. Это очевидная ошибка. Это то же самое, как вычислять арксинус 13. Если наш калькулятор выдает в ответ какие-то цифры, то это не значит, что мы совершаем корректное вычисление. А авторы таких "корреляций" делают именно это! Проблема с корреляцией в том, что типичные формулы вполне допускают подстановку туда некорректных исходных данных. А пользователи-нематематики не читают пояснения на первой странице толстого учебника; они всегда сразу лезут на сотую страницу с формулами для вычисления коэффициента корреляции и его доверительных границ. Поэтому важно не то, будет ли в статье ссылка на Хабр, или же вместо нее будет ссылка на справочник по математике. Важно, чтобы читатели статьи не совершали эту ошибку.

Я вполне согласен, что запрет на использование авторских материалов - обоснованный и необходимый. Но математики никогда не напишут такую статью, на которую можно было бы сослаться в данном случае. Это то же самое, как публиковать статью, что вычислять арксинус 13 нельзя. Так как это утверждение совершенно тривиально и очевидно, оно не может быть предметом научной статьи. Проблема в том, что ошибка с корреляциями стала массовой, хотя по сути это тот же арксинус 13. Даже в рецензируемых публикациях их авторы сплошь и рядом обсуждают "физические следствия" из расчетов, основным содержанием которых является взятие арксинуса от 13. И что прикажете делать в такой ситуации?

Именно поэтому я написал про корреляции научно-популярную статью, разъясняющую эту проблему. В рецензируемый журнал такое писать просто стыдно. Хотя эта тема настолько острая, что она все-таки затрагивается в нескольких наших статьях (например, вот тут https://www.elibrary.ru/item.asp?id=17340234 или вот тут: https://www.elibrary.ru/item.asp?id=30570694). Но мы - геофизики, а не математики. Поэтому несмотря на наличие пары сотен научных публикаций, я вряд ли могу считать себя авторитетным профильным специалистом.

На самом деле, мы сейчас пытаемся вывести формулы для оценки функции распределения статистики Rxy для фликкер-шумовых сигналов. Если у нас получится их вывести, а также подтвердить результаты численным моделированием, то это будет не просто указание на ошибку, а прямая рекомендация, как ее исправить. Такую статью уже вполне можно будет опубликовать в рецензируемом журнале. Но это в любом случае дело будущего. А исправлять ошибку в Википедии надо уже сейчас. Вопрос только в том, как правильно это сделать. Возможно, в качестве первого шага стоит добавить в статью формулы для функции распределения коэффициента корреляции для случая нормально распределенных случайных величин, и перейти от них к доверительным интервалам (с помощью которых оценивается значимость корреляций)? А затем подчеркнуть, что данные формулы годятся строго для оговоренного случая (нормально распределенные случайные величины), и что их категорически нельзя применять при оценке значимости корреляций между временными рядами?

217.73.198.56 10:24, 1 марта 2021 (UTC)[ответить]