Я пытаюсь найти корреляцию между дихотомической и непрерывной переменной.
Исходя из моей основной работы по этому вопросу, я обнаружил, что должен использовать независимый t-критерий, и предварительным условием для этого является то, что распределение переменной должно быть нормальным.
Я выполнил тест Колмогорова-Смирнова для проверки нормальности и обнаружил, что непрерывная переменная является ненормальной и искажена (примерно для 4000 точек данных).
Я сделал тест Колмогорова-Смирнова для всего диапазона переменных. Должен ли я разделить их на группы и сделать тест? То есть, если у меня есть risk level
( 0
= Не рискованно, 1
= Рискованно) и уровень холестерина, тогда я должен:
Разделите их на две группы, как
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Взять их вместе и применить тест? (Я выполнил это только для всего набора данных.)
После этого какой тест я должен сделать, если он все еще ненормальный?
РЕДАКТИРОВАТЬ: приведенный выше сценарий был просто описание, которое я пытался предоставить для моей проблемы. У меня есть набор данных, который содержит более 1000 переменных и около 4000 выборок. Они либо непрерывны, либо категоричны по своей природе. Моя задача - прогнозировать дихотомическую переменную на основе этих переменных (возможно, придумать модель логистической регрессии). Поэтому я подумал, что первоначальное исследование будет включать в себя поиск корреляции между дихотомической и непрерывной переменной.
Я пытался увидеть, как распределяются переменные и, следовательно, попытался перейти к t-критерию. Здесь я нашел нормальность как проблему. Тест Колмогорова-Смирнова дал значение значимости 0,00 по большинству этих переменных.
Должен ли я принять нормальность здесь? Асимметрия и эксцесс этих переменных также показывают, что данные искажены (> 0) почти во всех случаях.
Согласно примечанию, приведенному ниже, я буду исследовать точечно-бизериальную корреляцию далее. Но насчет распределения переменных я все еще не уверен.