Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

16
Является ли тестирование нормальности «по существу бесполезным»?
Бывший коллега однажды сказал мне следующее: Обычно мы применяем тесты нормальности к результатам процессов, которые при нулевом значении генерируют случайные переменные, которые являются только асимптотически или почти нормальными (с «асимптотически» частью, зависящей от некоторой величины, которую мы не можем сделать большой); В эпоху дешевой памяти, больших данных и быстрых процессоров …

7
При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?
В какой-то литературе я читал, что необходимо стандартизировать регрессию с несколькими объясняющими переменными, если они в разных единицах. (Стандартизация заключается в вычитании среднего значения и делении на стандартное отклонение.) В каких других случаях мне нужно стандартизировать мои данные? Существуют ли случаи, когда мне следует центрировать только мои данные (т.е. без …


6
Как нормализовать данные в диапазоне 0-1?
Я потерян в нормировании, может кто-нибудь направит меня, пожалуйста. У меня есть минимальное и максимальное значения, скажем, -23,89 и 7,54990767 соответственно. Если я получу значение 5,6878, как я могу масштабировать это значение по шкале от 0 до 1.

11
Как понять степени свободы?
Из Википедии есть три интерпретации степеней свободы статистики: В статистике количество степеней свободы - это число значений в окончательном расчете статистики, которые можно изменять . Оценки статистических параметров могут основываться на разных объемах информации или данных. Количество независимых частей информации, которые входят в оценку параметра, называют степенями свободы (df). Как …


16
Что означает значения p и t в статистических тестах?
Пройдя курс статистики и затем пытаясь помочь сокурсникам, я заметил, что один предмет, который вызывает много шума, - это интерпретация результатов статистических проверок гипотез. Кажется, что студенты легко учатся выполнять вычисления, требуемые данным тестом, но зацикливаются на интерпретации результатов. Многие компьютеризированные инструменты сообщают результаты теста в терминах «значений p» или …


8
Почему евклидово расстояние не является хорошим показателем в больших измерениях?
Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100 объектами. До скольких функций «безопасно» использовать этот показатель?


2
Интерпретация результатов R's lm ()
Страницы справки в R предполагают, что я знаю, что означают эти цифры, но я не знаю. Я пытаюсь действительно интуитивно понять каждый номер здесь. Я просто опубликую результаты и прокомментирую то, что узнал. Могут быть (будут) ошибки, так как я просто напишу, что я предполагаю. В основном я хотел бы …

6
Является полезно или опасно?
Я просматривал некоторые лекционные заметки Космы Шализи (в частности, раздел 2.1.1 второй лекции ), и мне напомнили, что вы можете получить очень низкий даже если у вас полностью линейная модель.R2R2R^2 Перефразируя пример Шализи: предположим, у вас есть модель , где известен. Тогда и количество объясненной дисперсии равно ^ 2 \ …

9
В чем разница между доверительным интервалом и достоверным интервалом?
Обмен Джорис и Шрикант здесь заставил меня задуматься (опять же), были ли мои внутренние объяснения разницы между доверительными интервалами и достоверными интервалами правильными. Как бы вы объяснили разницу?


12
Почему 95% доверительный интервал (КИ) не подразумевает 95% вероятности удержания среднего значения?
Похоже, что из-за различных связанных с этим вопросов существует консенсус, что «95%» часть того, что мы называем «95% доверительный интервал», относится к тому факту, что если бы мы точно повторяли наши процедуры выборки и вычисления CI много раз 95% рассчитанных таким образом КИ будут содержать среднее значение для населения. Также …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.