Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

4
Каковы относительные преимущества данных Winsorizing и Trimming?
Обесцвечивание данных означает замену крайних значений набора данных определенным значением процентиля с каждого конца, в то время как Обрезка или Усечение включает удаление этих предельных значений. Я всегда вижу, что оба метода обсуждаются как жизнеспособный вариант, чтобы уменьшить влияние выбросов при вычислении статистики, такой как среднее значение или стандартное отклонение, …

3
Создание автоэнкодера в Tensorflow, чтобы превзойти PCA
Хинтон и Салахутдинов в статье « Сокращение размерности данных с помощью нейронных сетей», Science 2006, предложили нелинейный PCA за счет использования глубокого автоэнкодера. Я несколько раз пытался построить и обучить автоэнкодер PCA с Tensorflow, но мне никогда не удавалось получить лучший результат, чем линейный PCA. Как эффективно обучить автоэнкодеру? (Позднее …

4
Являются ли меньшие p-значения более убедительными?
Я читал о , коэффициентах ошибок типа 1, уровнях значимости, расчетах мощности, размерах эффектов и дебатах Фишера против Неймана-Пирсона. Это заставило меня чувствовать себя немного ошеломленным. Я прошу прощения за стену текста, но я чувствовал, что необходимо дать обзор моего текущего понимания этих концепций, прежде чем я перейду к своим …

2
Является ли точное значение «р-значения» бессмысленным?
У меня была беседа со статистиком в 2009 году, когда он заявил, что точное значение p не имеет значения: важно только то, является ли оно значительным или нет. Т.е. один результат не может быть более значимым, чем другой; ваши образцы, например, либо принадлежат к той же группе, либо нет. У …

1
Отрицательный вопрос о биномиальной регрессии - плохая модель?
Я читаю очень интересную статью Селлерса и Шмуэли о регрессионных моделях для подсчета данных. В начале (стр. 944) они цитируют McCullaugh и Nelder (1989), утверждая, что отрицательная биномиальная регрессия непопулярна и имеет проблематичную каноническую связь. Я нашел упомянутый отрывок, и он говорит (стр. 374 из М и N) «Похоже, в …

4
Почему более низкие значения р не являются более убедительными доказательствами против нуля? Аргументы от Йоханссона 2011
Йоханссон (2011) в « Приветствую невозможное: p-значения, доказательства и вероятность » (здесь также ссылка на журнал ) утверждает, что более низкие значения часто рассматриваются как более сильные доказательства против нуля. Йоханссон предполагает, что люди будут считать доказательства против нуля более сильными, если их статистический тест выдает значение , чем если …

2
В чем разница между «глубоким обучением» и многоуровневым / иерархическим моделированием?
Является ли «глубокое обучение» просто еще одним термином для многоуровневого / иерархического моделирования? Я гораздо больше знаком с последним, чем с первым, но, насколько я могу судить, основное отличие заключается не в их определении, а в том, как они используются и оцениваются в пределах своей прикладной области. Похоже, что число …

8
Замена выбросов на среднее
Этот вопрос был задан моим другом, который не разбирается в Интернете. У меня нет статистики, и я искал в интернете этот вопрос. Вопрос в том, можно ли заменить выбросы средним значением? если это возможно, есть ли какие-либо книги / журналы, чтобы подтвердить это утверждение?

1
Уменьшение размерности (SVD или PCA) на большой разреженной матрице
/ edit: далее следите, теперь вы можете использовать irlba :: prcomp_irlba / edit: следите за своим собственным постом. irlbaтеперь имеет аргументы "center" и "scale", которые позволяют использовать его для вычисления основных компонентов, например: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v У меня есть большой набор Matrixфункций, которые я …

5
Рекомендации по цвету и толщине линий для линейных участков
Много было написано о выборе цвета, удобного для слепых, для карт, полигонов и заштрихованных областей в целом (см., Например, http://colorbrewer2.org ). Мне не удалось найти рекомендации по цветам линий и различной толщине линий для линейных графиков. Цели: легко различать линии, даже когда они переплетаются Линии легко различить по лицам с …

1
Каковы некоторые полезные рекомендации для параметров GBM?
Каковы некоторые полезные рекомендации для тестирования параметров (например, глубина взаимодействия, minchild, частота выборки и т. Д.) С использованием GBM? Допустим, у меня 70-100 функций, население 200 000, и я собираюсь проверить глубину взаимодействия 3 и 4. Очевидно, мне нужно провести некоторое тестирование, чтобы увидеть, какая комбинация параметров лучше всего подходит …

5
Обнаружение значимых предикторов из множества независимых переменных
В наборе данных из двух непересекающихся групп населения (пациенты и здоровые, всего ) я хотел бы найти (из независимых переменных) значимые предикторы для непрерывной зависимой переменной. Корреляция между предикторами присутствует. Я заинтересован в том, чтобы выяснить, связан ли какой-либо из предикторов с зависимой переменной «в реальности» (а не с максимально …

3
Основанное на энтропии опровержение байесовской обратной стрелки времени Шализи?
В этой статье талантливый исследователь Косма Шализи утверждает, что для полного принятия субъективного байесовского взгляда необходимо также принять нефизический результат, согласно которому стрелка времени (заданная потоком энтропии) действительно должна идти назад . В основном это попытка спорить с максимальной энтропией / полностью субъективной байесовской точкой зрения, выдвинутой и популяризированной ET …

2
Как построить границу решения классификатора k-ближайшего соседа из элементов статистического обучения?
Я хочу создать сюжет, описанный в книге ElemStatLearn «Элементы статистического обучения: сбор данных, вывод и прогноз. Второе издание» Тревора Хасти, Роберта Тибширани и Джерома Фридмана. Сюжет: Мне интересно, как я могу получить этот точный график R, особенно обратите внимание на графику сетки и расчеты, чтобы показать границу.

4
Анализ со сложными данными, что-нибудь другое?
Скажем, например, вы делаете линейную модель, но данные сложны.yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon Мой набор данных сложен, так как все числа в имеют форму . Есть ли что-то процедурное при работе с такими данными?( а + б я )yyy(a+bi)(a+bi)(a + bi) Я спрашиваю, потому что вы в …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.