Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

15
Полные содержательные примеры воспроизводимых исследований с использованием R
Вопрос: Есть ли хорошие примеры воспроизводимых исследований с использованием R, которые свободно доступны онлайн? Идеальный пример. В частности, идеальные примеры могли бы обеспечить: Необработанные данные (и в идеале метаданные, поясняющие данные), Весь код R, включая импорт, обработку, анализ и генерацию данных, Sweave или какой-то другой подход для привязки окончательного результата …

4
Может ли бутстрап рассматриваться как «лекарство» для небольшого размера выборки?
Этот вопрос был вызван тем, что я прочитал в этом учебнике по статистике для выпускников, а также (независимо) услышал во время этой презентации на статистическом семинаре. В обоих случаях утверждение было следующим: «поскольку размер выборки довольно мал, мы решили выполнить оценку с помощью начальной загрузки вместо (или вместе с) этого …

10
Существует ли минимальный размер выборки, необходимый для того, чтобы t-тест был действительным?
В настоящее время я работаю над квази-экспериментальной исследовательской работой. У меня размер выборки только 15 из-за низкой численности населения в выбранной области, и только 15 соответствуют моим критериям. Является ли 15 минимальным размером выборки для t-теста и F-теста? Если так, где я могу получить статью или книгу, чтобы поддержать этот …

8
Генерация случайной величины с определенной корреляцией с существующей переменной
Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако невозможно зафиксировать одну из результирующих переменных в существующей переменной. Любые идеи и ссылки на существующие функции …

4
Как визуализировать, что делает канонический корреляционный анализ (по сравнению с тем, что делает анализ главных компонентов)?
Канонический корреляционный анализ (CCA) - это метод, связанный с анализом главных компонентов (PCA). Хотя учить PCA или линейную регрессию легко, используя график рассеяния (см. Несколько тысяч примеров по поиску изображений в Google), я не видел подобного интуитивного двумерного примера для CCA. Как объяснить, что делает линейный CCA?

12
Каковы некоторые из наиболее распространенных заблуждений о линейной регрессии?
Мне любопытно, для тех из вас, кто имеет большой опыт сотрудничества с другими исследователями, с какими наиболее распространенными заблуждениями о линейной регрессии вы сталкиваетесь? Я думаю, что это может быть полезным упражнением, чтобы заранее подумать о распространенных заблуждениях, чтобы Предвидеть ошибки людей и быть в состоянии успешно сформулировать, почему некоторые …

5
Использование k-кратной перекрестной проверки для выбора модели временных рядов
Вопрос: Я хочу быть уверенным в чем-то, является ли использование перекрестной проверки в k-кратном порядке с временными рядами простым или нужно обратить особое внимание перед использованием? Предыстория: я моделирую временной ряд 6 лет (с цепью полумарков) с выборкой данных каждые 5 минут. Чтобы сравнить несколько моделей, я использую 6-кратную перекрестную …

9
Каковы основные философские, методологические и терминологические различия между эконометрикой и другими статистическими областями?
Эконометрика имеет существенное совпадение с традиционной статистикой, но часто использует свой собственный жаргон на различные темы («идентификация», «экзогенный» и т. Д.). Однажды я услышал от профессора по прикладной статистике в другой области комментарий, что часто терминология отличается, но концепции совпадают. Тем не менее, он также имеет свои собственные методы и …

9
Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора?
Почему при множественной линейной регрессии возможно иметь очень значительную F-статистику (p &lt;.001), но иметь очень высокие p-значения во всех t-тестах регрессора? В моей модели 10 регрессоров. Один имеет значение р 0,1, а остальные выше 0,9 Для решения этой проблемы см. Следующий вопрос .

15
Практические мысли о объяснительном и прогнозном моделировании
Еще в апреле я присутствовал на лекции в серии семинаров группы по статистике математического отдела UMD под названием «Объяснить или предсказать?». С докладом выступил профессор Галит Шмуэли, который преподает в Смитской школе бизнеса UMD. Ее доклад был основан на исследовании, которое она провела для статьи «Предсказательное и объяснительное моделирование в …

9
Какой алгоритм я должен использовать для обнаружения аномалий на временных рядах?
Фон Я работаю в Центре сетевых операций, мы отслеживаем компьютерные системы и их производительность. Одним из ключевых показателей для мониторинга является количество посетителей \ клиентов, которые в настоящее время подключены к нашим серверам. Чтобы сделать это видимым, мы (команда Ops) собираем такие метрики, как данные временных рядов и рисуем графики. …

1
Как разделить набор данных для перекрестной проверки, кривой обучения и окончательной оценки?
Какова подходящая стратегия для разделения набора данных? Я прошу обратную связь на следующий подход ( а не на отдельных параметров , таких как test_sizeили n_iter, но если я X, y, X_train, y_train, X_test, и y_testсоответствующим образом и , если последовательность имеет смысл): (расширяя этот пример из документации scikit-learn) 1. Загрузите …

4
В чем разница между функциями R prcomp и princomp?
Я сравнил ?prcompи ?princompнашел кое-что о анализе главных компонентов Q-режима и R-режима (PCA). Но, честно говоря, я этого не понимаю. Кто-нибудь может объяснить разницу и, возможно, даже объяснить, когда применять какие?
70 r  pca 

2
Как работает слой «Встраивание» Keras?
Необходимо понимать работу слоя «Встраивание» в библиотеке Keras. Я выполняю следующий код в Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) который дает следующий вывод input_array = [[4 1 …

3
Почему исследователи нейронных сетей заботятся о эпохах?
Эпоха в стохастическом градиентном спуске определяется как один проход данных. Для каждой мини-партии SGD отбирается Кkk выборок, вычисляется градиент и обновляются параметры. В настройках эпохи образцы оформляются без замены. Но это кажется ненужным. Почему бы не нарисовать каждый мини-пакет SGD как случайных отрисовок из всего набора данных на каждой итерации? …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.