Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

30
Каковы общие статистические грехи?
Я аспирант по психологии, и, поскольку я продолжаю заниматься независимой статистикой, я все больше поражаюсь неадекватности моего формального обучения. Как личный, так и личный опыт подсказывает, что недостаток статистической строгости в обучении студентов и аспирантов довольно распространен в психологии. Таким образом, я подумал, что для таких независимых учеников, как я, …
227 fallacy 

11
Есть ли основания предпочитать AIC или BIC другим?
AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC или наоборот?

5
Размер пакета в зависимости от количества итераций для обучения нейронной сети
При обучении нейронной сети, какое значение это имеет для установки: размер партии до и количество итераций доaaabbb От размера пакета до и количества итераций доcccddd где ?ab=cdab=cd ab = cd Иными словами, предположим, что мы обучаем нейронную сеть с одинаковым количеством обучающих примеров, как установить оптимальный размер пакета и количество …

14
Каковы различия между факторным анализом и анализом основных компонентов?
Кажется, что ряд статистических пакетов, которые я использую, объединяют эти два понятия. Тем не менее, мне интересно, есть ли разные предположения или «формальности» данных, которые должны быть верны, чтобы использовать одно над другим. Реальный пример был бы невероятно полезным.

12
В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?
В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом? Правильно ли будет сказать, что это 4 поля, пытающиеся решить очень похожие проблемы, но с разными подходами? Что именно у них общего и чем они отличаются? Если бы между ними была какая-то иерархия, что бы это было? Подобные …

3
Как узнать, что ваша проблема машинного обучения безнадежна?
Представьте себе стандартный сценарий машинного обучения: Вы сталкиваетесь с большим многомерным набором данных, и у вас довольно размытое понимание этого. Что вам нужно сделать, это сделать прогноз о некоторой переменной на основе того, что у вас есть. Как обычно, вы очищаете данные, просматриваете описательную статистику, запускаете некоторые модели, перекрестно проверяете …

10
Как бы вы объяснили ковариацию тому, кто понимает только среднее?
... предполагая, что я могу расширить их знания об отклонениях интуитивно (интуитивно понимая «дисперсию» ) или сказав: это среднее расстояние между значениями данных и «средним» - и поскольку дисперсия находится в квадрате единицы, мы берем квадратный корень, чтобы сохранить единицы, и это называется стандартным отклонением. Давайте предположим, что многое сформулировано …

5
Какое «средство» использовать и когда?
Таким образом, мы имеем среднее арифметическое (AM), среднее геометрическое (GM) и среднее гармоническое (HM). Их математическая формулировка также хорошо известна наряду со связанными с ними стереотипными примерами (например, среднее гармоническое и его применение для решения проблем, связанных с «ускорением»). Тем не менее, вопрос, который всегда интересовал меня: «Как я могу …
197 mean 

8
Алгоритмы автоматического выбора модели
Я хотел бы реализовать алгоритм автоматического выбора модели. Я имею в виду пошаговую регрессию, но все будет хорошо (хотя она должна основываться на линейных регрессиях). Моя проблема в том, что я не могу найти методологию или реализацию с открытым исходным кодом (я просыпаюсь в Java). Методология, которую я имею в …


12
Как мне преобразовать неотрицательные данные, включая нули?
Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на 0. журнал( х + с )log⁡(x+c)\log(x+c) где c либо …

4
Что вычисляет скрытый слой в нейронной сети?
Я уверен, что многие люди ответят ссылками на «позвольте мне Google это для вас», поэтому я хочу сказать, что я пытался выяснить это, поэтому, пожалуйста, простите мое непонимание здесь, но я не могу понять, как Практическая реализация нейронной сети фактически работает. Я понимаю входной слой и как нормализовать данные, я …


15
Что такое ученый данных?
Недавно окончив аспирантуру по статистике, я в последние пару месяцев начал искать работу в области статистики. Практически в каждой компании, которую я рассматривал, была опубликована вакансия с названием « Data Scientist ». На самом деле, казалось, что давно прошли дни, когда можно было видеть звания ученого- статистика или статистика . …

4
Каков размер пакета в нейронной сети?
Я использую Python Keras packageдля нейронной сети. Это ссылка . Is batch_sizeравно числу тестовых образцов? Из Википедии у нас есть эта информация: Однако в других случаях оценка градиента суммы может потребовать дорогостоящих оценок градиентов от всех функций слагаемых. Когда обучающий набор огромен и простых формул не существует, оценка сумм градиентов …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.