Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Регрессия: Преобразование переменных
При преобразовании переменных, вы должны использовать все те же преобразования? Например, могу ли я выбрать по-разному преобразованные переменные, как в: Пусть - возраст, стаж работы, стаж проживания и доход.Икс1, х2, х3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Или вы должны соответствовать своим преобразованиям и использовать все то же самое? …

3
У кого более тяжелый хвост, логнормальный или гамма?
(Это основано на вопросе, который только что пришел ко мне по электронной почте; я добавил некоторый контекст из предыдущего короткого разговора с тем же человеком.) В прошлом году мне сказали, что гамма-распределение тяжелее, чем логнормальное, и с тех пор мне сказали, что это не так. Какой из них более тяжелый …

7
Как часто вам приходится бросать шестигранный кубик, чтобы получить каждое число хотя бы один раз?
Я только что сыграл в игру со своими детьми, которая сводится к следующему: кто бы ни бросил каждое число хотя бы один раз на шестистороннем кубике, выигрывает. В конце концов я выиграл, а остальные закончили на 1-2 хода позже. Теперь мне интересно: какова ожидаемая продолжительность игры? Я знаю , что …

20
Есть ли хорошие фильмы с участием математики или вероятности?
Можете ли вы предложить несколько хороших фильмов, которые включают математику, вероятности и т. Д.? Одним из примеров является 21 . Я также был бы заинтересован в фильмах, которые используют алгоритмы (например, расшифровка текста). В общем, «отвратительные» фильмы с известными научными теориями, но без научной фантастики или документальных фильмов. Заранее спасибо!

8
Как я могу проверить, взяты ли данные образцы из распределения Пуассона?
Я знаю о тестах нормальности, но как мне проверить на "Пуассон-Несс"? У меня есть выборка из ~ 1000 неотрицательных целых чисел, которые, я подозреваю, взяты из распределения Пуассона, и я хотел бы проверить это.

13
Почему средний возраст лучше, чем средний возраст?
Если вы посмотрите на Wolfram Alpha Или эта страница в Википедии Список стран по медианному возрасту Очевидно, медиана является статистикой выбора, когда речь идет о возрастах. Я не могу объяснить себе, почему среднее арифметическое было бы хуже статистики. Почему это так? Первоначально размещен здесь, потому что я не знал, что …
41 mean  median 

4
Почему нулевая корреляция не обязательно означает независимость
Если две переменные имеют нулевую корреляцию, почему они не обязательно независимы? Являются ли переменные с нулевой корреляцией независимыми при особых обстоятельствах? Если возможно, я ищу интуитивное объяснение, а не сугубо техническое.

1
Как интерпретировать ошибки меры?
Я запускаю классификацию в Weka для определенного набора данных, и я заметил, что если я пытаюсь предсказать номинальное значение, выходные данные конкретно показывают правильно и неправильно предсказанные значения. Тем не менее, теперь я запускаю его для числового атрибута и вывод: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared …

6
Практическая оптимизация гиперпараметров: случайный поиск по сетке
В настоящее время я прохожу случайный поиск по гиперпараметрической оптимизации Bengio и Bergsta [1], где авторы утверждают, что случайный поиск более эффективен, чем поиск по сетке, для достижения примерно одинаковой производительности. Мой вопрос: согласны ли здесь люди с этим утверждением? В своей работе я использовал поиск по сетке в основном …

3
В чем разница между нормальным и гауссовым распределением
Есть ли глубокая разница между нормальным и гауссовским распределением, я видел много работ, использующих их без различия, и я обычно также называю их одним и тем же. Тем не менее, мой PI недавно сказал мне, что нормальным является частный случай гауссиана со средним значением = 0 и стандартным отклонением = …

9
Как интерпретировать значения F-меры?
Я хотел бы знать, как интерпретировать разницу значений f-меры. Я знаю, что f-мера - это сбалансированное среднее между точностью и отзывом, но я спрашиваю о практическом значении различия в F-мерах. Например, если классификатор C1 имеет точность 0,4, а другой классификатор C2 - 0,8, то можно сказать, что C2 правильно классифицировал …

3
Как я могу вычислить
Предположим, что и являются функцией плотности и функцией распределения стандартного нормального распределения.Φ ( ⋅ )ϕ(⋅)ϕ(⋅)\phi(\cdot)Φ(⋅)Φ(⋅)\Phi(\cdot) Как можно вычислить интеграл: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

5
Как вывести решение о регрессии гребня?
У меня возникли некоторые проблемы с выводом решения для регрессии гребня. Я знаю регрессионное решение без условия регуляризации: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Но после добавления термина L2 к функции стоимости, получается решениеλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

5
Чем оценки склонности отличаются от добавления ковариат в регрессии, и когда они предпочтительнее последней?
Я признаю, что я относительно новичок в оценках предрасположенности и причинного анализа. Одна вещь, которая не очевидна для меня как новичка, заключается в том, как «балансировка» с использованием показателей склонности математически отличается от того, что происходит, когда мы добавляем ковариаты в регрессию? Чем отличается операция и почему она (или она) …

1
Чем softmax_cross_entropy_with_logits отличается от softmax_cross_entropy_with_logits_v2?
В частности, я предполагаю, что мне интересно это утверждение: Будущие основные версии TensorFlow позволят градиентам перетекать в метки, введенные на backprop по умолчанию. Который показан, когда я использую tf.nn.softmax_cross_entropy_with_logits. В том же сообщении он призывает меня взглянуть tf.nn.softmax_cross_entropy_with_logits_v2. Я просмотрел документацию, но она только утверждает, что для tf.nn.softmax_cross_entropy_with_logits_v2: Обратное распространение …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.