Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Каково определение «карты объектов» (она же «карта активации») в сверточной нейронной сети?
Введение Фон Внутри сверточной нейронной сети мы обычно имеем общую структуру / поток, который выглядит следующим образом: входное изображение (т.е. 2D вектор x) (1-й сверточный слой (Conv1) начинается здесь ...) свертывать набор фильтров ( w1) вдоль двумерного изображения (т. е. делать z1 = w1*x + b1умножения точечного произведения), где z13D …

6
Почему энтропия максимизируется, когда распределение вероятностей равномерно?
Я знаю, что энтропия - это мера случайности процесса / переменной, и ее можно определить следующим образом. для случайной величины множестве : - . В книге МакКея об энтропии и теории информации он приводит это утверждение в гл. 2Икс∈X∈X \inH ( X ) =AAAЧАС( X) = ∑Икся∈ A- р ( …

4
Как выполнить t-тесты с двумя выборками в R, введя выборочную статистику, а не необработанные данные?
Этот вопрос был перенесен из переполнения стека, потому что на него можно ответить по перекрестной проверке. Мигрировал 7 лет назад . Допустим, у нас есть статистика, приведенная ниже gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 Как выполнить t-тест из двух выборок (чтобы увидеть, есть ли …
32 r  t-test 

4
Как рассчитать уровень достоверности для распределения Пуассона?
Этот вопрос был перенесен из переполнения стека, потому что на него можно ответить по перекрестной проверке. Мигрировал 8 лет назад . Хотелось бы узнать, насколько уверенно я могу быть в своем . Кто-нибудь знает способ установить верхний и нижний уровни достоверности для распределения Пуассона?λλ\lambda Наблюдения ( ) = 88Nnn Среднее …

1
Архитектуры CNN для регрессии?
Я работал над проблемой регрессии, когда входной сигнал представляет собой изображение, а метка представляет собой непрерывное значение между 80 и 350. Изображения имеют некоторые химические вещества после реакции. Цвет, который получается, указывает концентрацию другого химического вещества, которое осталось, и это то, что модель должна вывести - концентрацию этого химического вещества. …

5
Понимание единиц LSTM против клеток
Я некоторое время изучал LSTM. Я понимаю на высоком уровне, как все работает. Однако, собираясь реализовать их с помощью Tensorflow, я заметил, что BasicLSTMCell требует параметра количества единиц (то есть num_units). Из этого очень подробного объяснения LSTM я понял, что один блок LSTM является одним из следующих который на самом …


2
Выполнение статистического теста после визуализации данных - выемка данных?
Я предложу этот вопрос на примере. Предположим, у меня есть набор данных, такой как набор данных по ценам на жилье в Бостоне, в котором у меня есть непрерывные и категориальные переменные. Здесь у нас есть переменная «качество», от 1 до 10, и цена продажи. Я могу разделить данные на дома …

4
Является ли результат экзамена биномиальным?
Вот простой статистический вопрос, который мне дали. Я не совсем уверен, что понимаю это. X = количество набранных баллов на экзамене (множественный выбор и правильный ответ - одно очко). Распространен ли бином X? Ответ профессора был: Да, потому что есть только правильные или неправильные ответы. Мой ответ: Нет, потому что …

1
Последствия неравенства Гаусса для вычисления совместных доверительных интервалов
Согласно этой очень интересной статье в журнале Quanta: «Долгожданное доказательство, найдено и почти потеряно» , - было доказано, что с учетом вектора имеющего многовариантный Гауссово распределение и заданные интервалы центрированы вокруг средних соответствующих компонентов , тогдаI 1 , … , I n xх =( х1, … , ХN)Иксзнак равно(Икс1,...,ИксN)\mathbf{x}=(x_1,\dots,x_n)я1, ... …

2
Логистическая регрессия: Scikit Learn против Statsmodels
Я пытаюсь понять, почему вывод из логистической регрессии этих двух библиотек дает разные результаты. Я использую набор данных из учебника UCLA idre , прогнозирование admitна основе gre, gpaи rank. rankрассматривается как категориальная переменная, поэтому сначала она преобразуется в фиктивную переменную с помощью rank_1drop. Также добавлен столбец перехвата. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") …


5
Что доверительные интервалы говорят о точности (если что-нибудь)?
Морей и др. (2015) утверждают, что доверительные интервалы вводят в заблуждение, и существует много предубеждений, связанных с их пониманием. Среди прочего, они описывают ошибку точности следующим образом: Ошибка точности Ширина доверительного интервала указывает на точность наших знаний о параметре. Узкие доверительные интервалы показывают точное знание, в то время как большие …

6
Должна ли скупость действительно оставаться золотым стандартом?
Просто мысль: Экономные модели всегда были стандартным выбором при выборе модели, но насколько этот подход устарел? Мне любопытно, насколько наша склонность к скупости является пережитком времени абаки и правил скольжения (или, что более серьезно, нетрадиционных компьютеров). Сегодняшние вычислительные мощности позволяют нам создавать все более сложные модели с еще большими возможностями …

3
Кластеризация длинного списка строк (слов) в группы сходства
У меня под рукой следующая проблема: у меня есть очень длинный список слов, возможно, имен, фамилий и т. Д. Мне нужно сгруппировать этот список слов, чтобы похожие слова, например слова с одинаковым расстоянием редактирования (Левенштейна), появлялись в тот же кластер. Например, «алгоритм» и «алогритм» должны иметь высокие шансы появиться в …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.