Руководство по открытию новых знаний в данных


9

Я планирую что-то, чтобы подчеркнуть себя или кого-то еще. Обычно вопрос начинает этот процесс, и часто спрашивающий надеется на конкретный ответ.

Как я могу узнать интересные вещи о данных менее предвзятым способом?

Прямо сейчас я примерно следую этому методу:

  1. Сводные статистические данные.
  2. Stripchart.
  3. Разброс сюжета.
  4. Может быть, повторить с интересным подмножеством данных.

Но это не кажется методическим или научным.

Существуют ли руководящие принципы или процедуры, которые следует соблюдать, которые раскрывают информацию о данных, о которых я даже не подумал бы спросить? Как я узнаю, когда я сделал адекватный анализ?

Ответы:


6

Есть целая область исследовательского анализа данных (EDA) и отличная книга на эту тему под названием « Исследовательский анализ данных » Джона У. Тьюки.

Мне нравится, что вы используете графики - есть много других графиков, которые могут быть полезны, в зависимости от ваших данных - сколько переменных? Какого рода переменные (категориальные? Числовые? Непрерывные? Рассчитывают? Порядковые?)

Один график, который часто полезен для данных с несколькими переменными, представляет собой матрицу диаграммы рассеяния.

Вы можете искать различные типы выбросов, которые часто представляют собой интересные моменты.

Но я не думаю, что весь этот процесс можно сделать по-настоящему методичным и научным - исследование - это то, что происходит ДО того, как могут быть применены методический и научный подходы. Здесь, я думаю, ключевым аспектом является игривость.


(+1) Можете ли вы предоставить ссылку на упомянутую книгу?
Штеффен

EDA из Инженерно-статистического справочника itl.nist.gov/div898/handbook/eda/eda.htm .
Селден

@Peter Flom 13 переменных создаются путем сравнения двух наборов выходных данных, создаваемых программой, работающей на двух наборах входных данных. Программа запускается периодически. Переменными являются порядковый номер, категория, категория, категория, категория, количество, количество, количество, количество, число, число, число и число. Имена: id, machineA, inputA, machineB, inputB, новые, такие же, отсутствующие, newP, отсутствующие P, длина A, длина B, оценка A, оценка B. Но решение сравнивать только самые последние результаты также моя хорошая / плохая идея.
Селден

Книга называется «Исследовательский анализ данных» (не EDA), она написана Джоном У. Тьюки (моя память обманула меня, потому что обложка моего издания помечена как EDA). Ссылка: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Питер Флом

@selden Ну, ID, вероятно, не является полезной переменной. Между двумя категориальными переменными вы можете посмотреть мозаичные графики; между категориальным и числовым, параллельные боксы могут быть хорошими.
Питер Флом

1

Если у вас есть хронологические данные, то есть данные временного ряда, тогда существуют «известные» и ожидающие обнаружения «неизвестные». Например, если у вас есть последовательность точек данных для 10 периодов, таких как 1,9,1,9,1,5,1,9,1,9, то на основе этой выборки можно разумно ожидать 1,9,1,9 ... возникать в будущем. Анализ данных показывает, что существует «необычное» чтение в период 6, даже если оно находится в пределах + -3 сигма-пределов, предполагая, что DGF не сохранился. Разоблачение Inlier / Outlier позволяет нам раскрывать информацию о данных. Также отметим, что среднее значение не является ожидаемым. Эта идея легко распространяется на обнаружение средних сдвигов и / или трендов местного времени, которые могли быть неизвестны до анализа данных (генерация гипотез). Теперь вполне возможно, что следующие 10 чтений также 1,9,1,9, 1,5,1,9,1,9, предполагая, что «5» не обязательно является неблагоприятным. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. 9, предполагая, что «5» не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. 9, предполагая, что «5» не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. не обязательно плохо. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Если мы наблюдаем процесс ошибки из подходящей модели, которая демонстрирует доказуемую непостоянную дисперсию, мы можем обнаружить одно из следующих состояний: 1) параметры могли измениться в определенный момент времени; 2. Может потребоваться взвешенный анализ (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Там может быть необходимость взвешенного анализа (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. Там может быть необходимость взвешенного анализа (GLS); 3. Может возникнуть необходимость в преобразовании данных с помощью степенного преобразования; 4. Может возникнуть необходимость смоделировать дисперсию ошибок. Если у вас есть ежедневные данные, то хороший анализ может выявить, что существует окно реакции (структура опережающего, современного и отставания) вокруг каждого праздника, отражающее последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. современная и запаздывающая структура) вокруг каждого праздника, отражающая последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность. современная и запаздывающая структура) вокруг каждого праздника, отражающая последовательное / предсказуемое поведение. Вы также можете обнаружить, что определенные дни месяца оказывают существенное влияние или что пятницы перед выходными в понедельник имеют исключительную активность.


0

Сбор данных может быть разбит на две категории. Если вы заинтересованы в измерении влияния набора данных / переменных на конкретную переменную, то это будет считаться контролируемым обучением. Для глубокого и исследовательского обучения без цели вы проходите обучение без учителя.

Графический и статистический анализ данных (понимание распределения и получение интуиции) являются первыми шагами.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.