Это просто совокупность точек данных? Или это представление точек данных для разных элементов в табличном формате, упорядоченных по значениям разных переменных? Чем он отличается от необработанных данных?
Это просто совокупность точек данных? Или это представление точек данных для разных элементов в табличном формате, упорядоченных по значениям разных переменных? Чем он отличается от необработанных данных?
Ответы:
По моему опыту, «набор данных» (или «набор данных») является неформальным термином, который относится к набору данных. Как правило, набор данных содержит более одной переменной и относится к одной теме; это может касаться одного образца.
Авторы вопросов о перекрестной проверке, которые я часто вижу, используют «набор данных» как синоним «переменная» или «вектор».
Я думаю, что Википедия делает достойную работу по определению этого:
Чаще всего набор данных соответствует содержимому одной таблицы базы данных или одной матрицы статистических данных, где каждый столбец таблицы представляет определенную переменную, а каждая строка соответствует данному члену рассматриваемого набора данных. В наборе данных перечислены значения для каждой из переменных, таких как рост и вес объекта, для каждого члена набора данных. Каждое значение называется датумом. Набор данных может содержать данные для одного или нескольких членов, соответствующие количеству строк.
Термин «набор данных» может также использоваться более свободно для обозначения данных в совокупности тесно связанных таблиц, соответствующих конкретному эксперименту или событию. Примером этого типа являются наборы данных, собранные космическими агентствами, проводящими эксперименты с приборами на борту космических зондов.
В дисциплине открытых данных набор данных - это единица измерения информации, публикуемой в общедоступном открытом хранилище данных. Европейский портал открытых данных объединяет более полумиллиона наборов данных. В этой области были предложены другие определения, но в настоящее время они не являются официальными. Некоторые другие проблемы (источники данных в реальном времени, нереляционные наборы данных и т. Д.) Усложняют достижение консенсуса по этому поводу.
Как видите, термин несколько расплывчатый.
Я думаю, что вам может потребоваться определить точку данных, прежде чем вы сможете определить набор данных : почему один примитив и не нуждается в определении, а не наоборот?
По крайней мере, два определения имеют смысл для меня:
Одно или несколько наблюдений (наблюдения, записи, строки) для одной или нескольких переменных (полей. Столбцов).
Все, что хранится в виде данных в файле, читаемом выбранной программой.
Табличное расположение является обычным явлением, но я не думаю, что оно является частью какого-либо определения; Естественно, как данные хранятся, может быть практически важным.
PS Слово «формат» настолько перегружено, что для меня его лучше избегать, если не указано однозначно. Я видел это используется для
Общий или специальный текстовый или двоичный формат файла
Структура данных, например, табличная или другая
Хранение данных или типы переменных, например, бит, целое, вещественное, символьное
Формат отображения, управляющий презентацией, например, информация о количестве десятичных знаков; десятичное, шестнадцатеричное или двоичное отображение.
Здесь уже есть несколько хороших ответов, и я не думаю, что смогу глубже, чем Ник Кокс или Франк Дернонкур, разобраться в том, относится ли «набор данных» к концептуальному сбору связанных данных или к конкретному расположению этих данных, например, в таблица / матрица или машиночитаемый файл. Извлечение Франка упоминает крайние случаи, такие как непрерывно собираемые данные или данные, распределенные по нескольким таблицам, о которых стоит помнить, если вы предполагаете, что будет простое определение. (Не все программы статистики могут с этим справиться, но очень легко представить себе случай, когда данные хранятся в реляционной базе данных с несколькими таблицами. Является ли вся база данных одним «набором данных»?)
Однако я добавлю одну вещь: наборы данных, как правило, не являются наборами в математическом смысле! Sensu stricto либо набор содержит объект, либо нет, но не может содержать более одной копии этого объекта. Если я бросить кубик восемь раз и оценка 1, 4, 3, 5, 5, 4, 6, 4 , то набор баллов проката просто {1, 3, 4, 5, 6}. Обратите внимание, что элементы могут быть в любом порядке, я только что написал их по возрастанию по значению, но, например, набор {5, 4, 1, 6, 3} математически равен ему. Это не то, что мы обычно подразумеваем под набором данных!
Мультимножеством (или пакет ) позволяет записи необходимо повторить, например , {1, 4, 3, 5, 5, 4, 6, 4} , хотя примечание это по- прежнему не включает в себя чувство порядка, так равно {1, 3, 4, 4, 4, 5, 5, 6}. Возможно, «набор» в «наборе данных» лучше всего читать как «мультимножество». Более того, если вы хотите сохранить порядок, вместо этого вы можете использовать вектор: (1, 4, 3, 5, 5, 4, 6, 4) не совпадает с (1, 3, 4, 4, 4, 5, 5, 6). Порядок дает нам индекс, который может служить своего рода идентификатором - например, он говорит: «какая четверка какая?» - и который часто служит для записи наблюдений в их естественном временном или географическом порядке. Когда видны формулы, такие какx1x2Предполагается такая схема индексации. Что бы значило или в контексте набора или мультимножества, учитывая, что мы не можем различить «первый» или «второй» элемент из-за отсутствия упорядочения?
Но векторы предназначены только для записи одной переменной - для нескольких может быть удобнее использовать матрицу для табулирования с сохранением порядка. Для более сложных ситуаций, таких как измерение свойства трехмерной сетки вокселей во времени, вы можете даже перейти к упорядочению данных в тензор (см., Например, этот вопрос ).
Но обратите внимание, что концептуально мультимножества может быть достаточно в большинстве простых ситуаций, даже если это неудобно для практических целей. Если бы я бросил монету одновременно с бросанием кубика и хотел записать два результата вместе, то я мог бы использовать мультимножество, такое как {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} вместо матрицы. Обычного набора будет недостаточно, так как он не будет учитывать кратность (4, H), например.