Data Science ориентированный набор данных / исследовательский вопрос для диссертации MSc Statistics

11

Я хотел бы изучить «науку о данных». Этот термин кажется мне немного расплывчатым, но я ожидаю, что он потребует:

машинное обучение (а не традиционная статистика);
достаточно большой набор данных для анализа кластеров.

Какие есть хорошие наборы данных и проблемы, доступные статистику с некоторым опытом программирования, который я могу использовать для изучения области науки о данных?

Чтобы это было как можно более узким, в идеале я хотел бы, чтобы ссылки открывались, хорошо использовались наборы данных и примеры проблем.

— user3279453
источник

8

Просто зайдите на kaggle.com; это займет тебя надолго. Для открытых данных есть хранилище машинного обучения UC Irvine . Фактически, существует целый сайт Stackexchange, посвященный этому; смотреть там.

— Эмре
источник

5

Sunlight Foundation является организацией , которая ориентирована на открытие и поощрения беспартийного анализа правительственных данных.

Существует масса анализа в дикой природе, который можно использовать для сравнения, и широкий спектр тем.

Они предоставляют инструменты и API для доступа к данным, и помогли сделать данные доступными в таких местах, как data.gov .

Одним из интересных проектов является Influence Explorer . Вы можете получить исходные данные здесь, а также доступ к данным в реальном времени.

Возможно, вы также захотите взглянуть на один из наших наиболее популярных вопросов:

Публично доступные наборы данных .

— Стив Каллестад
источник

5

Ваши магистры в области компьютерных наук? Статистика?

«Наука о данных» будет в центре вашей диссертации? Или побочная тема?

Я предполагаю, что вы в статистике, и что вы хотите сосредоточить свой тезис на проблеме «науки о данных». Если это так, то я собираюсь пойти против структуры и предложить, чтобы вы не начинали с набора данных или метода ML. Вместо этого вам следует искать интересную исследовательскую проблему, которая плохо изучена, или где методы ОД еще не доказали свою успешность, или когда существует много конкурирующих методов ОД, но ни один из них не кажется лучше, чем другие.

Рассмотрим этот источник данных: Stanford Large Network Dataset Collection . Несмотря на то, что вы можете выбрать один из этих наборов данных, составить формулировку проблемы, а затем запустить некоторый список методов ML, этот подход на самом деле мало что говорит вам о том, что представляет собой наука о данных, и, на мой взгляд, не привести к очень хорошей магистерской диссертации.

Вместо этого вы можете сделать это: поищите все исследовательские работы, в которых используется ML по какой-то определенной категории - например, сети для совместной работы (соавторство). Когда вы будете читать каждый документ, попытаться выяснить , что они были в состоянии достичь с каждым методом ML и то , что они не были в состоянии адреса. Особенно поищите их предложения для «будущих исследований».

Возможно, все они используют один и тот же метод, но никогда не пробовали конкурировать с методами ML. Или, может быть, они недостаточно обосновывают свои результаты, или, может быть, наборы данных невелики, или, возможно, их исследовательские вопросы и гипотезы были упрощенными или ограниченными.

Самое главное: попытаться выяснить, куда идет эта линия исследований. Почему они вообще пытаются это сделать? Что в этом значительного? Где и почему они сталкиваются с трудностями?

— MrMeritology
источник

Это довольно хорошая идея. Мастера в статистике.

— user3279453