Ваши магистры в области компьютерных наук? Статистика?
«Наука о данных» будет в центре вашей диссертации? Или побочная тема?
Я предполагаю, что вы в статистике, и что вы хотите сосредоточить свой тезис на проблеме «науки о данных». Если это так, то я собираюсь пойти против структуры и предложить, чтобы вы не начинали с набора данных или метода ML. Вместо этого вам следует искать интересную исследовательскую проблему, которая плохо изучена, или где методы ОД еще не доказали свою успешность, или когда существует много конкурирующих методов ОД, но ни один из них не кажется лучше, чем другие.
Рассмотрим этот источник данных: Stanford Large Network Dataset Collection . Несмотря на то, что вы можете выбрать один из этих наборов данных, составить формулировку проблемы, а затем запустить некоторый список методов ML, этот подход на самом деле мало что говорит вам о том, что представляет собой наука о данных, и, на мой взгляд, не привести к очень хорошей магистерской диссертации.
Вместо этого вы можете сделать это: поищите все исследовательские работы, в которых используется ML по какой-то определенной категории - например, сети для совместной работы (соавторство). Когда вы будете читать каждый документ, попытаться выяснить , что они были в состоянии достичь с каждым методом ML и то , что они не были в состоянии адреса. Особенно поищите их предложения для «будущих исследований».
Возможно, все они используют один и тот же метод, но никогда не пробовали конкурировать с методами ML. Или, может быть, они недостаточно обосновывают свои результаты, или, может быть, наборы данных невелики, или, возможно, их исследовательские вопросы и гипотезы были упрощенными или ограниченными.
Самое главное: попытаться выяснить, куда идет эта линия исследований. Почему они вообще пытаются это сделать? Что в этом значительного? Где и почему они сталкиваются с трудностями?