Если у вас есть основы (определение выбросов, пропущенных значений, взвешивания, кодирования) в зависимости от темы, в простой академической литературе можно найти гораздо больше. Например, в опросе (который является темой, в которой многие вещи могут пойти не так, и подвержены многочисленным источникам предвзятости), можно найти много хороших статей.
При подготовке к регулярной поперечной регрессии все может быть менее сложным. Например, проблема может заключаться в том, что вы удаляете слишком много «выбросов» и, таким образом, искусственно подходите своей модели.
Таким образом, я также рекомендую вам, помимо изучения хороших методов, также помнить о здравом смысле. Убедитесь, что вы применяете методы правильно, а не вслепую. Что касается обсуждения программного обеспечения в других ответах. Я думаю, что SPSS не плох для подготовки данных (я также слышал хорошие вещи о SAS) в зависимости от размера вашего набора данных. Выпадающие меню очень интуитивно понятны.
Но как прямой ответ на ваш вопрос, академическая литература может или не может быть очень хорошим источником для подготовки ваших данных в зависимости от темы и анализа.