Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка .
Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что сплайны должны быть предпочтительными.
Тем не менее, в настоящее время я работаю с Spotify API, который имеет ряд постоянных мер доверия для некоторых из своих функций.
Глядя на одну особенность, «инструментальность», ссылки указывают:
Предсказывает, не содержит ли трек вокал. В этом контексте звуки «ох» и «ааа» рассматриваются как инструментальные. Рэп или треки устных слов явно «вокальные». Чем ближе значение инструментальности к 1,0, тем больше вероятность, что трек не содержит вокального контента. Значения выше 0,5 предназначены для представления инструментальных треков , но достоверность выше, когда значение приближается к 1,0.
Учитывая очень искаженное распределение моих данных (около 90% выборок чуть выше 0, я счел целесообразным преобразовать эту функцию в две категориальные функции: «инструментальная» (все выборки со значением выше 0,5) и «non_instrumental» «(для всех образцов со значением ниже 0,5).
Это неправильно? И какова была бы альтернатива, когда почти все мои (непрерывные) данные вращаются вокруг одного значения? Из того, что я понимаю о сплайнах, они также не будут работать с проблемами классификации (что я делаю).