Байесовский: «Привет, машинный ученик!»
Частый участник: «Привет, машинный ученик!»
Машинное обучение: «Я слышал, что вы, ребята, хорошо разбираетесь в вещах. Вот некоторые данные».
F: «Да, давайте запишем модель и затем вычислим MLE».
Б: «Эй, Ф, это не то, что вы сказали мне вчера! У меня были некоторые одномерные данные, и я хотел оценить дисперсию, и я рассчитал MLE. Затем вы набросились на меня и сказали мне делить на вместо поn−1n «.
Ф: «Ах, да, спасибо, что напомнили мне. Я часто думаю, что я должен использовать MLE для всего, но меня интересуют объективные оценки и так далее».
М.Л .: «А что это за философствование? Поможет ли это мне?»
F: «Хорошо, оценщик - это черный ящик, вы вводите данные, и он дает вам некоторые цифры. Нам, частым лицам, не важно, как был построен ящик, какие принципы использовались для его проектирования. Например, я не знаю, как получить правило . "÷(n−1)
МЛ: «Итак, что тебя волнует?»
F: «Оценка».
МЛ: «Мне нравится, как это звучит».
F: «Черный ящик - это черный ящик. Если кто-то утверждает, что конкретный оценщик является непредвзятым оценщиком для , то мы, в свою очередь, пробуем много значений , генерируем много выборок из каждого на основе некоторой предполагаемой модели, проталкиваем их через оценщик, и найдите среднее оценочное значение . Если мы можем доказать, что ожидаемая оценка равна истинному значению для всех значений, то мы говорим, что оно объективно ".θθθ
МЛ: «Звучит великолепно! Похоже, что частые люди - прагматичные люди. Вы судите о каждом черном ящике по его результатам. Оценка является ключевой».
F: «Действительно! Я понимаю, что вы, ребята, придерживаетесь подобного подхода. Перекрестная проверка или что-то в этом роде?
МЛ: "Грязный?"
F: «Идея проверки вашей оценки на реальных данных мне кажется опасной. Используемые вами эмпирические данные могут иметь всевозможные проблемы и могут не вести себя в соответствии с моделью, которую мы согласовали для оценки».
МЛ: «Что? Я думал, ты сказал, что доказал некоторые результаты? Что твой оценщик всегда будет беспристрастным, для всех ".θ
Ф: «Да. Хотя ваш метод мог работать с одним набором данных (набором данных с данными о поездах и тестах), который вы использовали при оценке, я могу доказать, что мой метод всегда будет работать».
МЛ: "Для всех наборов данных?"
F: "Нет"
МЛ: «Значит, мой метод прошел перекрестную проверку на одном наборе данных. Вы не проверяли свой метод ни на одном реальном наборе данных?»
F: "Это верно."
МЛ: «Тогда я становлюсь лидером! Мой метод лучше, чем ваш. Он предсказывает рак в 90% случаев. Ваши« доказательства »действительны только в том случае, если весь набор данных ведет себя в соответствии с предполагаемой моделью».
F: "Эмм, да, я полагаю."
ML: "И этот интервал имеет 95% охват . Но я не должен удивляться, если он содержит только правильное значение 20% времени?"θ
F: «Это верно. Если данные не являются действительно нормальными (или что-то еще), мои доказательства бесполезны».
МЛ: «Итак, моя оценка более надежна и всесторонняя? Она работает только с наборами данных, которые я пробовал до сих пор, но, по крайней мере, это настоящие наборы данных, бородавки и все такое. Вы пытались утверждать, что вы более« консервативны » 'и' тщательно 'и что вы были заинтересованы в проверке моделей и прочем. "
Б: (вставляет) «Эй, ребята, извините, что прерываю. Я хотел бы вмешаться и уравновесить ситуацию, возможно, продемонстрировать некоторые другие проблемы, но я действительно люблю наблюдать за тем, как мой частый коллега корчится».
F: "Вау!"
МЛ: «Хорошо, дети. Все было связано с оценкой. Оценщик - это черный ящик. Данные поступают, данные поступают. Мы одобряем или не одобряем оценщик на основе того, как он работает при оценке. Нам все равно о «рецепте» или «принципах дизайна», которые используются ».
Ф: «Да. Но у нас совершенно разные представления о том, какие оценки важны. ML проведет тренинг и тестирование на реальных данных. Принимая во внимание, что я сделаю оценку, которая носит более общий характер (поскольку включает широко применимые доказательства), и также более ограниченный (потому что я не знаю, действительно ли ваш набор данных взят из предположений моделирования, которые я использую при разработке своей оценки.) "
МЛ: «Какую оценку ты используешь, Б?»
Ф: (вставляет) «Эй. Не смеши меня. Он ничего не оценивает. Он просто использует свои субъективные убеждения и работает с этим. Или с чем-то».
Б: «Это обычная интерпретация. Но также возможно определить байесовский характер по предпочтительным оценкам. Тогда мы можем использовать идею, что никому из нас не важно, что находится в черном ящике, мы заботимся только о разных способах оценки».
Б продолжает: «Классический пример: медицинский тест. Результат анализа крови положительный или отрицательный. Частых людей будет интересовать, здоровых людей, в какой пропорции получен отрицательный результат. И аналогично, какая доля больных людей будет получите положительный результат. Специалист по частям рассчитает их для каждого рассматриваемого метода анализа крови, а затем порекомендует использовать тест, получивший наилучшую пару баллов ».
F: "Точно. Что еще ты хочешь?"
Б: «А как насчет тех людей, которые получили положительный результат теста? Они захотят узнать,« кто из них получит положительный результат, сколько заболеет? » и «Из тех, кто получает отрицательный результат, сколько здоровых?» "
МЛ: «Ах, да, кажется, лучше задать пару вопросов».
F: "HERESY!"
Б: «Мы снова здесь. Ему не нравится, куда это идет».
М.Л .: «Это касается« приоры », не так ли?»
F: «ЗЛО».
Б: «В любом случае, да, вы правы. ML. Чтобы рассчитать долю людей с положительным результатом, которые больны, вы должны сделать одну из двух вещей. Один из вариантов - запустить тесты на большом количестве людей и просто наблюдать за соответствующие пропорции. Сколько из этих людей умирает, например, от этой болезни ".
МЛ: «Это звучит как то, что я делаю. Используйте тренировку и тестирование».
Б: «Но вы можете рассчитать эти цифры заранее, если вы хотите сделать предположение о степени заболеваемости среди населения. Частый пациент также делает свои расчеты заранее, но без использования этого показателя заболеваемости на уровне населения».
F: «БОЛЬШЕ НЕОБХОДИМОГО ПОЛОЖЕНИЯ».
Б: «О, заткнись. Раньше тебя об этом узнали. ML обнаружил, что ты так же любишь необоснованные предположения, как и все остальные. Твои« проверенные »вероятности покрытия не будут складываться в реальном мире, если все твои предположения не подтвердятся. Почему моё предыдущее предположение столь расплывчато? Ты называешь меня сумасшедшим, но при этом притворяешься, что твои предположения - работа консервативного, основательного анализа без предположений ».
Б (продолжает): «Во всяком случае, МЛ, как я уже говорил. Байесовцам нравится другой вид оценки. Мы больше заинтересованы в том, чтобы обусловливать наблюдаемые данные и соответствующим образом вычислять точность нашей оценки. Мы не можем выполнить эту оценку без использования до. Но интересно то, что, как только мы определились с этой формой оценки, и как только мы выбрали нашу предварительную оценку, у нас есть автоматический «рецепт» для создания соответствующей оценки. У часто встречающегося такой рецепт нет. Если он хочет беспристрастный оценщик для сложной модели, у него нет никакого автоматизированного способа построить подходящую оценку ".
МЛ: «А вы? Вы можете автоматически построить оценщик?»
Б: «Да. У меня нет автоматического способа создания объективной оценки, потому что я думаю, что смещение - это плохой способ оценки оценки. Но, учитывая оценку условных данных, которая мне нравится, и ранее, я Можно связать предыдущее и вероятность дать мне оценку ".
МЛ: «В любом случае, давайте подведем итоги. У всех нас есть разные способы оценки наших методов, и мы, вероятно, никогда не договоримся о том, какие методы лучше».
Б: «Ну, это несправедливо. Мы могли бы смешивать и сопоставлять их. Если у кого-то из нас есть хорошие данные о тренировках с маркировкой, мы, вероятно, должны проверить их. И, как правило, все мы должны проверить как можно больше предположений. И некоторые« частые » «Доказательства тоже могут быть забавными, предсказывая производительность при некоторой предполагаемой модели генерации данных».
F: «Да, ребята. Давайте прагматично оценивать. И на самом деле, я перестану зацикливаться на свойствах бесконечного образца. Я просил ученых дать мне бесконечный образец, но они все еще не сделали этого. время снова сосредоточиться на конечных сэмплах ".
МЛ: «Итак, у нас только один последний вопрос. Мы много спорили о том, как оценивать наши методы, но как мы создаем наши методы».
Б: «Ах. Как я уже говорил ранее, у нас, байесов, есть более мощный общий метод. Он может быть сложным, но мы всегда можем написать какой-то алгоритм (возможно, наивную форму MCMC), который будет производить выборку из нашего апостериорного значения. "
F (вставляет): «Но это может иметь смещение».
Б: «Так могут и ваши методы. Нужно ли напоминать вам, что MLE часто бывает предвзятым? Иногда у вас возникают большие трудности с поиском непредвзятых оценок, и даже когда у вас есть глупая оценка (для какой-то действительно сложной модели), которая скажет: Дисперсия отрицательна. И вы называете это беспристрастным. Беспристрастным, да. Но полезным, нет!
МЛ: «Хорошо, ребята. Вы снова разглагольствуете. Позвольте мне задать вам вопрос, Ф. Вы когда-нибудь сравнивали смещение вашего метода с смещением метода Б, когда вы оба работали над одной и той же проблемой?»
Ф: «Да. На самом деле, мне неприятно это признавать, но подход Б иногда имеет меньший уклон и MSE, чем моя оценка!»
М.Л .: «Урок здесь в том, что, хотя мы немного не согласны с оценкой, ни у кого из нас нет монополии на то, как создать оценщик, обладающий желаемыми свойствами».
Б: «Да, нам следует больше читать работы друг друга. Мы можем вдохновлять друг друга на оценки. Мы можем обнаружить, что оценки других работают отлично, из коробки, над нашими собственными проблемами».
Ф: «И я должен прекратить зацикливаться на предвзятости. У объективной оценки может быть нелепая разница. Я полагаю, что все мы должны« взять на себя ответственность »за выбор, который мы делаем в том, как мы оцениваем, и свойства, которые мы хотим видеть в наших оценщиках». Мы не можем прятаться за философией. Попробуйте все возможные оценки. И я буду продолжать смотреть на байесовскую литературу, чтобы получить новые идеи для оценщиков! "
Б: «На самом деле, многие люди на самом деле не знают, какова их собственная философия. Я даже сам не уверен. Если я использую байесовский рецепт, а затем доказываю какой-то хороший теоретический результат, разве это не значит, что я Я частый человек? Частотик заботится о приведенных выше доказательствах производительности, он не заботится о рецептах. А если я вместо этого провожу какие-то тренировки и тесты, значит ли это, что я обучаюсь машинному делу? "
МЛ: «Кажется, мы все очень похожи».