Для достижения наилучших результатов в долгосрочной перспективе положительного подкрепления вы должны предоставлять вознаграждение от значения переменной от высокого значения до среднего значения до низкого значения без вознаграждения. Изначально вы хотите использовать награды с высокой ценностью, когда поведение (или положительное подкрепление в целом) является новым. Затем вам следует перейти к случайному предоставлению поощрений за высокое или низкое значение, постепенно переходя к отсутствию или, как правило, к вознаграждению за низкое значение за установленное поведение. Это должно быть похоже на игровой автомат, обычно вы ничего не получаете или просто получаете несколько монет назад, но время от времени вы получаете огромный джекпот, и это не дает ему скучать.
Я не могу сказать, где по шкале наград «хорошая собака» подходит для вашей собаки. У меня была одна собака, для которой это было надежно одно из наград наивысшего значения, а другая, для которой это был просто маркер, который мог бы получить вознаграждение (то есть как вращающиеся колеса с прорезями). Но важная вещь - это переменное усиление.
Много полезной информации о позитивном дрессировке можно найти на странице обучения скаутов Америки.