Как правильно определить победителей региональной научной ярмарки?

Мне нужна помощь в поиске правильного способа подсчета победителей на нашей научной ярмарке. Я не хочу, чтобы мое незнание статистики и математики мешало шансу ребенка выиграть. (много стипендий и пособий по продвижению на карту). Заранее спасибо за помощь.

Сначала немного истории о том, как у нас все настроено:

Наша ярмарка обычно насчитывает около 600 студенческих проектов. Эти проекты выполняются и представляются отдельными студентами или группой студентов. Команда может состоять из 2 или 3 детей.

Учащиеся подразделяются на две категории: начальная (6-8 классы) и средняя (9-12 классы). Каждое подразделение имеет различные категории: 9 категорий для начальных проектов и 17 категорий для вторичных проектов.

Награды присуждаются за первое, второе и третье места для каждой категории в каждом дивизионе. Почетные награды также присуждаются за места за третьим местом.

Для каждого проекта мы назначаем от 4 до 6 судей. Мы выполняем свои задания в зависимости от квалификации судей, их предпочтений в категории и прошлого опыта судейства. (более опытные назначены на старшее подразделение проектов).

Как судьи оценивают проект:

Для каждого проекта есть 5 критериев, которым присваиваются баллы. Каждый критерий может быть награжден от 1 до 20 баллов. Общие критерии:

Общая цель + гипотеза + использование ресурсов ( 1..20 )
Дизайн + процедуры ( 1..20 )
Сбор данных + результаты ( 1..20 )
Обсуждение + заключение ( 1..20 )
Интервью ( 1..20 )

Для командных проектов оценивается шестой критерий, называемый «командным удержанием», при котором судья может вычитать баллы ( до 15 ) за товарищей по команде, которые не участвовали или не появлялись.

Командный вычет ( 0 ..- 15 )

Таким образом, судья может оценивать каждый проект от 5 до 100 баллов. Если проект является командным проектом, оценка может быть уменьшена на 15 баллов.

Необработанные данные:

В течение нескольких часов мы собираем до 3600 баллов у судей. Эти оценки заносятся в базу данных, где я могу выполнять все виды сортировки, усреднения, вычисления стандартных отклонений и т. Д. Я просто не знаю точно, что мне следует делать с этими необработанными оценками. Прямо сейчас я делаю простое среднее для каждого проекта, но я беспокоюсь, что я не подстраиваюсь под предвзятость судей, командные вычеты или любые другие вещи, которые я не рассматриваю.

Желаемый результат:

В конце я хотел бы обработать баллы, чтобы я мог присудить проекты за первое, второе и третье места для каждой категории, а затем отметить награды за последующие места. Я хотел бы быть уверен, что позиции были рассчитаны правильно, и дети, которые выиграли, заслуживают признания (и призов).

Большое спасибо за чтение моего длинного вопроса и за вашу помощь в выяснении этого. Я буду рад ответить на любые дополнительные вопросы, которые могут у вас возникнуть.

data-transformation standard-deviation rating

— Майк Дэви
источник

Интересный и сложный вопрос, и вы затронули некоторые ключевые вопросы. Сколько всего судей, так сколько проектов будет судить каждый судья? (некоторое представление о диапазоне, а также о среднем было бы хорошо). Кроме того, 26 категорий являются взаимоисключающими? У меня есть предчувствие, что лучшим ответом может быть просто подсчитать среднее значение для каждого проекта, но это может быть возможным для судей. Я с интересом прочитаю ответы!

— Питер Эллис

Спасибо за ваш начальный интерес. Я добавил больше информации к ответу ниже. Если у вас есть понимание, я буду признателен за вашу помощь.

— Майк Дэви

Я думаю, что «ответ», возможно, слишком щедрый ярлык для моих мыслей здесь. Я люблю исследовательский анализ данных, и я большой поклонник боксплотов, так что это будет отражено в моих комментариях ...

Привет, это много баллов. :) Похоже, у вас есть как минимум 78 проектов из 600, попавших в топ-3 ( [9+17]x3) плюс почетные упоминания. Обычно я бы сказал, чтобы проводить выборку из верхней и средней каждой категории, чтобы провести аудит оценки, но это было бы очень обременительно в вашем случае из-за имеющихся у вас чисел - и это только вы заканчиваете оценку. :)

Я надеюсь, что вам может быть доступен пакет статистики, поскольку у меня есть несколько советов, которые вы могли бы использовать ниже.

Вы смотрели на распределение баллов в каждой категории? Лучшие 3, 5 или 8 проектов очень близки для оценки? Это говорит о том, что качество проектов очень схоже, и независимо от того, что вы делаете, вероятно, будет, по крайней мере, ощущение произвольности в отношении окончательных результатов.

Я не уверен, сколько проектов оценивает каждый судья. Предполагая, что они набрали разумное число (скажем,> 10, хотя чем выше, тем лучше здесь), для каждого судьи вы можете рассчитать медианный и межквартильный диапазон для общего балла, полученного для каждого оцениваемого ими проекта (у вас так много атрибутов, что, вероятно, это не так Стоит посмотреть на каждого из них в отдельности). Кажется ли, что судьи дают особенно высокие оценки или особенно низкие оценки? Если судьи, по-видимому, стабильно выставляют счет в середине, то они, возможно, дают 10 секунд, это может быть продемонстрировано сравнительно небольшим диапазоном между четвертями и общей медианной оценкой около середины диапазона возможных значений.

Для командных проектов вы можете сравнить их размещение на основе общего количества баллов с их размещением после применения командного вычета. Влияет ли командный вычет на команды, которые в противном случае оказались бы в тройке лидеров?

Это всего лишь предложения, с которых можно начать. Я думаю, что визуализация данных в этом направлении дала бы вам несколько хороших индикаторов того, кажутся ли эти места справедливыми.

Обновление: это интересная сложная проблема, которая у вас есть. Похоже, что каждый отдельный судья не оценивает достаточно проектов, чтобы мы могли придумать весовой коэффициент для каждого судьи (чтобы учесть предвзятость судьи), потому что у нас нет достаточно данных, чтобы измерить - для повышения надежности судей просто недостаточно совпадений, чтобы судьи, участвующие в одних и тех же проектах, могли это сделать. Вы смотрели на диапазон баллов по нескольким лучшим проектам - были ли четкие различия между ними и проектами с более низким баллом (естественные границы?), Насколько близки по баллам были лучшие проекты?

Из любопытства судьи получили критерии оценки, поэтому у них была небольшая гибкость в том, как выставлять оценки по каждому критерию (например, дать 1 балл за предоставление нулевой гипотезы, 1 балл за предоставление одной или нескольких альтернативных гипотез ...) или Были ли они просто знают общее количество баллов, которые они могли получить, а остальное оставалось на их усмотрение? Если бы у них было руководство по подсчету очков, я был бы уверен, что результаты были достаточно точными.

— Мишель
источник

Мне также было бы любопытно узнать, как распределяются баллы - есть ли какие-то «лучшие баллы», или есть комок, и кто выходит на вершину, немного ... непрозрачен с точки зрения процесса. Подобно процессу поступления в колледж, эти дети будут испытывать позже :)

— Fomite

Спасибо Мишель за ваши мысли. Я действительно ценю, что вы нашли время. Чтобы ответить на ваши вопросы, судьи судят только небольшое количество проектов. У нас есть минимумы для каждого подразделения: 4 раза для начальной и 5 или 6 раз для средней (5 раз для старшеклассников и 6 раз для старшеклассников).

— Майк Дэви

Мне нужно уточнить выше. Минимальные оценки за проект, а не за то, сколько раз судьи будут оценивать проекты во время ярмарки. Типичный судья будет судить от 8 до 15 проектов во время ярмарки. Это число зависит от наличия судей, их квалификации, готовности помочь и т. Д.

— Майк Дэви

Хороший ответ, Мишель. Некоторые идеи от меня: 1) Определенно дайте судьям некоторую рубрику, чтобы попытаться поощрить общие стандарты; 2) по возможности старайтесь иметь одинаковое количество судей на проект (иначе проекты с меньшим количеством судей будут иметь более высокую дисперсию и, следовательно, больше шансов попасть на вершину - или на дно) и 3) я думаю, что вам придется просто используйте среднее значение, но если у вас есть опыт и программное обеспечение, вы можете подобрать модель смешанных эффектов с оценкой случайного эффекта и посмотреть, изменит ли это результат. Что делать, если это так? Вероятно, все еще используют среднее ....

— Питер Эллис

Еще раз спасибо за каждый вклад. После того, как я некоторое время позволил этому стучать в голове, я решил посмотреть, как оцениваются проекты на международном уровне (на один шаг выше нашей ярмарки). Международная ярмарка называется ISEF. Мы отправляем наших лучших 5 студентов в ISEF каждый год.

— Майк Дэви