Оценивание результатов образовательной деятельности является одной из наиболее обсуждаемых, спорных и нерешенных проблем в связи с непрерывно изменяющимися требованиями общества к результатам образования, развитием педагогической, психологической и квалиметрической наук. Проблема обострилась в связи с необходимостью оценивать компетенции как результат образовательной деятельности студента и преподавателя.
С сентября 2011 года российское образование перестроилось на новые образовательные стандарты, которые декларативно предполагают, что каждый вуз должен самостоятельно разрабатывать методики оценивания компетенций и диагностические материалы. В этой связи предлагается следующий алгоритм технологии квалиметрического оценивания профессиональных компетенций, состоящий из этапов:
- Подготовительный этап (организация разработки технологии диагностики компетенций).
- Отбор и структурирование диагностируемого материала.
- Проектирование структуры оценочных средств компетенции.
- Конструирование оценочных средств (разработка и подбор заданий в соответствии со структурой компетенций и содержательной областью диагностики компетенций).
- Экспертиза оценочных средств с проведением пилотажной диагностики компетенций и корректировкой оценочных средств.
- Диагностика компетенций и интерпретация результатов диагностики компетенций.
- Использование результатов диагностики компетенций в учебном процессе.
Экспертиза оценочных средств с проведением пилотажной диагностики компетенций и корректировка оценочных средств являются важным этапом подтверждения эффективности и результативности разработанных методик и технологий оценивания профессиональных компетенций студентов вуза.
При этом необходимо провести проверку на стандартизацию и надежность оценочных средств, определить все виды валидности разработанных методик и технологий оценивания.
Стандартизация – это единообразие процедуры проведения оценивания и итоговой оценки. Необходимость стандартизации вызвана тем, что любая разработанная методика и технология оценивания профессиональных компетенций должна быть рассчитана на широкий круг пользователей и обеспечивать получение идентичных результатов каждым из преподавателей у каждого из студентов. Каждая методика оценивания для выполнения принципа системности должна подвергаться проверке на соответствие трём основным требованиям: стандартизации, надёжности и валидности.
Стандартизация предполагает:
1) единообразие процедуры оценивания;
2) единообразие интерпретации и оценки результатов оценивания.
Стандартизация процедуры оценивания предполагает выполнение следующих требований:
1. Унификация инструкций. Это требование предполагает наличие отдельных унифицированных инструкций как для студента, так и для преподавателя.
Унификация инструкции для преподавателя предполагает однозначность ее понимания людьми с разным уровнем профессиональной подготовки и опытом работы. Поэтому инструкция должна быть изложена простым и понятным языком и зафиксирована в письменном виде.
Благодаря этому инструкции сообщаются студентам одинаковым образом и оцениваются преподавателями с одинаковой точностью соблюдения инструкций.
2. Унификация оценочного материала. Это требование предполагает, что при проведении процедуры оценивания каждому студенту предъявляется один и тот же оценочный (диагностический) материал по содержанию, цвету, размеру и т.п. Наиболее полное выполнение этого требования обеспечивает аппаратурная и компьютерная диагностика, так как неизменность материала обеспечивается техническими возможностями аппаратуры компьютера и программного обеспечения. С этой целью часть тестовых заданий может быть переведены в тестовую компьютерную оболочку.
3. Унификация непосредственной процедуры оценивания предполагает единообразное осуществление процедуры разными преподавателями. В любой разработанной технологии оценивания это требование обеспечивается точными и подробными письменными указаниями пошагового алгоритма проведения каждой методики.
4. Унификация способов регистрации результатов оценивания обеспечивается разработанными листами регистрации оценивания компонентов с последующим внесением их в общую базу для получения интегрированной оценки.
5. Унификация условий проведения обследования является наиболее сложно выполнимым условием, поскольку следует учитывать соблюдение общепринятых санитарно-гигиенических стандартов относительно температуры воздуха, освещенности, чистоты воздуха, отсутствия посторонних раздражителей и т.д., желательна однородность функциональных состояний студентов.
Стандартизация критерия оценки результатов диагностики предполагает выявление статистической нормы, являющейся критерием для интерпретации результатов.
Надежность – это относительное постоянство, устойчивость, согласованность результатов методики при её применении на одних и тех же студентов (испытуемых). К.М. Гуревич [2] понимает надежность как:
1) надежность самого измерительного инструмента;
2) стабильность изучаемого признака;
3) константность, т.е. относительную независимость результатов от личности экспериментатора.
Каждый из этих признаков в отдельности не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая всеми тремя признаками надежности, наиболее пригодна для практического применения.
Определение надежности самого измерительного инструмента.
От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависят точность, объективность любого измерения и присвоения ценности, т.е. оценивания. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется метод «расщепления». Он предполагает сопоставление разных частей теста, проектного задания или другой методики между собой, например, первой половины теста со второй. Однако результаты проверки могут быть искажены влиянием врабатываемости, тренировки, утомления. В этой связи целесообразнее делить задания на четные и нечетные, а результаты двух полученных рядов коррелировать между собой. Получение высокого коэффициента корреляции свидетельствует о высокой надежности данной методики по критерию однородности.
Определение стабильности изучаемого признака. Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании студентов с помощью той же методики. О стабильности признака судят по коэффициенту корреляции (как правило, ранговой) между результатами первого и второго обследований. Стабильность тем выше, чем больше каждый студент сохраняет свой порядковый номер в выборке.
При определении ретестовой стабильности признака большое значение имеет промежуток времени между первым и вторым обследованиями. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Однако, если срок между первым и вторым опытами небольшой, то некоторые студенты могут воспроизвести свои прежние ответы по памяти и таким образом отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.
При определении промежутка времени между первым и вторым оцениванием следует учитывать иерархическое положение диагностируемого свойства, так как, согласно закономерности метронома, чем на более высоком иерархическом уровне находится свойство, тем медленнее оно изменяется, но тем больше диапазон (амплитуда) этих изменений [5]. Интерпретация коэффициента стабильности измеряемого свойства зависит от сущности этого свойства. Если методика исследует достаточно устойчивое свойство, то коэффициент стабильности должен быть высоким, не ниже 0,8. Если методика исследует свойство, которое в период оценивания находится в процессе интенсивного развития, то коэффициент стабильности может оказаться невысоким, но это не следует интерпретировать как недостаток методики. Такой коэффициент стабильности является показателем изменений (развития) исследуемого свойства.
Определение константности методики оценивания. Константность методики – это независимость результатов, полученных с ее помощью, от личности экспериментатора.
Хотя любая методика оценивания снабжается инструкциями по ее применению, указаниями по проведению процедуры оценивания, очень трудно регламентировать манеру поведения преподавателя, скорость его речи, тон голоса, паузы, выражение лица. Студент в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т.п.) (М.К. Акимова и К.М. Гуревич, 2008).
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке студентов, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,8.
Чем больше процедура оценивания автоматизирована и чем она проще, чем меньшую роль здесь играет преподаватель, тем меньше у него возможностей непроизвольно повлиять на студента и на ход эксперимента. Во-вторых, особое внимание обращается на точность и унификацию письменных инструкций как для студента, так и для преподавателя.
Валидность – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для оценивания/измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.
Валидность подразделяют на теоретическую (валидность измерительного инструмента) и прагматическую (цель использования). При теоретической валидизации исследователя интересует само свойство, измеряемое методикой. При прагматической валидизации суть предмета измерения оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определенными областями практики (М.К. Акимова и К.М. Гуревич, 2008).
Целью теоретической валидизации является доказательство, что методика измеряет именно то свойство, качество, которое является предметом измерения. Поэтому важно выявить достоверную взаимосвязь между явлениями и их показателями, посредством которых эти явления пытаются познать. Такая проверка показывает, насколько замысел автора и результаты методики совпадают.
Проще провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной, уже проверенной методикой указывает на то, что разработанная методика измеряет то же качество, что и эталонная. Установление степени связи с родственной методикой называется конвергентной валидностью. Согласно требованиям к проверке методики на конвергентную валидность, количество студентов должно быть не менее 50, а коэффициент корреляции между новой и аналогичной, уже проверенной (традиционной) методикой должен быть статистически значимым. Низким признается коэффициент валидности порядка 0,2–0,3, средним – 0,3–0,5 и высоким – свыше 0,6 (М.К. Акимова, К.М. Гуревич, 2008).
Сложнее провести теоретическую валидизацию методики при невозможности такой проверки. В этом случае для раскрытия смысла методики особенно важен анализ информации об изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, а также достаточный опыт работы с методикой.
В любом случае важно, чтобы методика была тщательно проработана в теоретическом плане. Использование методик оценивания без отчетливой теоретической базы лишь с чисто эмпирическим обоснованием чревато опасностью псевдонаучных выводов и неоправданных практических рекомендаций. Если теоретическая валидность доказана, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения.
Прагматическая валидность проверяется методом сопоставления результатов диагностической методики с независимым от методики внешним критерием успешности в той или иной деятельности (учебной, профессиональной и т.п.). Если взаимосвязь между ними признается удовлетворительной, то делается вывод о достаточной прагматической валидности диагностической методики (практической значимости, эффективности, действенности).
Многие из применяемых к компетенциям методик оценивания являются критериально-ориентированными, поэтому целесообразно использовать еще валидизацию «по содержанию» (логическую валидность). В ряде случаев проводится сопоставление успешности по тесту с экспертными оценками (например, преподавателей или руководителей).
Прогностическая валидностъ. Определяется также по внешнему критерию, но информация по нему собирается через некоторое время после испытания. Внешним критерием здесь является способность студента к тому виду деятельности, для которой он оценивался.
Ретроспективная валидность определяется на основе критерия, отражающего события или состояние качества в прошлом. Дает возможность быстрого получения сведений о предсказательных возможностях методики.
Таким образом, в ходе разработки методик и технологий оценивания компетенций студентов вуза должна быть проведена экспертиза и утверждение эталонов выполнения, определены стабильность, надежность, валидность методик оценивания, проведена пилотажная диагностика и корректировка рабочей группой оценочного средства.
Рецензенты:
Нафиков М.М., д.с-х.н., заведующий кафедрой «Экономика АПК», профессор филиала ФГАОУ ВПО «Казанский (Приволжский) федеральный университет», г. Чистополь;
Шарифуллин С.Н., д.т.н., профессор, директор ООО «Центр модернизации техники» г. Чистополь.
Работа поступила в редакцию 08.05.2013.