Повышение качества подготовки обучающихся является наиболее актуальной задачей, стоящей перед российской системой образования. Переход на новые образовательные стандарты, основанные на компетентностном подходе, нацеливают вузы на более полное удовлетворение запросов работодателей. В требованиях новых образовательных стандартов и руководящих документах прямо говорится, что вузами должны быть сформированы оценочные средства, позволяющие поэтапно контролировать процесс формирования компетенций в ходе обучения. Достижение требуемых показателей качества обучения невозможно без построения современных систем управления качеством.
Согласно ГОСТ Р ИСО 9001-2001 для успешного функционирования организация должна осуществлять менеджмент многочисленных взаимосвязанных видов деятельности, рассматриваемых как процессы. Одним из важнейших требований упомянутого стандарта является необходимость мониторинга, измерения и анализа процессов, определенных организацией, позволяющих принимать управленческие решения на основе объективной информации. Особенностью образовательной деятельности является то, что имеется множество подходов к определению самого понятия качества образования. При этом ключевые параметры, характеризующие процесс обучения с точки зрения качества, трудно формализуются и поддаются измерению.
Для оценки уровня сформированности компетенций разными авторами предлагаются различные подходы и методики [1–3, 7, 8]. При этом важной составляющей современных систем управления качеством образования являются различные тестовые среды, включающие разнообразные банки тестовых заданий (БТЗ).
Следует отметить, что автоматизированные среды тестирования (такие, как система федерального интернет-экзамена (ФЭПО), адаптивная система тестирования (АСТ), ЕГЭ и др.) позволяют накапливать результаты тестирования. Однако статистический анализ этих результатов хотя и проводится, но его возможности используются не в полной мере. Нередко возникают претензии к качеству и корректности отдельных тестовых заданий. Процесс сопровождения банков тестовых заданий протекает бессистемно, так как выявление некорректных заданий происходит стихийным образом, как правило, по заявкам самих тестируемых.
Целью работы является разработка методов формирования и сопровождения БТЗ на основе анализа статистики их выполнения.
Измерительные характеристики банков тестовых заданий (БТЗ) определяются совокупностью параметров отдельных тестовых заданий. Для корректных измерений уровня подготовленности студентов требуется соблюдение целого ряда условий: одинаковая дифференцирующая способность отдельных заданий, низкая вероятность их угадывания, равномерность распределения заданий по трудности и т.д. При этом характеристики реальных банков тестовых заданий, создаваемых преподавателями вуза, как показывают проводимые исследования, отличаются от идеальных характеристик. Поэтому качество большинства банков тестовых заданий, накопленных вузами, не позволяет объективно оценить уровень подготовленности студентов.
Для систематизации работы по сопровождению банков тестовых заданий и повышению их качества необходим инструмент, позволяющий на основе статистики ответов определять характеристики отдельных тестовых заданий и БТЗ в целом. Такой инструмент позволит быстро выявлять не только некорректные тестовые задания, но и задания с неудовлетворительными характеристиками, обнаруживать недостатки в распределении заданий по трудности, определения трудности каждого ТЗ и его дифференцирующей способности с целью корректировки, удаления или пополнения банка заданиями с требуемыми характеристиками.
Предлагаемая методика основана на теории педагогических измерений, включающей модель Раша [4–6], и предназначена для проведения статистического анализа результатов тестирования с целью решения указанных выше задач. В основе модели Раша лежит предположение о том, что вероятность выполнения j-го задания студентом с некоторым уровнем подготовки θ задана в виде логистической функции:
где Pj – вероятность выполнения j-го задания испытуемым с уровнем подготовки θ; δj – уровень трудности j-го задания, устанавливаемый из статистики выполнения j-го задания на всем множестве испытуемых. При этом и уровень подготовки студента, и уровень трудности задания измеряются в одних и тех же единицах измерения – логитах. Логит представляет собой натуральный логарифм от отношения шансов P/(1 – P). То есть уровень трудности задания, равный нулю, соответствует одинаковой вероятности его выполнения и невыполнения.
При подборе текстов заданий, направленных на диагностику компетенций, следует придерживаться следующих принципов:
1. Принцип правдоподобия. В текстах должны содержаться реальные научные проблемы, противоречия и разногласия, которые надо разрешить. Необходимо использовать тексты с описанием жизненных ситуаций.
2. Принцип вариативности. Текст может содержать фрагменты, полученные из разных источников.
3. Принцип избыточности. В каждом фрагменте должна быть часть информации, необходимая для поиска ответа на поставленные вопросы к тексту, чтобы в конечном итоге получить избыточность информации.
4. Принцип многожанровости. Текст может относиться к разным жанрам. Можно использовать художественные, авторские, публицистические, научные, научно-популярные, энциклопедические и другие тексты.
5. Принцип разноформатности. Текст может иметь различный формат: обычный текст, схема, таблица, график, диаграмма, чертеж, карта.
6. Принцип скрытой подсказки. Вопрос к тексту необходимо сформулировать так, чтобы учащийся мог найти часть ответа в материале самого текста, а часть – смоделировать самостоятельно. В вопросе к тексту может быть заключена дополнительная информация.
Для обеспечения объективности тестов и высокого качества измерений тестовые задания также должны соответствовать требованиям теории педагогических измерений (IRT).
1. Для каждого задания должен быть определен его уровень трудности, система заданий должна образовывать последовательность заданий с равномерно возрастающей трудностью (желательно с интервалом 0,5 логита).
2. Тест не должен содержать заданий, на которые все знают ответ или никто не знает ответа.
3. Коэффициент связи задания с итоговой суммой баллов всегда должен быть больше нуля.
Для анализа использованы результаты тестирования по дисциплинам базовой части учебных планов укрупненной группы специальностей «Экономика и управление»: математика, информатика, русский язык и культура речи и др.
Анализ существующих БТЗ показал, что все они обладают следующими недостатками: трудность заданий распределена по нормальному закону, т.е. наблюдается дефицит относительно простых и сложных заданий; характеристики большинства заданий отличаются от идеальной характеристики, предлагаемой в модели Раша, когда вероятность ответа на задание в зависимости от уровня подготовленности студента описывается возрастающей логистической кривой.
Результаты тестирования по определенной дисциплине извлекаются из базы данных АСТ в виде таблицы, содержащей идентификатор студента, идентификатор задания, дату тестирования, бинарный результат выполнения задания. Предполагается, что в момент тестирования каждый студент обладает определенным уровнем подготовки θ.
а б
в г
Зависимости вероятности выполнения отдельных заданий от уровня подготовленности студента: а – монотонно возрастающая зависимость; б – обратная зависимость; в, г – немонотонная зависимость. Сплошная линия соответствует измеренным значениям, пунктирная – модели Раша
Анализ распределения заданий по трудности внутри каждого из рассмотренных БТЗ показал, что задания распределены неравномерно, их распределение близко к нормальному. Таким образом, создание БТЗ без контроля трудности приводит к дефициту относительно простых и относительно сложных заданий, а также к переизбытку заданий со средним уровнем сложности. Это не позволяет достичь достаточной точности измерения уровня подготовленности студентов.
Для анализа качества каждого тестового задания строится зависимость частоты его успешного выполнения от уровня подготовки тестируемых. Для оценки θ каждого тестируемого используются результаты всего теста. Задания, для которых наблюдается монотонное возрастание частоты выполнения от уровня подготовленности студента, считаются правильными, т.е. соответствующими классической теории педагогических измерений. Однако далеко не все задания в БТЗ обладают указанным свойством.
Примеры наблюдаемых характеристик отдельных заданий приведены на рисунке. Монотонно возрастающая зависимость вероятности выполнения заданий от уровня подготовленности студентов (Зад. № 27) свидетельствует о хорошем задании с высокой степенью валидности; такие задания не нуждаются в редактировании.
Обратная зависимость вероятности выполнения задания от уровня подготовленности студентов (Зад. № 219) может свидетельствовать о некорректности задания (привыкшие ко всему двоечники угадывают ответ, который автор считает верным, а отличники выбирают другие ответы). Такие тестовые задания надо редактировать или удалять из банка.
Независимость вероятности выполнения задания от уровня подготовленности студентов свидетельствует о некорректности задания и случайном выборе правильного ответа как слабыми, так и сильными студентами.
Немонотонная зависимость с «провалом» (Зад. № 15) соответствует заданиям, которые для правильного ответа требуют определенного уровня подготовленности, но при этом слабые, привыкшие ко всему студенты угадывают правильный ответ. Такие задания следует либо удалить из БТЗ, либо отредактировать, уменьшив вероятность угадывания, например в заданиях закрытой формы увеличить количество правильных вариантов ответа.
Немонотонная зависимость с «горбом» (Зад. № 88) соответствует заданиям с такими неточностями в формулировке, которые путают студентов с высоким уровнем подготовленности. Недостаточная глубина знаний «средних» студентов позволяет им давать правильный ответ.
Приведенные примеры показывают, что разработанная методика и программное средство позволяют не только оценить качество БТЗ, но и целенаправленно формировать банк тестовых заданий:
1) оценить уровень трудности каждого тестового задания, входящего в банк;
2) принять обоснованное решение по корректировке или исключению задания;
3) оценить функцию распределения заданий по трудности и принять обоснованное решение по дополнению банка заданиями с требуемым уровнем трудности.
Применение методики позволяет автоматизировать анализ параметров отдельных тестовых заданий и банка в целом, систематизировать сопровождение БТЗ, что способствует повышению объективности и точности оценок уровня подготовленности студентов на основе существующих банков тестовых заданий.
Работа выполнена при финансовой поддержке гранта РФФИ (проект 14-06-00339).