ОСНОВЫ ПЕДАГОГИЧЕСКОЙ ТЕОРИИ ИЗМЕРЕНИЙ
Вадим Аванесов
Адрес электронной почты защищен от спам-ботов. Для просмотра адреса в вашем браузере должен быть включен Javascript.
Впервые опубликовано в ж.. «Педагогические Измерения» №1 , 2004 г.
Обновлённая редакция 2021 г.
Рассматривается проблема построения общей теории педагогических измерений. Сформулировано новое определение педагогического теста и других основных понятий, исследованы формы тестовых заданий и критерии содержания тестов.
Педагогические измерения
Педагогические измерения – это научная теория, сформировавшаяся на стыке педагогики, психологии, теории измерений, статистики, математики, логики и философии. Одновременно педагогические измерения можно рассматривать как процесс научно-практической образовательной деятельности, нацеленной на получение объективированных оценок уровня подготовленности.
Педагогические измерения можно также определить, как процесс теоретически обоснованного отображения числами уровней проявления интересующего качества личности. Обычно, чем больше проявляемое качество, тем большее число ставится в соответствие проявляемому уровню. F.M.Lord и M.Novick определяют измерение как такое присвоение чисел, которое верно отражает расположение испытуемых на числовой шкале в зависимости от выраженности измеряемого качества[1].
Основной предмет педагогических измерений – разработка качественных тестов для измерения уровня подготовленности учащихся, студентов…
В отличие от элементарных оценок и некоторых простых физических измерений, используемых в быту, педагогические измерения требует предварительной теоретизации, куда входят: определение ведущего понятия, уточнение имени измеряемого свойства или качества испытуемых, определение предмета измерения. Важно построить систему индикаторов, понятийных и эмпирических, указывающих на наличие или отсутствие у учащихся интересующего качества[2]. Далее требуются аксиоматика и математические формализмы, выбор подходящей модели и стандартизация условий измерения. И, наконец, полученные результаты подлежат аргументированной интерпретации.
Основные понятия педагогической теории измерений
Исходя из авторской концепции пяти этапов тестового процесса[3], выделяются три основных понятия теории: это "задание в тестовой форме", "тестовое задание" и "педагогический тест".
К числу основных понятий входят также основные критерии объективности и качества измерений, а также критерий эффективности тестовых результатов. Ранее двумя главными считались критерии качества измерений – надёжности и валидности результатов интересующей группы испытуемых. Все эти критерии можно объединить в одну группу – надёжности, валидности, эффективности и объективности результатов испытуемых
Редко бывает, что в практике использовались тесты, отвечающие всем упомянутым выше критериям. А потому в образовательном процессе ведущая роль отводится, вместо тестов, педагогическим заданиям. В педагогике неслучайно говорят и пишут о задачном подходе к организации обучения. В наши дни, наряду с задачами и развивающими вопросами, заметную роль приобрели и задания в тестовой форме.
Педагогическое задание определяется как средство интеллектуального развития, образования и обучения, способствующее активизации изучения, повышению качества знаний, а также повышению эффективности педагогического труда. Понятие педагогическое задание» понятие является общим, охватывающим цель и смысл всех возможных заданий, посредством которых активизируется процесс собственной познавательной деятельности учащихся. Оно включает такие средства, как вопрос, задача, учебная проблема и другие, используемые для активизации собственной учебной деятельности (учения).
Композиция заданий в тестовой форме. Творческое соединение формы и содержания является сутью содержания другого важного понятия педагогических измерений. Это композиция тестовых заданий. Композиция, одновременно, является и главным предметом методики разработки заданий в тестовой форме. Композицию не случайно считают уделом сосредоточения многих проблем, связанных с замыслом и исполнением, содержанием и формой. Успех в композиции заданий, как и в создании произведений искусства, зависит не только от оригинальности идеи и сюжета, но и от мастерского владения формой. Вот почему хорошо сделанное задание - это всегда лучшее, на текущий момент, содержание и наилучшая форма; то и другое - результат, появляющийся вследствие осознания важности их взаимосвязи. «Там...где создание формы, - писал Гегель, - является существенным интересом и настоящей задачей, вместе с успехами изображения незаметно и неявно движется вперед также и содержание, как и вообще мы до сих пор видели, что форма и содержание идут в своем совершенствовании рука об руку[4]. Разработка теста начинается с композиции заданий в тестовой форме.
Формы тестовых заданий
Форма тестового задания – это способ связи и упорядочения элементов задания. Все известные в теории и практике формы тестовых заданий можно разделить на четыре основные группы.
Первую форму образуют задания с выбором одного или нескольких правильных ответов. Если к заданиям даются готовые ответы на выбор (обычно один правильный, остальные неправильные), то такие задания лучше называть заданиями с выбором одного правильного ответа. Инструкция к таким заданиям такая: Отвечая на задания теста, нажимайте на клавишу с номером одного правильного ответа.
Помимо них, автор этой работы предлагает шире внедрять в практику задания с выбором нескольких правильных ответов. По содержанию они труднее, чем задания с выбором одного правильного ответа. Этим заданиям предшествует инструкция: – Отвечая на задания теста, нажимайте на клавиши с номерами всех правильных ответов.
Вторую форму образуют задания, в которых правильный ответ надо дописать; обычно это одно слово, или один знак. Заданиям этой формы предшествует стандартная инструкция – Дополнить.
Третью форму образуют задания, состоящие из элементов двух столбцов. Таким заданиям предшествует инструкция – Установить соответствие.
Четвертая форма - задания процессуального или алгоритмического толка. Каждому заданию предшествует одна и та же инструкция: - «Установить правильную последовательность». Испытуемый ставит цифры рангов в прямоугольниках, стоящих слева перед каждым элементом задания. При компьютерном тестировании испытуемый работает с помощью инструментальной программы, сделанной с учетом этой формы заданий; там после проставления каждого ранга курсор автоматически передвигается от одного квадрата к другому.
Задания в тестовой форме отвечают следующим требованиям:
- краткость;
- технологичности
- правильность формы;
- логическая форма высказывания;
- одинаковость правил оценки ответов;
- наличие определенного места для ответов;
- правильность расположения элементов задания;
- одинаковость инструкции для всех испытуемых;
- адекватность инструкции форме и содержанию задания.
Вторым основным понятием теории педагогических измерений является понятие «тестовое задание» Тестовое задание - это составная единица теста, отвечающая перечисленным выше требованиям формы и, кроме того, статистическим требованиям:
1) известной трудности;
2) достаточной вариации тестовых баллов;
3) положительной корреляции баллов задания с баллами по всему тесту.
Педагогический тест как система
Наличие достаточного числа тестовых заданий, полученных в результате обязательной эмпирической апробации заданий в тестовой форме, позволяет перейти к разработке теста как системы, обладающей целостностью, составом и структурой.
Требование известной трудности оказывается важнейшим системообразующим признаком тестового задания. Если тест - это система заданий возрастающей трудности, то в нём нет места заданиям с неизвестной мерой трудности. Вариация тестовых баллов по каждому заданию является необходимым условием проведения измерения. Снижение такой вариации ведет к снижению общей точности (надёжности) измерений. В тест обычно не включаются задания, корреляция которых с суммой баллов ниже 0,200.
Третьим, и главным, понятием теории является педагогический тест, который разрабатывается педагогами, для педагогических целей. Удивительный факт - в западной литературе уделяется мало внимания поиску подходящих определений теста.
Педагогический тест - это система заданий возрастающей трудности, специфической формы. Желательно, чтобы задания теста имели так называемые параллельные варианты заданий.
Полезно дать краткое истолкование основных терминов.
Система означает, что в тесте есть состав заданий и структура их связи. В тесте собраны только такие задания, которые обладают системообразующими свойствами. Здесь, в первую очередь, надо выделить общую принадлежность заданий к одной и той же предметной области знаний, т.е. к одной учебной дисциплине, их связь и упорядоченность. В тесте задания располагаются в порядке возрастающей трудности - от самого легкого, до самого трудного.
Специфическая форма тестовых заданий отличается тем, что задания теста представляют собой не вопросы и не задачи, а задания, сформулированные в форме высказываний, в зависимости от ответов, истинных или ложных. Традиционные вопросы, напротив, истинными или ложными не бывают, а ответы на них нередко неопределённы и многословны; для выявления их правильности требуются заметные, в суммарном исчислении, затраты интеллектуальной энергии преподавателей.
Содержание теста определяется как оптимально редуцированное отображение фрагмента учебной дисциплины в тестовой форме. Содержание теста существует, сохраняется и передается в одной из четырех основных форм заданий. Вне тестовых форм ни тест, ни его содержание не существуют. Определенное содержание означает использование в тесте только такого контрольного материала, который соответствует содержанию учебной дисциплины; остальное в педагогический тест не включается, ни под каким предлогом. Например, проверка уровня интеллектуального развития является предметом психологического тестирования.
Критерии отбора содержания теста:
- Соответствие содержания теста целям тестирования;
- Значимость проверяемых знаний в общей системе знаний.
- Взаимосвязь содержания и формы.
- Содержательная правильность тестовых заданий.
- Репрезентативность содержания учебной дисциплины в содержании теста.
- Соответствие содержания теста уровню современного состояния науки.
- Комплексность и сбалансированность содержания теста.
- Системность содержания.
- Вариативность содержания.
- Соответствие уровня трудности содержанию цели тестирования.
Трудность задания может определяться двояко: а) умозрительно, на основе предполагаемого числа и характера умственных операций, необходимых для успешного выполнения заданий, и б) после эмпирической апробации заданий, с подсчетом доли неправильных ответов. В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах тестов стало уделяться больше внимания характеру умственной деятельности учащихся и числу выполняемых операций при решении каждого отдельного задания.
Ответ на задание педагогического теста представляет собой краткое суждение, связанное по содержанию и по форме с содержанием задания. Для каждого задания ответы делятся на правильные и неправильные. Критерии правильности заранее определяются авторами теста.
Уровень и структура знаний выявляются при анализе ответов каждого ученика на все задания теста. Чем больше правильных ответов, тем выше индивидуальный тестовый балл испытуемых. Обычно этот тестовый балл ассоциируется с понятием "уровень знаний" и проходит процедуру уточнения на основе той или иной модели педагогического измерения. Один и тот же уровень знаний может быть получен за счет ответов на различные задания. Например, в тесте из тридцати заданий испытуемый получил десять баллов. Эти баллы, скорее всего, получены за счет правильных ответов на первые десять, сравнительно легких заданий. Присущую для такого случая последовательность единиц и нулей представляется вектор-строкой в матрице тестовых результатов. Эта вектор-строка называют профилем знаний.
Если же обнаруживается противоположная картина, когда испытуемый правильно отвечает на трудные задания и неправильно - на легкие, то это противоречит логике теста и потому такой профиль знаний можно назвать инвертированным. Он встречается редко, и чаще всего, по причине ошибочности теста, в котором задания расположены с нарушениями требования возрастающей трудности. При условии, что тест сделан правильно, каждый профиль свидетельствует о структуре знаний. Эту структуру можно назвать элементарной, поскольку есть еще факторные структуры.
Каждое учебное заведение должно стремиться, в первую очередь, к формированию правильных индивидуальных структур знаний, в которых не было бы досадных пробелов (разрывов в знаниях), и на этой основе можно повышать уровень подготовки. Эта логика заметно выражена в Японии и в быстро развивающихся странах Азиатско-Тихоокеанского региона. Уровень знаний в значительной степени зависит от личных усилий и способностей учащихся, в то время как структура знаний заметно зависит от правильной организации учебного процесса, от индивидуализации обучения, от мастерства педагога, от объективности контроля - в общем, от всего того, чего обычно не хватает.
Теории педагогических измерений
Ни один тест не может непосредственно и абсолютно точно измерить интересующее качество личности. Потому что все качества личности непосредственно не наблюдаемы; они выражаются через совокупность эмпирически наблюдаемых индикаторов. Поэтому в науке принято считать все качества личности латентными. Латентными называются положительные и отрицательные качества личности, примерами которых являются «подготовленность студентов», «знание учебной дисциплины», «способность понимать» «интеллектуальное развитие» и многие другие. Попытки измерения подобных качеств[5] на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности.
В современной литературе нет ясности относительно теоретической основы педагогических измерений. Раньше в качестве такой основы ошибочно рассматривались статистические теории. Ситуация несколько выправилась послеработ Лорда[6]. Однако затем, в последние тридцать лет, она вновь ухудшилась под влиянием сторонников теории измерений, называемой на Западе Item Response Theory (IRT). Правда, последняя имеет там и другое, более общее и точное название, но, к сожалению, менее употребляемое название - Latent Trait Theory (LTT), что лучше перевести как математическую теорию измерения латентных качеств личности. Во многих странах, а особенно в России, IRT нередко ошибочно провозглашается как «единственная» и «современная» теоретическая основа педагогических измерений. Между тем, два сравнительно новых варианта классической теории измерения - Strong True Score Theory и Random Sampling Theory, а также Theory of Generalizability[7], не менее современны, чем IRT. Во-вторых, в фокусе изучения IRT находятся, строго говоря, не тесты, как системы заданий, а отдельные задания. Вот почему это, скорее, не современная теория тестов, а математическая теория оценки качества тестовых заданий.
Между тем ни одна из упомянутых теорий не являются ни современными, ни педагогическими. Это уже давно известные формальные и общие теории, применение которых в педагогических измерениях хотя и плодотворно, но имеет вполне понятные пределы. Общность проявляется в применимости их математического аппарата к измерениям в различных общественных науках, таких как политология, психология, социология и многие другие, что имеет положительные и отрицательные следствия. К отрицательным последствиям можно отнести подмену научной проблематики собственно педагогических измерений неадекватной математической и псевдонаучной лексикой[8]. А также не всегда подходящими моделями измерения, что, например, неоднократно было установлено исследованиями G. Karabatsos[9].
Нельзя сказать, что эта подмена не замечалась. Например, известны попытки преодоления такой ситуации и создания теории педагогических измерений в США[10]. В России этой проблемой занимался автор данного доклада. Ниже приводятся основные результаты исследований.
Если взять за основу классификации, например, философские понятия общего, особенного и единичного, то можно предложить такую классификацию теорий:
Общая теория педагогических измерений. Контуры общей теории педагогических измерений удачно просматривались в работах R.Ebel[11] и других педагогов-тестологов. Последовавшее затем увлечение большинства американских авторов математической стороной проблемы измерения отвлекло их от построения целостной общей педагогической теории измерения.
Главным предметом такой теории должны стать разработка и применение заданий в тестовой форме, тестовых заданий и тестов для активизации учебного процесса, научной организации тестовой формы самоконтроля в процессе самообразования. Настоящее тестирование начинается, развивается и прекращается вместе с учебным процессом. Отстраненное от такого процесса практического тестирования неизбежно становится объектом бюрократических искажений, несовместимых с тестовой культурой.
Другие предметы общей теории - разработка целей и задач педагогических измерений; создание программ проведения массового тестирования, их положительных и отрицательных последствий на личность, общество и государство. К сугубо научным вопросам общей теории можно отнести анализ понятий, положенных в основу измерений; содержание заданий и теста в целом; разработка педагогических критериев эффективности и качества проводимых измерений. Попытки разработки общей теории педагогических измерений представлены в ряде публикаций автора данной работы[12].
Частные педагогические теории. С общей теорией соотносятся частные теории. В качестве одной из таковых могла бы стать логико-педагогическая теория композиции заданий в тестовой форме. Учитывая непосредственную зависимость качества любого теста от правильной композиции содержания и формы каждого отдельного задания, вряд ли можно признать конструктивными известные попытки недооценки в потребности такого рода теории. Ведь каждое нарушение формы, содержания, того и другого – источники погрешностей измерения. Прообразы такой теории можно обнаружить в работах многих авторов второго поколения западных тестологов и в публикациях на русском языке[13]. Предмет теории – разработка принципов композиции заданий в тестовой форме, позволяющих творчески соединять содержание каждого задания с подходящей для него формой.
Общие математические теории педагогического измерения. К числу таких теорий надо отнести известную на Западе, но неисследованную в России Random Sampling Theory. Известные варианты классической теории тестов полезно рассматривать в связке с положениями Random Sampling Theory, учитывая их общую опору на статистические теории индуктивного вывода. Более общей является другая теория, Theory of Generalizability (Dependability)[14] так же не исследованная в России. Это самые общие теории, сосредоточившие в себе мощный статистический аппарат исследования точности результатов измерения, возможности использования дисперсионных комплексов для оценки достоверности влияния различных источников погрешностей при измерении латентых качеств.
Специальные математические теории педагогического измерения. К ним можно отнести частную математико-педагогическую теорию тестовых заданий, в которую целесообразно включить часть положений классической теории тестов, известной на Западе под названием «Item Analysis», а также постулаты, модели и вычислительные методы IRT. Только взятые вместе они позволяют проводить тщательный анализ эффективности каждого задания с последующим решением о включения их в тест, в банк заданий, или об исключении из разработки[15].
[1] Lord F.M., Novick M. Statistical Theories of Mental Test Scores. Addison-Wesley Publ. Co. 1968, Reading, Mass. - 560 pp.
[2]Об этом процессе подробнее см., например, на стр. 87-105 книги: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука, 1982. - 199с.
[3] Аванесов В.С. Этапы разработки теста// «Конструирование педагогических тестов по русскому языку как иностранному. Доклады и сообщения. ЦМО МГУ им. М.В.Ломоносова.15-16 апреля 2003 г. М.2003.с.7-12.
[4] Гегель Г. Лекции по эстетике // Соч., т.13, кн. 2.- М.: Соцэкгиз, 1940.- 362с.
[5]Понятия «качество», «свойство», «признак» удобно рассматривать как обобщенный аналог английского понятия trait.
[6] Что подчеркивается, например, точным названием уже упоминавшейся монографии Lord F. M. & Novick M.R.Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley. 1968.
[7] Точного перевода названий этих теорий на русский язык пока нет.
[8] Аванесов В.С. Понятийный аппарат педагогической тестологии. Педдиагностика, №2, 2002г. С. 33-37. .
[9] Например: Karabatsos G. Axiomatic measurement theory as a basis for model selection in item response theory. Paper presented at 32nd annual conference of the Society for Mathematical Psychology, Santa Cruz, CA: 1999, July.
[10]Например, в работе Ebel, R.L. Measuring Educational Achievement. Prentice-Hall, Inc.Englewood Cliffs, New Jersey, 1965. –481pp.
[11] Ebel, R. Measuring Educational Achievement. Prentice Hall, Inc.
Englewood Cliffs, New Jersey. 1965. -481pp.
[12]Аванесов В.С. Форма тестовых заданий // Труды Иссл. центра. М. 1991.-33с.
Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. центр, 1989. –167с.
Аванесов В.С. Методологические и теоретические основы тестового контроля". Дисс… докт. пед. наук. СПб госуниверситет, 1994.-339с.;
Аванесов В.С. Педагогическое измерение латентных качеств //Педагогическая диагностика, №4, 2003г.;
[13]Аванесов В.С. Теоретические основы разработки заданий в тестовой форме. Пособие для профессорско-преподавательского состава высшей школы. М.: МГТА, 1995.-95с.
Аванесов В.С. Композиция тестовых заданий. 1,2 и 3 изд.; 3 изд. М.: Центр тестирования 2002г. – 217с.
[14] Перевода названий всех этих теорий на русский язык пока нет.
[15] См. напр. Аванесов В.С. Математические модели педагогического измерения. Научное издание. М.: Иссл. центр проблем качества подготовки специалистов, 1994. - 26с.; «Научные проблемы тестового контроля знаний». М.: Иссл. Центр, 1994. – 135с.
Так же 11 глава книги автора «Композиция тестовых заданий». 3 изд. М.: Центр тестирования 2002г. – -239с.