Об оценке сформированности системы основных понятий математического анализа

Волкова Елена Сергеевна; Гисин Владимир Борисович

doi:10.25136/2409-8736.2020.2.32942


	Journal Menu > Issues > Rubrics > About journal > Authors > About the Journal > Requirements for publication > Editorial collegium > Editorial board > Peer-review process > Policy of publication. Aims & Scope. > Article retraction > Ethics > Online First Pre-Publication > Copyright & Licensing Policy > Digital archiving policy > Open Access Policy > Article Processing Charge > Article Identification Policy > Plagiarism check policy


	Journals in science databases


	About the Journal

MAIN PAGE > Back to contents

Modern Education

Reference:

Volkova E.S., Gisin V.B. On the assessment of formation of the system of main concepts of mathematical analysis // Modern Education. 2020. № 2. P. 12-27. DOI: 10.25136/2409-8736.2020.2.32942 URL: https://en.nbpublish.com/library_read_article.php?id=32942

On the assessment of formation of the system of main concepts of mathematical analysis

Volkova Elena Sergeevna

PhD in Physics and Mathematics

Docent, the department of Data Analysis, Decision-making and Financial Technologies, Financial University under the Government of the Russian Federation

125993 (GSP-3), Russia, g. Moscow, ul. Leningradskii Prosp., 49

evolkova@fa.ru

Gisin Vladimir Borisovich

PhD in Physics and Mathematics

Professor, the department of Information Security, Financial University under the Government of the Russian Federation

125993 (GSP-3), Russia, g. Moscow, ul. Lenigradskii Prospekt, 49

vgisin@yandex.ru

DOI:

10.25136/2409-8736.2020.2.32942

Received:

19-05-2020

Published:

26-05-2020

Abstract: The object of this research is the results of experimental use of the test for inventory of the concepts of mathematical analysis (Calculus Concept Inventory, CCI), which is aimed at assessment of the key concepts of mathematical analysis, such as function, limit and derivative. The test was conducted in the period from 2016 to 2020 and involved Bachelor’s degree students of Financial University under the Government of the Russian Federation on the discipline “Applied Mathematics and Informatics”. “Mathematical Analysis” is one of the key disciplines in formation of mathematical competencies of students majoring “Applied Mathematics and Informatics”. Test was developed by the leading experts from the United States in the area of mathematics and teaching mathematics in the universities, and was implemented in Russian practice for the first time. For quality assessment of the test was applied Cronbach's alpha coefficient, and the results were evaluated based on the Item Response Theory. Although in universities of the United States the implementation of this test showed relatively low effectiveness, for the students of Financial University the coefficient values were significantly higher and allow making an unequivocal conclusion on the informativeness of results. The article also applies the values of discriminant coefficient. Their fluctuation allows using the test not only for assessing the achievement in learning mathematical analysis of students in groups, but also individual results. The results demonstrate that the traditional approach in teaching the principles of mathematical analysis that is widely recognized in the Russian universities is ineffective, which underlines the need to rearrange the content and methods of teaching mathematical analysis in a university.

Keywords:

calculus, Rush model, item response theory, CCI test, basuc concepts, inventory, limit, function, derivative, parameter estimation
This article written in Russian. You can find original text of the article here .

1. Введение

Подготовка экономистов, владеющих математическими методами в финансах и экономике, ведется во всем мире. В целом, математическая подготовка выпускника Финансового университета (по направлению «Прикладная математика и информатика») соответствует математической подготовке выпускников ведущих европейских университетов по близким направлениям.

Ключевой дисциплиной в формировании математических компетенций студентов финансового университета служит математический анализ. Эта дисциплина формирует тот понятийный каркас, на основе которого могут быть изучены более продвинутые математические методы, методы построения и применения математических моделей в экономических исследованиях. В то же время именно математический анализ вызывает наибольшие затруднения в изучении, что проявляется, в частности, и в сравнительно низких оценках. Зачастую математический анализ оказывается своеобразным демотиватором изучения других математических дисциплин. Столкнувшись с новыми и достаточно сложными понятиями математического анализа, студенты зачастую теряют интерес к изучению других математических дисциплин, использованию математического аппарата для решения прикладных задач экономики и финансов.

Исследования, проводимые, начиная с 2003 г., американскими специалистами на гранты NSF, выявили ряд проблем в математической подготовке студентов США и позволили наметить направления для улучшения ситуации. В ходе исследований особое внимание было обращено на освоение понятийного каркаса математического анализа. Исследователи исходили из того, что без овладения ключевыми понятиями математического анализа применение математических методов в экономике невозможно. Особенно актуально это в эпоху развития вычислительных технологий, когда экономист, сознающий свою математическую некомпетентность, в лучшем случае откажется применения количественных методов, в худшем случае замаскирует объемными вычислениями неподтвержденные и ошибочные выводы.

Для оценки овладения понятиями математического анализа рабочей группой при AMS под руководством профессора Эпштейн в период с 2003 г. по 2005 г. был разработан специальный тест (CCI – Calculus Concept Inventory test) для оценки овладения системой основных понятий. Экспериментальное тестирование проводилось в двенадцати университетах США и одном университете в Финляндии. В апробации теста участвовало около 1200 студентов. В последующие годы использование теста проходило параллельно с широким обсуждением научной общественностью. Измерения на основе этого теста были проведены в десятках ведущих университетов США. Выходной показатель по замыслу разработчиков отражает эффективность преподавания математического анализа в части его понятийного аппарата.

Разработка тестов типа CI (Concept Inventory) имеет довольно давнюю историю. Первый тест такого рода был разработан физиками ^[10]. В последующие два с лишним десятилетия тесты CI были разработаны для многих разделов точных и естественных наук. Использование этих тестов показало, что учащиеся преуспевают в традиционных аудиторных оценках благодаря поверхностному запоминанию фактов и процедур, а не через развитие глубоких, концептуальных знаний.

Студенты, овладевшие понятийным каркасом дисциплины, могут учиться более эффективно как по этой дисциплине, так и по другим. Инвентаризация накопленных концептуальных знаний привлекла внимание к насущной необходимости разработки и внедрения педагогических методов, которые поддерживают глубокое концептуальное обучение. Например, инвентаризация концепции силы (FCI) в физике (первый тест типа CI), способствовала повышению эффективности и внедрению активных методов обучения при изучении в физики ^[9].

Тесты типа CI имеют перспективы, если они действительно могут измерять знания студентов. Чтобы использовать результаты этих тестов для совершенствования методики, необходим их тщательный анализ с учетом особенностей всей дидактической среды, в рамках которой происходит образовательный процесс. Американские специалисты, имеющие большой опыт в использовании тестов для контроля уровня знаний, используют для анализа тестов так называемый треугольник оценивания ^[12,13], включающий три взаимосвязанных элемента: теория, наблюдение, интерпретация.

Теория связана с системой предположений о том, как студенты представляют знания и развитие компетентности в целевой предметной области, и как студенты получают знания.

Наблюдения связаны с задачами, которые будут указывать на то, как далеко продвинулся студент на своем пути к знанию, определяемому предметной областью. В случае инвентаризации концепций наблюдения, скорее всего, должны заключаться в наличии или отсутствии путаницы в понятиях.

При интерпретации нужно учитывать, что студент может дать верный ответ или ошибиться по причинам, не связанным с теми качествами, которые измеряются (например, особенности обозначений, терминологии и т.п.). Правильная интерпретация помогает оценить надежность и достоверность получаемых результатов.

В работе ^[12] отмечается, что при анализе тестов типа CI основное внимание, как правило, уделяется лишь двум компонентам треугольника: теории и наблюдению. Недостаточный анализ интерпретации сужает пространство заключений относительно того, каковы настоящие знания студентов, и как результаты теста могут быть использованы для улучшения методики преподавания дисциплины.

Тесты CI, как правило, направлены на небольшое число ключевых конструкций и понятий в ограниченной области образовательного контента. В отличие от обычных контрольных заданий, для выполнения которых нужно продемонстрировать овладение некоторыми методами и алгоритмами решения задач, тесты CI основаны на теоретической интерпретации и интуитивном представлении преподавателя о понимании студентом раздела дисциплины. Разработчики используют эти представления для концептуализации и генерирования проблемных ситуаций, предлагаемых студентам, а также для разработки правдоподобных дистракторов множественного выбора, связанных с ошибочными представлениями. Таким образом, за тестом типа CI стоит некоторая когнитивная модель того, как у учащегося формируются понятия, и как эта модель может быть использована для контроля успеваемости.

Интерпретация играет решающую роль в определении того, как тестовые паттерны студентов могут быть использованы для того, чтобы сделать те или иные заключения о сформированности понятийного каркаса. Сложности с интерпретацией обусловлены тем, что анализ результатов проводится на основе классической теории тестирования, в которой содержательный анализ латентных признаков и других показателей затруднен и, зачастую, проводится формально и без достаточных содержательных обоснований. Попытки перенести в педагогический контекст методы диагностического моделирования (см. ^[4]) носят единичный характер и пока что не показали своей эффективности при работе с данными педагогических тестов. Современные методы статистического анализа тестов CI дают лишь ограниченную информацию для определения их валидности относительно предполагаемых конструкций и практически не дают информации, которую можно было бы использовать в учебном процессе.

По своей сути, как системы понятий изучаемых дисциплин, так и инструменты тестирования многомерны и нелинейны. Типичные статистические подходы не в состоянии охватить и использовать эту многомерность. Попытка вместить ее в статистические модели приводит к сложным конструкциям, которые с трудом могут быть сопоставлены дидактическими реалиями. В ^[12] отмечается, что, несмотря на усилия по разработке богатого, теоретически мотивированного набора наблюдений, интерпретативный результат этих наблюдений невелик по сравнению с тем, что возможно. Это затрудняет массовое диагностическое применение инструментов тестирования типа CI и ограничивает его использование преподавателями. В то же время, экспертный анализ результатов тестирования на овладение системой понятий позволяет сделать полезные выводы для совершенствования преподавания.

Начиная с 2016 г. в Финансовом университете проходит тестирование студентов по методике теста CCI. Настоящая статья посвящена анализу теста и полученных в ходе тестирования результатов.

Статья организована следующим образом. В разделе 2 приводятся основные факты из теории тестирования. В разделе 3 приведено описание теста CCI и дан содержательный анализ теста. В разделе 4 содержится описание и анализ результатов, полученных в ходе тестирования. В заключении подведены итоги и намечены пути совершенствования методики преподавания математического анализа.

2. Теория тестовых заданий и тесты типа CI

Тесты типа CI, направленные на диагностику овладения ключевыми понятиями, возникли в некотором смысле как альтернатива тестам, направленным на выявление процедурных и инструментальных компетенций. Вообще, дискуссия о приоритете концептуальных или процедурных знаниях достаточно традиционна для специалистов по преподаванию математики. В ходе этой дискуссии развиваются и совершенствуются представления о том, каким образом студенты осваивают математику, и о том, как нужно ее преподавать, а методика преподавания получает подходы, опирающиеся на временно найденную точку равновесия между концептуальностью и инструментальностью. Авторы работы ^[11] прослеживают истоки этой дискуссии, находя их не только в психологии познания (например, у Пиаже), но и в философии.

В последние годы в связи с развитием информационных технологий дискуссии обрели новую остроту, а среди преподавателей математики произошла довольно заметная радикализация в отстаивании той или иной позиции. Тесты типа CI создают баланс в оценке достижений учащихся с использованием тестовых методов и позволяют более объективно подойти к оценке методов преподавания дисциплины.

Тесты типа CI используются для оценки студентов до начала курса и после его изучения. При первом тестировании студенты отвечают на вопросы теста, опираясь на здравый смысл и знания, полученные в школе. После второго тестирования по завершении курса оценивается прогресс студентов в овладении основными понятиями. Подобный подход обусловливает особенности тестов типа CI.

В тестах типа CI не должны использоваться термины и обозначения, с которыми студенты незнакомы до изучения курса. Чтобы оценить освоение новых понятий, требуется в относительно простых вопросах «замаскировать» достаточно сложные концепции.

Методика оценки эффективности обучения такова, что оценивается групповое, а не индивидуальное продвижение. Тест оценивает не разницу в знаниях между отдельными студентами, а продвижение целой группы, для которой преподавание велось по одной методике, желательно одним преподавателем.

С учетом сказанного валидность теста оценивается в первую очередь в разрезе вопросов: валидность содержания и валидность внутренней структуры. Важна, конечно, и достоверность получаемых результатов. Валидность определятся тем, в какой степени используемые модель и теория согласуются с интерпретацией результатов, связанных с целенаправленным использованием тестов. В случае тестов типа CI — с интерпретацией результатов по выявлению сформированного запаса понятий. Таким образом, валидность является наиболее фундаментальным соображением при разработке и оценке тестов.

В рамках общей схемы (см. ^[15]) валидность содержания и внутренней структуры должны обеспечить оценку того, насколько сформированы основные понятия. Чтобы убедиться в достоверности полученных результатов нужно оценить, насколько большим может быть отклонение наблюдаемых результатов от истинных. Наконец, опираясь на полученные результаты, нужно дать им содержательную интерпретацию и получить значимые выводы методического характера.

Если достоверность достаточно высока, то наблюдаемый балл можно считать приблизительно совпадающим с истинным баллом. Надежный тест в различных условиях и ситуациях, включая различные среды тестирования, должен давать примерно одинаковые результаты. Валидность описывает, насколько можно доверять результатам теста, интерпретируемым для определенной цели.

Вопрос о том, действительно ли тест проверяет то, на что он предназначен, остается ключевым, несмотря на развитие теории тестирования. В педагогических измерениях этот вопрос приобретает особую остроту. Целью измерения является представление свойств индивида с использованием достоверных и адекватных теоретических моделей. Одним из самых сложных явлений в социальных науках является ненадежность их измерений. Как отмечено в ^[14], измерение одного и того же признака дважды часто приводит к двум различным результатам.

Тест в целом и его составляющие элементы могут быть оценены в соответствии с различными теориями, предназначенными для анализа и манипулирования всем психометрическим процессом.

Классическая теория тестирования (CTT) является самой ранней теорией измерения. В течение длительного времени психометрические характеристики личностных показателей изучались с использованием допущений СТТ. Основной целью этой теории является оценка достоверности наблюдаемых результатов теста. Истинная оценка студента T определяется как усреднение по всевозможным условиям проведения испытания. Предполагается, что эта оценка является объективной. При любом однократном проведении теста наблюдаемый балл X , скорее всего, отличается от истинного балла на случайную ошибку E. Таким образом, можно считать, что

X=T+E

Относительно случайных величин T и E могут быть сделаны те или иные предположения (см. ^[14]). В частности, обычно предполагается, что математическое ожидание ошибки равно нулю, и, кроме того, σ²(X)= σ²(T)+ σ²(E). При этих предположениях величина

Rel=1- σ²(E)/ σ²(X)

может трактоваться как мера надежности. Впрочем, подобная трактовка возможна и в более общем случае, и можно считать, что выполняется следующее соотношение:

σ(E)= σ(X)(1-Rel)^1/2. (1)

Вообще говоря, в современной теории тестирования надежность принято считать атрибутом самого теста. С учетом этого в качестве альтернативной оценки надежности можно выбрать, например, коэффициент альфа Кронбаха (см. ^[2]) и тогда формула (1) приобретает следующий вид:

σ(E)= σ(X)(1-α)^1/2. (2)

Коэффициент альфа Кронбаха вычисляется по формуле:

α=n/(n-1)·(1-(∑ⁿ_i=1(σ_i)²/σ²(X))), (3)

где n — число вопросов в тесте, а (σ_i)² — дисперсия ответов на вопрос i . В точном смысле коэффициент альфа Кронбаха служит нижней границей оценки надежности (1) в предположении о некоррелированности ошибок (впрочем, это предположение может быть ослаблено, см. ^[3]).

Если ответы на вопросы теста оцениваются по бинарной шкале, формула (3) сводится к следующей формуле:

α=n/(n-1)·(1-(∑ⁿ_i=1(p_iq_i)/σ²(X))), (4)

где p_i — доля верных ответов на вопрос i, а q_i — доля неверных ответов.

Важными для выводов методического характера являются коэффициенты дискриминации вопросов. Эти коэффициенты позволяют выделить вопросы, которые разделяют слабых и сильных студентов. Для дихотомических тестов значения коэффициентов дискриминации вопроса можно вычислять следующим образом ^[6]:

r_i=(M_i – M₀)·(pq)^1/2/σ(X), (5)

где

M_i — средняя оценка студентов, правильно ответивших на вопрос i ;

M₀ — средняя оценка студентов, неправильно ответивших на вопрос i ;

p — доля студентов, правильно ответивших на вопрос i ;

q— доля студентов, неправильно ответивших на вопрос i .

Коэффициент r_i лежит в промежутке от -1 до 1. Большое значение r_i означает, что студенты, выбравшие правильный ответ на этот вопрос получили за тест более высокие оценки, а студенты, выбравшие неправильный ответ, — более низкие. В случае тестов типа CI сравнение значений коэффициентов r_i, полученных при тестировании, предшествовавшем курсу, и полученных по завершении курса, позволяет оценить изменения во владении основными понятиями.

Для оценки самого теста и полученных результатов применяются также методы теории тестовых заданий (IRT) и модель Раша. Здесь важно отметить, что хотя ИРТ (IRT) и модель Раша похожи друг на друга с точки зрения вычислений, предпосылки, лежащие в их основе, сильно различаются. В исследовании данных, как правило, имеется альтернатива между приспособленностью модели к данным и, соответственно, точностью и простотой. Модели теории тестовых заданий стремятся к как можно более точному описанию данных, тогда как модель Раша достаточно проста. Математически это проявляется в числе оцениваемых параметров: модели теории тестовых заданий могут использовать до трех параметров, модель Раша — один. В некотором смысле модели теории тестовых заданий можно считать описательными, поскольку, используя эти модели, стремятся к максимально точному описанию данных. В подходе Раша в центре находится модель, и данные оцениваются по тому, как они вписываются в эту модель. Общим для обоих подходов является попытка оценки в рамках одной модели как атрибутов испытуемого (его готовности относительно группы к ответу на вопрос), так и атрибутов вопросов (их сложности в рамках теста). Оценка теста и ответов на задания на основе моделей классической теории тестирования и модели Раша позволяет сделать достаточно обоснованные выводы о результатах тестирования.

В общем виде модель Раша может быть описана следующим образом. Предположим, что имеется тест, содержащий k вопросов, который выполняют n испытуемых. Обозначим через X_piє{0,1} результат ответ испытуемого p на вопрос i. Тогда получаем:

P(X_pi=1│θ_p, δ_i)=e^{θp – δi}/(1+ e^{θp – δi}), (6)

где θ_pлатентная переменная — уровень подготовки испытуемого p, а δ_i — уровень трудности задания i.

В модель, описываемую формулой (6), могут быть введены дополнительные параметры: a_i — коэффициент дискриминации, который показывает, насколько эффективно вопрос i позволяет различать испытуемых по уровню знаний, и коэффициент c_i , связанный с вероятностью угадывания правильного ответа.

Начальные оценки значений θ_p и δ_i рассчитываются как логиты доли верных ответов испытуемого p или доли неверных ответов на вопрос i в матрице результатов (X_pi)

θ⁰_p=ln(∑^k_i=1 X_pi/ ∑^k_i=1 (1-X_pi)), α⁰_i= ln(∑^k_i=1(1- X_pi)/ ∑^k_i=1 X_pi).

Начальные значения вероятностей рассчитываются по формуле (6).

Для оценки параметров модели Раша принято использовать метод максимального правдоподобия. В работе ^[1] показано, что метод наименьших квадратов дает близкие результаты, в некоторых отношениях более удобные для оценивания модели. Результаты, приведенные в разделе 4, получены с использованием этого подхода.

3. Содержание теста CCI

Тест CCI предназначен для оценки уровня овладения основными понятиями математического анализа. В идейном плане этот тест включен в линейку подобных тестов, разработанных и продолжающих разрабатываться преподавателями американских университетов. Тест CCI был разработан группой авторитетных преподавателей математики и специалистов по валидации тестов. Тест прошел апробацию в ряде университетов США и других стран. Его применение показало, что традиционная методика преподавания математического анализа, принятая в университетах США, не способствует освоению базовых понятий, нацелена в большей степени на выработку навыков решения стандартных задач вычислительного характера. Близкий результат показали студенты там, где процесс преподавания был компьютеризован.

В качестве выходного показателя использовалась следующая величина (которая трактуется как прогресс в освоении понятий):

g=(μ_f–μ₀)/(100-μ₀),

где μ₀ — среднее значение результатов до изучения курса, μ_f — среднее значение результатов до изучения курса (в процентах от максимального значения).

Значение показателя g находилось, как правило, в промежутке от 0,08 до 0,23 Существенно лучшие результаты были зафиксированы там, где занятия проводились в интерактивном режиме ^[5]. Значение показателя g находилось в промежутке от 0,30 до 0,38.

Тест CCI содержит 22 вопроса. Согласно авторам теста, он является двумерным: (a) функции, (b) производная. В процессе экспериментов «проявилось» и третье измерение — (c) последовательности, пределы и континуум. Содержательно вопросы теста могут быть классифицированы следующим образом:

(a) 5, 7, 10, 12, 14, 17, 20, 22, 16;

(b) 2, 3, 8, 9, 11, 15, 19, 21, 22;

Психометрический анализ теста CCI был проведен в работах ^{[7, 8, 16]}. В этих работах был выявлен целый ряд специфических особенностей, снижающих ценность проведенного тестирования для студентов американских университетов. Так, например, в тесте содержится восемь вопросов, в которых используются обозначения и терминология, незнакомые большинству студентов-первокурсников американских университетов: производная fʹ(x), fʹʹ(x), dV/dx. Это дает авторам статьи основание сделать вывод о том, что стандартный нормализованный выигрыш g между пред- и пост-курсовыми тестами неадекватно оценивает достижения студентов в течение семестра. Тем не менее, это не мешает инструменту обеспечить точную меру концептуального понимания в конце первого семестра изучения математического анализа. Забегая вперед, отметим, что наличие в тесте упомянутых выше обозначений не представляет проблему при проведении тестирования первокурсников Финансового университета: выпускники средней школы в Российской Федерации знакомятся с этими понятиями и обозначениями в старших классах.

Исследование большого массива результатов американских студентов показало, что тест, скорее всего, является одномерным, что согласуется с первоначальными предположениями разработчиков теста. Для оценки внутренней согласованности использовались коэффициент альфа Кронбаха и двух-параметрическая модель Раша. В результате проведенного анализа авторы статей ^{[7, 8]} пришли к выводу, что тест CCI не позволяет в полной мере оценить те достижения студентов, на которые он был ориентирован.

4. Результаты тестирования

В этом разделе описаны результаты тестирования студентов по тесту CCI в Финансовом университете. Тестирование проводилось со студентами первого курса факультета прикладной математики и информационных технологий в период с 2015 по 2019 г., направление подготовки «Прикладная математика и информатика» (см. таблицу 1).

Таблица 1. Значение показателя g

№ п/п	Год набора	Число групп	Число студентов	Значение g
1	2015	3	67	-
2	2016	4	69	-
3	2017	4	98	0,013
4	2018	5	115	0,026
5	2019	5	133	0,072

Отсутствие показателя g в результатах 2015 и 2016 г. объясняется тем, что в эти годы проводилось тестирование проводилось только по одному разу. Выборочное тестирование проводилось для студенческих групп направления подготовки «Экономика». В этих группах значения показателя оказались близки к тем, которые приведены в таблице 2. Хотя результаты обоих тестах были в среднем ниже, чем на направлении подготовки «Прикладная математика и информатика».

Сравнительно низкое значение коэффициента g связано, вероятно, с тем, что основы математического анализа изучаются в средней школе. На первом курсе Финансового университета при изучении дисциплины «Математический анализ» в основном происходит систематизация понятий на более строгом и формализованном уровне изложения, но концептуально основные понятия фактически осваиваются на том же уровне, что и в средней школе. Полученные результаты, безусловно, побуждают к тому, чтобы существенно обновить содержание базовой части курса.

Для студенческих групп, в которых проводилось тестирование, были вычислены коэффициенты альфа Кронбаха. Значения оказались существенно выше, чем в американских университетах, что в определенной мере свидетельствует о том, что тест CCI в гораздо большей степени приспособлен для российских университетов, чем для американских. В исследованиях Эпштейна ^[5] и Глисона с соавторами ^[8] значение коэффициента альфа Кронбаха находился в районе 0,7, и фактически выходил за границы, в которых тест может считаться надежным. При тестировании в Финансовом университете, значение коэффициента альфа Кронбаха оказывалось, как правило выше 0,9 (см. таблицу 2). При таких высоких значениях тесты считаются надежными даже в медицинских исследованиях, где требования существенно выше, чем в психометрических исследованиях. В психометрических исследованиях принято считать тесты надежными, если α>0,8.

Таблица 2. Коэффициент альфа Кронбаха

№ п/п	Год набора	α		σ(E)*
№ п/п	Год набора	Пред-тест	Пост-тест	Пред-тест	Пост-тест
1	2015	-	0,99	-	0,32
2	2016	0,99	-	0,32	-
3	2017	0,93	0,94	0,62	0,59
4	2018	0,91	0,99	0,34	0,29
5	2019	0,93	0,88/0,72**	0,67	0,89/1,3**

* σ(E) Значение в таблице 2 вычисляется по формуле 2.

**Пост-тестирование студентов 2019 г. набора проводилось дистанционно. Значения α по по пяти различным группам курса распределились следующим образом: 0,84; 0,83; 0,54; 0,46; 0,94. Есть основания считать, что условия проведения тестирования сказались на результатах групп 3 и 4. Через дробь отдельно указаны значения для групп 1, 2, 5 и 3, 4 соответственно.

Оценивая результаты с использованием коэффициента альфа Кронбаха, можно считать, что ошибка в среднем составляет около 0,5 балла. Это позволяет использовать тест для индивидуальной оценки студентов с достаточно высокой точностью.

Оценка трудности задач в рамках модели Раша приведена в таблице 3 (трудность указана в единицах логит-шкалы от – 5 до 5).

Таблица 3. Трудность задач в модели Раша (набор 2019 г., пред-тест)

№ задачи	Трудность δ	№ задачи	Трудность δ
1	4,15	12	– 0,52
2	– 0,24	13	2,08
3	– 0,72	14	– 0,39
4	– 2,47	15	– 0,07
5	– 0,47	16	3,18
6	– 0,91	17	– 1,65
7	– 2,15	18	2,23
8	4,05	19	1,52
9	– 0,56	20	– 0,95
10	1,24	21	– 1,15
11	0,13	22	3,44

Задача 1 опирается на понимание предела, и, вполне ожидаемо, оказывается самой трудной. Затруднения вызвали также задачи 8 и 22, достаточно элементарные с точки зрения понятий анализа, но по формулировке отличающиеся от привычных для школьника задач. Для сравнения приведем оценку изменения трудности от пред- к пост-тесту (таблица 4).

Таблица 4. Изменение трудности от пред- к пост-тесту (набор 2017 г.)

№ задачи	δ_b - δ_a	№ задачи	δ_b - δ_a
1	-3,28	12	0,44
2	-0,89	13	1,52
3	-0,35	14	0,28
4	-0,42	15	1,79
5	-0,48	16	-1,43
6	0,77	17	0,10
7	-1,47	18	1,21
8	2,89	19	1,50
9	1,27	20	-1,53
10	-0,31	21	1,54
11	1,88	22	-1,13

Наиболее заметное снижение сложности происходит в задаче 1 — следствие того, что понятие предела подробно разбирается в университетском курсе. Эта тенденция характерна для всех годов набора. Задача 7 опирается на геометрический смысл производной, задачи 16 и 20 опираются на умение представить графически реальную зависимость. Все эти умения тщательно отрабатываются в первом семестре курса математического анализа.

Остановимся еще на расчете коэффициентов дискриминации (см. формулу (5)). Результаты, полученные для студентов набора 2017 г. и 2019 г. представлены в таблицах 5 и 6.

Таблица 5. Коэффициенты дискриминации (набор 2017 г.)

№ задачи	r		№ задачи	r
№ задачи	Пред-тест	Пост-тест	№ задачи	Пред-тест	Пост-тест
1	0,00	0,80	12	0,26	0,17
2	0,27	0,02	13	0,09	-0,1
3	0,07	0,39	14	0,16	-0,00
4	-0,20	-0,20	15	0,1	-0,00
5	0,14	0,36	16	0,06	0,37
6	0,07	0,05	17	0,04	0,09
7	-0,10	-0,00	18	0,01	0,12
8	0,28	0,08	19	0,24	0,04
9	0,05	0,38	20	0,20	0,08
10	0,05	0,31	21	0,07	0,27
11	0,27	0,20	22	0,00	0,04

Таблица 6. Коэффициенты дискриминации (набор 2019 г.)

№ задачи	r		№ задачи	r
№ задачи	Пред-тест	Пост-тест	№ задачи	Пред-тест	Пост-тест
1	0,00	0,87	12	0,12	0,44
2	0,33	0	13	0,13	0,47
3	0,32	0,40	14	0,24	0,38
4	0,06	-0,1	15	0,14	0,47
5	0,05	0,38	16	0,06	0,53
6	0,15	0,45	17	0,04	0,00
7	0,01	0,35	18	0,00	0,45
8	0,00	0,50	19	0,17	0,42
9	0,08	0,34	20	0,26	0,19
10	0,09	0,49	21	0,08	0,40
11	0,24	0,40	22	0,25	0,51

На пост-тесте наибольшее дискриминантное значение имеет задача 1, в то время как на пред-тесте ее дискриминантное значение рано нулю. Этот результат хорошо согласуется с остальными количественными оценками теста: задача на понятие предела «не различает» сильных и слабых студентов на пред-тесте, но служит выраженным разделителем по завершении курса анализа. Сходным свойством обладает задача 16.

Заметим еще, что равномерное разбиение логит-шкалы оценки освоенности θ на четыре интервала хорошо согласуется с экзаменационными оценками студентов на шкале от 2 до 5.

5. Заключение

В статье приведено описание и выполнен анализ теста CCI, направленного на оценку освоения основных понятий математического анализа (функция, предел, производная). Оценки выполнены с использование методов теории тестовых заданий и модели Раша. Описаны и проанализированы результаты экспериментального тестирования студентов факультета прикладной математики и информационных технологий в 2016-2020 гг. Полученные результаты в целом согласуются с представлениями об уровне подготовки и освоения курса математического анализа студентами направления «Прикладная математика и информатика» и могут быть использованы для совершенствования методики преподавания. Проведенное исследование показывает, что для студентов российских вузов тест CCI оказывается более информативным, чем для студентов американских университетов. В условия российской высшей школы тест CCI может быть использован не только для оценки группового продвижения студентов в освоении понятий математического анализа, но и для оценки индивидуальных результатов.

References

1. Maslak A. A., Moiseev S. I., Osipov S. A. Sravnitel'nyi analiz otsenok parametrov modeli Rasha, poluchennykh metodami maksimal'nogo pravdopodobiya i naimen'shikh kvadratov // Problemy upravleniya. 2015. № 5. S. 57-66.
2. Brennan R. L. Generalizability theory and classical test theory // Applied Measurement in Education. 2010. V. 24. № 1. P. 1-21.
3. Cronbach L. J., Shavelson R. J. My current thoughts on coefficient alpha and successor procedures // Educational and psychological measurement. – 2004. V. 64. № 3. P. 391-418.
4. DiBello L. V., Roussos L. A., Stout W. Review of cognitively diagnostic assessment and a summary of psychometric models (Ch. 31A)/ Rao C. R., Rao C. R., Govindaraju V. (ed.). Handbook of statistics. – Amsterdam: Elsevier, 2006. V. 26. P. 979-1030.
5. Epstein J. The Calculus Concept Inventory — Measurement of the Effect of Teaching Methodology in Mathematics // Notices of the AMS. 2013. V. 60. № 8. P. 1018-1026.
6. Fan X. Item response theory and classical test theory: An empirical comparison of their item/person statistics // Educational and psychological measurement. 1998. V. 58. № 3. P. 357-381.
7. Gleason J., White D., Thomas M., Bagley S., Rice L. The calculus concept inventory: a psychometric analysis and framework for a new instrument / Proceedings of the 18th Annual Conference on Research in Undergraduate Mathematics Education.-Pittsburgh, Pennsylvania: SIGMAA, 2015. P. 135-149.
8. Gleason J., Bagley S., Thomas M., Rice L., White D. The calculus concept inventory: a psychometric analysis and implications for use // International Journal of Mathematical Education in Science and Technology. 2019. V. 50. № 6. P. 825-838.
9. Hake R. R. Interactive-engagement versus traditional methods: A six-thousand-student survey of mechanics test data for introductory physics courses // American journal of Physics. 1998. V. 66. № 1. P. 64-74.
10. Hestenes D., Wells M., Swackhamer G. Force concept inventory // The physics teacher. 1992. V. 30. № 3. P. 141-158.
11. Hiebert J., Lefevre P. Conceptual and procedural knowledge in mathematics: An introductory analysis // Conceptual and procedural knowledge: The case of mathematics. 1986. V. 2. P. 1-27.
12. Pellegrino J. W., DiBello L. V., James K., Jorion N., Schroeder L. Concept inventories as aids for instruction: A validity framework with examples of application / Proceedings of Research in Engineering Education Symposium.-Madrid, Spain: Polytechnic University of Madrid, 2011. P.1-6.
13. Pellegrino J. W., DiBello L. V., Brophy S. P. The science and design of assessment in engineering education / Johri A., Olds B. M. (ed.). Cambridge handbook of engineering education research. – Cambridge University Press, 2014. P. 571-598.
14. Steyer R., Smelser N. J., Jena D. Classical (psychometric) test theory / Smelser N. J. et al. (ed.). International encyclopedia of the social and behavioral sciences. – Amsterdam: Elsevier, 2001. P. 1955-1962.
15. Suen H. K. Principles of test theories. – N.-Y., London: Routledge, 2012. 236 P.
16. Thomas M., Lozano G. Analyzing Calculus Concept Inventory gains in introductory calculus / Proceedings of the Sixteenth Annual Conference on Research in Undergraduate Mathematics Education.-Denver, CO: SIGMAA, 2013. V.2. P. 637-646.

Link to this article

You can simply select and copy link from below text field.