8 یافته کلیدی از گزارش آزمون آزمایشی اداره آموزش

اداره آموزش گزارشی از ارزیابی دوره آزمایشی معیار جدید پذیرش که در همه مدارس از سپتامبر رونمایی خواهد شد، منتشر کرده است.

بنیاد ملی تحقیقات آموزشی وظیفه پیاده سازی این پروژه را بر عهده داشت که شامل آزمایشی  می‌شد با اعضایی که در سپتامبر 2018 جذب شده بودند. و بعد دوره آزمایشی که در سپتامبر 2019 در مدارس در هر 3 دوره پذیرش انجام می‌شد، شروع می‌شد. در این جا به 8 تا از جالب‌ترین نکاتی که از این گزارش می‌توان آموخت، اشاره شده.

  1. سوالات درک مطلب و شکل از نمونه آزمایشی حذف شد

در ارزیابی آزمایشی سال 2018 به طور قابل توجهی سوالات بیشتری از مقدار مورد نیاز وجود داشت. سوالات به دو دسته تقسیم می‌شود. دسته اول توانایی خواندن و نوشتن، ارتباط و زبان (LCL) و دسته دوم ریاضیات است. بعد از آزمون سال 2018، حدودا نصف سوالات LCL و یک سوم سوالات ریاضیات از گزینش نهایی حذف شد و بعد از آزمون پارسال یک فعالیت LCL و ریاضیات دیگر هم حذف شد.

سوال LCL حذف شده در رابطه با درک مطلب بود. طبق گزارش تعداد کمی از دانش آموزان سوال را کامل می‌کردند و حتی تعداد کمتری درست جواب می‌دادند. سوال ریاضی که حذف شد در رابطه با اشکال بود و به این دلیل حذف شد که بهتر بتواند بین دو رقیب ارزیابی را متعادل کند و پایه ریزی یادگیری سال‌های اول را بازتاب دهد. به گفته مدیریت این تغییرات زمان لازم برای اتمام آزمون را کاهش می‌دهد بدون اینکه کیفیت ارزیابی کمتر شود.

  1. بیش از یک چهارم مدارس همه ارزیابی‌ها را کامل نمی‌کردند

در کل 9657 مدرسه برای شرکت در نمونه آزمایشی ثبت نام کردند. از این تعداد 8994 مدرسه (93 درصد) اطلاعات دانش آموزان را وارد سیستم ارزیابی کردند و تنها 7046 (73 درصد) ارزیابی را برای همه‌ی دانش آموزان تا تاریخ 25 اکتبر سال قبل آپلود کردند. اداره آموزش گفته است 415 مدرسه‌ به طور رسمی کنار کشیده‌اند و تعدادی هم اصلا وارد سیستم نشده‌اند.

  1. پسرها در دو نوع سوال بهتر بودند، اما دخترها به طور کلی عملکرد بهتری داشته‌اند

اطلاعات نیمه اول آزمایش نشان می‌دهد که هم در قسمت LCL و هم در ریاضیات یک سوال متمایز کننده است که پسرها در آن عملکرد بهتری دارند. با این حال طبق گزارش این در حالیست که دخترها به طور میانگین از پسرها در هر دو دسته سوال به طور کلی عملکرد بهتری داشته‌اند. در حقیقت دخترها به طور قابل توجهی از پسرها در ارزیابی کلی و در هر یک از قسمت‌های ارزیابی به تنهایی، عملکرد بهتری داشته‌اند. در ادامه گزارش آورده شده “هیچ شواهدی وجود ندارد که ثابت کند این تفاوت‌ها ممکن است به خاطر تعصبات ساختاری غیرضروری باشد و بنابراین تهدیدی برای صحت ارزیابی محسوب نمی‌شوند.

  1. توقف منحنی در حداکثر وجود ندارد

تحلیل آزمون‌های آزمایشی نشان می‌دهد که نمرات دانش آموزان توزیع خوبی داشته است. کمتر از 0.8 درصد دانش آموزان نمره‌ای نگرفته بودند و کمتر از 0.4 درصد نمره کامل گرفته‌اند. طبق اداره آموزش این اثبات می‌کند که ارزیابی در حدکثر منوقف نمی‌شود و به خوبی می‌تواند در طیفی از توانایی، دانش آموزان را تفکیک کند.

  1. تست‌ها حاکی از اعتبار بالاست

میزان قابل اعتماد بودن داخلی این آزمون‌ها بر اساس چیزی به نام “کرونباخ آلفا” سنجیده شد. بر اساس گفته اداره آموزش، به طور معمول ثابت آلفای 0.7 به بالا برای مناسب بودن بک ارزیابی جهت نتیجه گیری خاصی در مورد گروه‌ها کافی در نظر گرفته می‌شود. پس از تغییرات ارزیابی که از سال 2018 به بعد اعمال شد، پیش بینی می‌شود ثابت الفای کل ارزیابی به 0.91 برسد، که نشان دهنده میزان زیاد پایداری اعتبار داخلی است.

  1. رضایتمندی نیازهای آموزش استثنایی و معلولین (SEND) و منتقدین فرهنگی

دولت به عنوان بخشی از آنالیز این ارزیابی از یک بازرس SEND و بازرس فرهنگی مشاوره می‌گیرد تا بررسی کنند محتوای آن برای همه دانش آموزان مناسب است. طبق گفته اداره آموزش به نظر می‌رسد که در مستندات آن، سطح توقع بالایی از دانش آموزان با نیازهای استثنایی دارد، برخلاف این میل معمول که گمان می‌کنیم دانش آموزان با نیازهای استثنایی عملکرد ضعیف‌تری دارند.

به گفته بازرس تمام محتوا از لحاظ فرهنگی قابل قبول بوده است و از نظر طیف گسترده‌ای از جوامع مختلف دینی و نژادی بدون مشکل بوده است. همچنین عکس‌های همه جانبه آن مورد توجه بوده، از آن جایی که شامل همه رنگ‌های پوست می‌شده بدون اینکه تفاوت‌های فیزیکی را بزرگ جلوه دهد.

همچنین در گزارش آورده شده است که کودکانی که انگلیسی به عنوان زبان دوم آن‌هاست، ممکن است به مشکلاتی در ارزیابی بر بخورند اما به آن صورت نیست که محتوای ارزیابی نیاز به حذف و یا ساده‌تر شدن داشته باشد. در صورت حذف موارد، پوشش دادن همه مباحث برای همه کودکان ممکن نخواهد بود. به علاوه در تمام مراحل پروسه، جمله بندی سوالات تا حد امکان بازبینی و ساده سازی شده است.

  1. طرح‌های اداره آموزش جهت ارتقای دستورالعمل

بازخوردهای طرح آزمایشی نشان می‌دهد که 92% افرادی که نظر خود را ارسال کرده‌اند، محتوای راهنمایی را مفید یافنه‌اند و معتقد بودند که حجم مناسبی از اطلاعات در دستورالعمل فراهم شده بوده. با این وجود اداره آموزش لیستی از مواردی که باید بهبود دهد فراهم کرده تا بیش از پیش دستورالعمل را ارتقا دهد.

  1. نمرات خام برای مدارس ارسال نمی‌شود

اداره آموزش یافته است که این ارزیابی ممکن است نتایج ناخواسته در بر داشته باشد و هشدار می‌دهد که ممکن است دانش آموزان بر اساس نمره‌شان طبقه بندی و نامگذاری شوند، همچنین احتمال قضاوت واپس نگرانه بر اساس پیش بینی از سال‌های اولیه وجود دارد.

برای کم کردن این مشکلات، اداره آموزش نمرات خام را با مدارس، معلم‌ها و یا والدین به اشتراک نمی‌گذارد. و به جای آن، این داده‌ها در پایگاه داده ملی دانش آموزن ذخیره خواهد شد و تنها برای اندازه گیری میزان پیشرفت در انتهای متوسطه اول استفاده خواهد شد.

طبق گزارش این کار موجب می‌شود از نمرات برای دسته بندی افراد استفاده نشود، و از ریسک ارزیابی سال‌های اولیه بر اساس نتایج نمرات کل مدارس کاسته می‌شود. همچنین این موضوع به این پیام مهم را برجسته‌تر می‌سازد که نیازی نیست از قبل برای ارزیابی آماده شد، نه مدارس و نه والدین لازم نیست که قبل از آن هیچ کاری انجام دهند.

The Department for Education has published a report on its pilot of the new reception baseline assessment, which will be rolled out to all schools this September.

The National Foundation for Educational Research (NFER) was tasked with carrying out the process, which consisted of a trial with members of the September 2018 intake, and then a pilot starting in September 2019 in schools for all three main intake periods. Here are the eight most interesting things we learned from the report.

1. ‘Early reading’ and ‘shape’ tasks removed following pilot

The 2018 trial of the assessment involved “considerably more” tasks than were needed. Tasks are split into two groups: literacy, communication and language (LCL) and maths. Following the 2018 trial, about half of the LCL items and about a third of mathematics items were removed from the final selection. And then, following last year’s pilot, one LCL task and one maths task were also removed.

The LCL task that was removed related to early reading. According to the report, very few pupils completed the task and “even fewer pupils answered correctly”. The maths task that was removed related to shape, which was removed “to balance the assessment between the two components and to better reflect the early years foundation stage, from which shape is being removed”. “These changes will have the effect of reducing the time required to complete the assessment without compromising the quality of the assessment,” said the government.

2. Over a quarter of schools didn’t complete all assessments

Overall, 9,657 schools signed up to take part in the pilot. Of those, 8,994 schools (93 per cent) uploaded pupil data to the assessment system and just 7,046 schools (73 per cent) completed assessments for all uploaded pupils by October 25 last year. The DfE said 415 schools officially withdrew, while some just didn’t log in to the system at all.

3. Two tasks favour boys, but girls do better overall

Data from the first half term of the pilot revealed both the LCL and maths components had one task each which exhibited “differential item functioning in favour of boys”. However, the report said that this “should be interpreted in the context that girls performed better on average than boys on both components overall”.

In fact, girls “significantly outperformed boys on the overall assessment as well as on the individual components”. But the report added: “There was no evidence to suggest these differences could have been due to any construct irrelevant bias and are therefore not considered a threat to the validity of the assessment.”

4. There is no ‘ceiling effect’

Analysis of the pilot tests found there was a “good spread” of pupils across the score range. Less than 0.8 per cent of pupils scored no marks, and less than 0.4 per cent achieved full marks. According to the DfE, this is evidence that there is “not a ceiling effect on the assessment and that it can discriminate well between pupils across the ability range”.

5. The tests demonstrated ‘high degree’ of reliability

The internal reliability of the tests were measured using something called “Cronbach’s Alpha”. According to the DfE, an Alpha coefficient of 0.7 or above is “generally considered sufficient for an assessment to be considered suitable to use for drawing inferences about groups”. Following changes to the assessment following the 2018 trial, the Cronbach’s Alpha for the whole assessment is predicted to be 0.91, demonstrating a “high degree of internal consistency reliability”.

6. SEND and cultural reviewers are happy

As part of its analysis, the government consulted a SEND reviewer and cultural reviewer to check the content would work for all pupils. The SEND reviewer said the assessment “shows an excellent regard for the barriers that SEND children may face”. According to the DfE, it was also felt that the guidance documentation “sets high expectations for pupils with SEND, contrary to the general tendency to assume that pupils with SEND will perform poorly”.

The cultural reviewer said all the materials were “acceptable from a cultural point of view” and “unproblematic across a wide spectrum of religious and ethnic communities”. The inclusive nature of the images was also remarked upon since they “include variations of skin tone without exaggerating physical differences”.

The report recognised that children with English as an additional language “may have additional difficulties” with the assessment, but it was “not felt that any of the assessment content needed either to be removed or simplified”. “The removal of items would mean that it would not be possible to ensure coverage of all content domains for all children. In addition, at all stages of the process, question wording was reviewed and simplified as far as possible.”

7. DfE plans to improve guidance

Feedback from the pilot shows that 92 per cent of respondents found training materials useful and 88 per cent felt an appropriate amount of
information was provided in the administration guide.

However, the DfE has set out a list of improvements it will make to further “improve” the guidance.

8. Raw scores won’t be shared with schools

The DfE explored “possible unintended consequences” of the assessment, warning of the potential for “streaming or labelling” of children based on their scores, and the “potential for retrospective judgement of early years provision”. To mitigate against these risks, the DfE will not share raw scores with schools, teachers or parents. Instead, the data will be stored in the national pupil database and will only be used to form the progress measure at the end of key stage 2.

“This will help to prevent scores being used as a grouping mechanism, and it will mean that there is a reduced risk of any early years settings being assessed based on a school’s RBA total scores,” the report said. “This will also help to reinforce the important message that no preparation is necessary ahead of the assessment, and that neither schools nor parents need to do any practice beforehand.”

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *