The item and test analysis software (IATA) accompanying Part II of this book is intended to help national assessment practitioners, researchers, and others analyze test item data as well as build effective assessment tools. IATA was designed to offer a user-friendly way to address many statistical considerations related to national assessments. It targets specifically those who are interested in analyzing test data, creating a new test from an item bank, or comparing or scaling test items between different samples. It is likely to be useful for individuals involved in educational assessment who have experience doing item analysis as well as others with some statistical competence but who are less familiar with the specific statistical processes that are a feature of national assessments.
Phần mềm fân tích câu hỏi thi (IATA) nhằm mục đích giúp người nghiên cứu, các chuyên gia khảo thí và những người quan tâm phân tích câu hỏi thi phục vụ cho việc xây dựng công cụ đánh giá đạt hiệu quả. IATA được xây dựng thân thiện với người dùng (dễ sử dụng), giúp phân tích nhiều yếu tố liên quan đối với một đề thi quốc gia. IATA được xây dựng nhằm phục vụ những người quan tâm đến việc phân tích dữ liệu thi, xây dựng đề thi từ ngân hàng câu hỏi hoặc so sánh, đánh giá câu hỏi thi qua các mẫu (kì thi khác nhau). Nó cần thiết cho những người tham gia các kỳ thi quốc gia, những người có kinh nghiệm phân tích câu hỏi thi hay những người làm thống kê nhưng lại ít liên quan đến những thống kê đặc biệt trong các kỳ thi quốc gia.
The instructions in this book assume that you are familiar with basic computing functions on a Windows PC, such as starting programs, browsing directories, and opening files. The following chapters also assume that you have installed IATA correctly and can access the main menu in IATA. If you have not installed IATA yet or cannot start the program, please refer to the installation guide for IATA on the accompanying CD. Readers of this section of the book should also have some understanding of statistical concepts such as probability and properties of statistical distributions.
Để đọc quyển sách này bạn cần biết sử dụng máy tính tối thiểu ở mức cơ bản như khởi động một fần mềm, mở file và các thư mục… Máy tính của bạn đã được cài đặt phần mềm IATA (nếu chưa cài đặt bạn vui lòng xem hướng dẫn cài đặt có kèm theo CD).
The overarching goal of IATA is to increase the usability and interpretability of test scores. The primary means of accomplishing this goal is to reduce the error of measurement. Error of measurement is the underlying concept that unifies all test creation and test analysis. A test is intended to measure a specific domain, such as mathematics skill or reading proficiency. However, no test is perfectly accurate. All test scores have some uncertainty; if a student were to take equivalent versions of a test with different items, it is unlikely that his or her score would be the same across each test. Error of measurement describes the degree to which a student’s score on a specific test differs from his or her ‘true score,’ the score that he or she would have achieved in the absence of uncertainty. An important goal of test development from a statistical perspective is to reduce the error of measurement. To reduce error of measurement, IATA identifies problematic items that contribute to error so that they may be revised, replaced, or removed altogether.
Mục đích của IATA là tăng cường khả năng sử dụng và giải thích đối với điểm thi. Ý nghĩa cốt yếu của mục đích này là hạn chế lỗi đo lường. Lỗi đo lường là các khai niệm cơ bản mà nó có ở cả việc thiết kế đền thi và phân tích đề thi. Một bài thi được thiết kế để đo lường một mảng kiến thức nào đó như kỹ năng toán học hay kỹ năng đọc hiểu. Tuy nhiên, không có bài thi nào là chính xác hoàn hảo. Tất cả các điểm thi đều là tương đối (do thí sinh chọn đại). Nếu một thí sinh được làm các bài thi (có độ khó) tương đương với các câu hỏi khác nhau thì không thể chắc chắn rằng thí sinh đó đạt điểm như nhau. Lỗi đo lường giải thích sự khác biệt giữa điểm số bài thi và “điểm số thực”, điểm số mà thí sinh đạt được khi không có sự may mắn khi làm bài thi (không chọn đại). Mục đích quan trọng của việc thiết kế bài thi là giảm thiểu lỗi đo lường. Để giảm thiểu lỗi đo lường, IATA xác định, chỉ ra những câu hỏi mơ hồ có thể làm phát sinh lỗi đo lường để điểu chỉnh, thay thế hoặc loại bỏ.
The second means of accomplishing this goal is to establish meaningful and consistent scales on which to report test scores. Throughout this section of the book, the terms statistic and parameter are used to describe characteristics of test items. A statistic is the result of a calculation using a particular sample of students and items. Because the value of a statistic depends on the sample, it cannot generalise to different samples or populations that are not equivalent to the sample from which it was estimated. Consequently, test scores that are calculated as statistics may not be directly comparable between different tests or groups of students. In contrast, a parameter relates the statistical properties of a student or test item as functions of sample characteristics. Accordingly, parameters may be used to characterize students and items in generalizable ways that are not dependent on particular samples. When IATA estimates parameters for students or test items, these parameters may be used or compared across different tests, which allows for greater efficiency and information than if each test in a national assessment program were simply interpreted by itself.
Biện pháp thứ hai của việc hoàn thành mục tiêu này là thiết lập thang đo có ý nghĩa và phù hợp để qua đó xem xét kết quả kiểm tra. Trong phần này của cuốn sách, các thuật ngữ thống kê và tham số được sử dụng để mô tả đặc điểm của các câu hỏi thi. Một phép thống kê là kết quả của một phép tính trên mẫu thống kê cụ thể (học sinh và các câu hỏi thi). Bởi lẽ giá trị của thống kê dựa trên mẫu thống kê, không thể khái quát hóa kết quả phân tích cho mẫu thống kê khác hay cho toàn thể nếu mẫu thống kê dùng để tính toán không mang tính đại diện. Do đó, các điểm số được tính toán trong thống kê có thể không so sánh trực tiếp giữa các bài thi hay các nhóm học sinh khác nhau. Ngược lại, một tham số mang tính chất thống kê của một thí sinh hoặc câu hỏi thi được xem như các chức năng của các đặc tính mẫu. Theo đó, tham số có thể được dùng để mô tả các thí sinh và các câu hỏi thi một cách khái quát mà không phải phụ thuộc vào các mẫu cụ thể. Khi IATA ước tính các thông số cho thí sinh hoặc câu hỏi thi, các thông số này có thể được sử dụng hoặc so sánh giữa các bài thi khác nhau, điều này cho ta nhiều thông tin tin cậy hơn thông tin có được từ chỉ một kỳ thi.