Testování znalostí je klíčovým momentem v procesu vzdělávání. V mnoha případech rozhoduje o dalším osudu studenta, o tom, zda je či není přijat na danou vysokou školu či zda získá či nezíská akademický titul. Testy jsou ale důležité také pro samotnou vzdělávací instituci a celou společnost: na jejich základě mohou být vybíráni ti nejvhodnější adepti pro studium medicíny a pro výkon lékařské praxe. Význam správně sestavených testů není zanedbatelný ani na úrovni jednotlivých vyučovaných kurzů a samotného vzdělávacího procesu: často právě forma a obsah testu rozhoduje o tom, na které znalosti či dovednosti se student zaměří a naučí se je. Dobře připravené testy jsou proto důležitým nástrojem kvalitní výuky.
Nicméně, jak ale vyzkoušet velké množství studentů v krátkém čase? Nebo jak prokázat objektivitu a reprodukovatelnost zkoušení? V životě pedagoga tak přicházejí chvíle, kdy je třeba vykročit ze zaběhnutého rámce a vydat se na dobrodružnou cestu neznámým terénem testování. Ačkoli se tato cesta může zpočátku jevit jako džungle pojmů, standardů a houští statistických metod, nemusí být zcela neschůdná. Pojďme se společně do této džungle vypravit.
Velmi často zkoušíme, abychom zjistili, zda student dostatečně zvládl náplň daného předmětu, případně zda může či nemůže postoupit do dalšího stupně studia. Různé formy zkoušení však také mohou sloužit jako zdroj zpětné vazby pro učitele či studenty. Například nás může zajímat, nakolik studenti v průběhu výuky vstřebávají a chápou předkládaný obsah, či které oblasti jim činí největší potíže a kde tedy jako učitelé musíme přidat. Můžeme také studenty testovat proto, aby oni sami našli svoje slabé stránky a mohli na nich zapracovat. V rámci jednoho předmětu, kurzu či ročníku je možné a vhodné tyto dva typy zkoušení kombinovat, zejména na začátku studia a u rozsáhlejších předmětů.
Jednou z nejdůležitějších otázek, které je vhodné zodpovědět, je, co přesně chceme zkoušet. Jednoduchá odpověď by mohla znít, že v biochemii budeme zkoušet biochemii a v patologii - co jiného než patologii. V průběhu výuky na vysoké škole se učitelé snaží studentům předávat směs znalostí, dovedností a postojů namixovaných v různých poměrech podle konkrétního předmětu. V biochemii se tak studenti učí intermediáty Krebsova cyklu (znalosti), chemické výpočty, a třeba i základy experimentální práce v laboratorním praktiku (dovednosti, případně i správné postoje k poctivému nakládání s experimentálními daty). V kurzech komunikace či etiky získávají dovednosti nutné k dobré komunikaci s pacienty, svými rodinnými příslušníky nebo kolegy, osvojují si profesionální postoje nutné k řešení složitých situací a jistě získají i teoretické poznatky o komunikačních technikách a etických systémech. Zásadní otázkou tedy je, co vše musí studenti prokazatelně zvládnout, aby daný předmět absolvovali, a co tedy budeme chtít zkoušet. Obvykle to nebude celý obsah kurzu, ale jen jeho centrální část.
Stejně jako musíme být schopní definovat obsahovou náplň zkoušky či testu, je také třeba přesně odpovědět na otázku, jakou úroveň znalostí nebo dovedností chceme testovat. Zkoušíme diagnostiku plicní embolie. Porozumění (student ví jak; competence, knows how). Dovednost (dokáže ukázat jak; performance, shows how). Činnost (v praxi provádí správně veškeré potřebné úkony; action, does). Této úrovně by měl dosáhnout např.
Čtěte také: Validita ve Výzkumu
Výše uvedené čtyři úrovně znalostí a dovedností se používají při výuce medicíny; často se schematicky znázorňují jako tzv. Millerova pyramida (viz obr. 1.1). Toto pojetí vychází z obecnějšího konceptu, tzv. Obr. 1.1 Millerova pyramida úrovní znalostí a dovedností umožňuje přehledně zobrazit úrovně vhodné pro písemné testování. Písemné testování (stejně jako např. testování pomocí počítače) lze použít pro hodnocení znalostí a porozumění. Vyšší úrovně dovedností je třeba zkoušet jinými způsoby.
Pokud máme jasno v tom, jaké znalosti, dovednosti či postoje chceme zkoušet, můžeme přemýšlet o vhodných formách zkoušení. Zhruba je můžeme rozdělit na ústní a písemné. V tomto textu jako svébytnou skupinu vyčleníme ještě praktické zkoušení, které hraje v medicíně velmi významnou roli. Každá z uvedených tří forem má své výhody a nevýhody.
Písemné či počítačové zkoušení je velmi vhodné pro hodnocení velkého množství studentů a velkého rozsahu látky. Jeho hlavní síla spočívá v hodnocení znalostí od přehledového zkoušení velkých souborů faktů, přes porozumění jejich souvislostem až po simulované řešení problémů či klinických situací. Principiální výhodou je jeho zpětná přezkoumatelnost a velké možnosti statistické analýzy výsledků. Z metodického hlediska je do značné míry lhostejné, zda se zkoušení provádí na papíře nebo elektronicky na počítači; v dalším textu tedy nebudeme tyto dvě možnosti rozlišovat.
Ústní zkoušení je vhodnější na zjišťování schopnosti řešit problémy, zejména ty hůře strukturované, a tedy podobné reálným situacím. Nevýhody ústního zkoušení zahrnují především velkou časovou a personální náročnost, problematickou standardizaci, obtížnost srovnání jednotlivých zkušebních komisí a termínů a nemožnost zpětného přezkoumání. Výhodou je naopak možnost eliminovat případné nedorozumění v pochopení zadání otázky či odpovědi na ni vzájemnou komunikací studenta a pedagoga.
Praktické zkoušení budeme v tomto textu považovat za specifickou problematiku, které se budeme věnovat jen okrajově. Praktické zkoušení hraje významnou úlohu zejména v klinické části medicínského studia. Mělo by být zásadní součástí závěrečných zkoušek a později i zkoušek konaných např. v rámci specializačního vzdělávání. Praktická zkouška má často několik součástí, při nichž se hodnotí výkon zkoušeného při určité činnosti. Často ale zkoušený odpovídá i na otázky, takže i praktická zkouška mívá prvky písemného či ústního zkoušení.
Čtěte také: Co nabízí Ekologická poradna Dr. Landy?
Konkrétní formu zkoušení zvolíme podle toho, co chceme zkoušet, jaký je rozsah zkoušené látky, kolik studentů je třeba ohodnotit, jaké k tomu máme personální či technické podmínky a jak spravedlivě či přesně potřebujeme v dané situaci zkoušet. Pět studentů pravděpodobně vyzkoušíme mnohem rychleji ústně než písemně, pokud započteme čas nutný na přípravu kvalitního testu. Obecně se dá říci, že písemné či počítačové testování je vhodné pouze pro zkoušení znalostí a porozumění. Vyšší úrovně dovedností je třeba hodnotit principiálně jinými metodami (tedy již zmíněným praktickým zkoušením).
Moderní technologie a využití počítačů hrají stále větší roli ve vzdělávání, a v medicínském vzdělávání zvlášť. Počítačová podpora hodnocení studentů se rozvíjí již půl století, prakticky od nástupu optického rozpoznávání papírových dotazníků. Jsou čtyři pádné důvody, proč počítačové testování studentů používat: efektivnost, průkaznost, spolehlivost a přesnost.
Předpokladem efektivního a relevantního zkoušení je jeho dobrá organizace. Výhody zkušebního týmu jsou zřejmé: rozloží se nápor práce a umožní se účinná kontrola kvality a vzájemná podpora. Týmová spolupráce je také nezbytná pro standardizaci testů.
Předpokládejme, že jsme se rozhodli otestovat znalost skupiny studentů pomocí písemného testu. Příprava písemného testu je náročnější než samotné ústní zkoušení; musíme tedy pro takové rozhodnutí mít nějaký důvod. Může to být potřeba vyzkoušet v omezeném čase velké množství studentů, či potřeba zajistit spolehlivé a reprodukovatelné hodnocení. Nejjednodušší (tzv. nestandardizovaný) písemný test lze sestavit ad hoc, pouze na základě zkušeností vyučujícího. Není na tom nic špatného, pokud je účelem testu pouhé poskytnutí zpětné vazby studentům nebo vyučujícím. Má-li však být výstupem klasifikace nebo rozhodnutí se závažnějšími důsledky (např. rozhodování o postupu studenta do dalšího studia), měla by být přípravě testu věnována patřičná pozornost, aby bylo hodnocení validní, objektivní a reprodukovatelné.
Jak by měl vypadat cyklus přípravy testu? Jeho základní kroky odhadneme i intuitivně: Máme-li rozmyšlené zadání testu, můžeme podle něj test navrhnout. Vytvoříme otázky, které si během recenze necháme zkontrolovat kolegy. Poté můžeme test realizovat, studenty oznámkovat a statisticky zhodnotit i samotný test během jeho analýzy. Poučíme se, promítneme zpětnou vazbu do celého cyklu přípravy a můžeme se pustit do přípravy dalšího testu. Projděme nyní jednotlivé kroky podrobněji. Ještě detailněji pak budou postupně popsány v následujících kapitolách.
Čtěte také: Postupy likvidace nebezpečného odpadu
Práce na testu by se měla odvíjet od ujasnění cílů. Návrh testu je dalším klíčovým bodem celého procesu. Je třeba stanovit, kolik otázek bude test obsahovat z každého tematického okruhu a jaké typy otázek se použijí. Zvlášť významná tato fáze je, pokud se test připravuje ve více variantách, které mají být vzájemně srovnatelné. Cíle výuky se promítnou do výběru otázek a poměru zastoupení jednotlivých témat v připravovaném testu. Podle anglického pojmenování dříve užívaných modrých kopií stavebních plánů se tomuto plánování testu říká blueprinting.
Samotná tvorba testových úloh patří k odborně i časově náročnějším etapám přípravy testu a je vhodné se na ni teoreticky připravit. V minulosti postupně vznikla celá řada formátů testových úloh, z nichž mnohé byly následně opět opouštěny a skončily na „pohřebišti testových formátů“ (viz Příloha 1). Pozornosti čtenáře doporučujeme formát otázek s jedinou nejlepší odpovědí (single-best answer, SBA), který je v současnosti jednou z nejpoužívanějších forem otázek s mnohočetným výběrem odpovědi (multiple-choice questions, MCQ). Při tvorbě testu lze použít i otázky vytvořené dříve. Ty lze schraňovat v tzv. bance úloh.
Má-li být test kvalitní, je nezbytnou součástí jeho přípravy i oponentura otázek, při níž se odstraní nahodilé chyby či omyly autorů testu, nejednoznačné či jinak problematické formulace apod. Při oponentuře otázek jsou položky předloženy k posouzení skupině odborníků (např. metodika přípravy testů programu Rogo doporučuje nejméně 5-9 osob), kteří podle připraveného formuláře procházejí testové úlohy a ověřují kvalitu jejich formulace. Při opakované rutinní tvorbě testů je oponentura součástí samotné tvorby otázek před jejich zařazením do položkové banky.
Pro prověření chování položek i celého testu je vhodné test „pilotně“ vyzkoušet. Analýza výsledků pilotního testu může ukázat na (ne)schopnost položek rozlišovat studenty podle zvládnutí látky, ozřejmí jejich objektivní obtížnost a tak dále. Položky, jejichž psychometrické vlastnosti jsou známé, se nazývají kalibrované. Protože je pilotní testování organizačně náročné (musíme vždy zajistit skupinu testovaných kvalitativně srovnatelnou s cílovou skupinou, vytvořit jim přiměřenou motivaci atd.), používá se často jako pilotní testování až samotný první běh testu. Známý výsledek pilotního testu převedený do podoby kalibrovaných položek je podmínkou pro další efektivní používání nových testových úloh.
Důležitým krokem v této etapě je i nastavení meze, pod kterou nesmí znalost studenta klesnout, aby mohl být považován za úspěšného absolventa kurzu. Tedy např. frekventant kurzu první pomoci nesmí být považován za úspěšného absolventa, pokud nezvládne základní kardiopulmonální resuscitaci. Potřebujeme tedy nastavit jakési absolutní standardy a tento krok se proto nazývá absolutní standardizace.
Jak jsme už uvedli, může mít písemný test podobu papírovou, nebo počítačovou. V obou případech je třeba zajistit vytvoření testových verzí, distribuci testů studentům a sběr jejich odpovědí. U testování, jehož výsledky mají významný dopad, musíme navíc zajistit férovost testu.
Oznámkování studentů je nejvýznamnějším výstupem testu. Při klasifikaci je možné porovnat počty bodů (celkové skóre) dosažené jednotlivými studenty a zjistit tak jejich relativní umístění. Pomocí expertního odhadu (např. Ebelovou nebo Angoffovou metodou) stanovíme hranici pro rozhodnutí „prošel“ nebo „neprošel“ (tzv. absolutní standardizace) a rozdělením intervalu úspěšnosti na potřebný počet dílů můžeme stanovit klasifikaci studentů v podobě klasifikačních stupňů - známek.
Test je nástroj a jako každý nástroj má konkrétní vlastnosti, které můžeme popsat. Chování testu a jeho položek můžeme hodnotit pomocí analýzy výsledků testu. U testu jako celku nás zajímá především jeho spolehlivost (reliabilita) a zda měří to, co by měřit měl (validita). Optimální je zhodnotit kvalitu testu ještě před jeho ostrým nasazením v rámci pilotního testování. Vlastnosti testu je poté potřeba ověřit na cílové skupině testovaných při ostrém nasazení. Při opakovaném použití testu je užitečné porovnávat výsledky v jednotlivých bězích testu.
Validita testu vypovídá o tom, do jaké míry test skutečně měří to, co tvrdí, že měří. Jinými slovy platnost testu. (Reliabilita naopak znamená spolehlivost a přesnost testu, nepřítomnost chyby při měření).
Konstruktová validita tedy vypovídá o tom, jak přesně námi používané pojmy reprezentují měřené proměnné. Jelikož často pracujeme s hypotetickými pojmy (např. agresivita, lakomost), musíme zjistit, 1) zda daný fenomén vůbec existuje (zda nejde o sociální konstrukt, předsudek) a 2) zda je naše metoda ta nejvhodnější, nejpřiléhavější ke zjištění daného fenoménu. K tomu ním orientačně slouží konvergentní validita (a) a diskriminační validita (b), neboli podobnost mezi námi měřenými fenomény s již existujícími a ověřenými metodami a přitom dostatečná odlišnost našeho testu a testů již existujících, abychom "podruhé neobjevovali Ameriku."
Přínosnost naší metody. Jaký nárůst poznání může přinést naše metoda? Obrovská, precizině vykonaná práce může mít nakonec nulovou přidanou hodnotu, protože neobjevuje nic nového. Naopak, malý, rychlý testík se může ukázat jako inkrementálně validní a hojně používaný.
tags: #validita #ekologicka #inkrementalni #soubezna #studie