Fundamentos teóricos dos testes. Teoria dos testes e testes de aptidão física dos alunos

Fundamentos matemáticos da teoria da construção de testes

Tipos de itens de teste

Existem duas formas de tarefas significativamente diferentes: fechada (quando o candidato tem opções de resposta para escolher) e aberta (o candidato deve obter a resposta por conta própria). As tarefas abertas, por sua vez, podem ser divididas em dois grupos:

    tarefas com resposta curta e regulamentada, cuja formulação deverá gerar apenas uma resposta, planejada pelo desenvolvedor;

    tarefas com resposta construída livremente, sem quaisquer restrições quanto ao conteúdo e forma de apresentação das respostas.

Existem cinco tipos principais de tarefas. Todos os outros tipos são variações ou combinações destes cinco tipos.

    Tarefa de escolha. O texto da tarefa consiste em uma pergunta. Existem várias opções de resposta para escolher, uma ou mais das quais estão corretas.

    Tarefa de adição. Na redação da tarefa falta um determinado fragmento de texto, que é indicado por um sublinhado (ou vários sublinhados do mesmo comprimento, se faltarem várias palavras). A lacuna pode estar em qualquer parte do texto, mas é recomendado fazê-la no final. Na resposta, o candidato deve escrever as palavras que faltam.

    A tarefa é estabelecer a sequência correta.

    Tarefa de conformidade. O texto da tarefa contém duas listas. À esquerda, via de regra, estão os elementos do conjunto que contém o enunciado do problema, à direita estão os elementos a serem selecionados. Os elementos do conjunto esquerdo são numerados, os elementos do conjunto direito são designados por letras. É desejável que o segundo conjunto contenha um número maior de elementos em comparação com o primeiro conjunto. Neste caso, cada elemento do primeiro conjunto corresponde a um ou mais elementos do segundo conjunto.

    Uma tarefa com uma resposta detalhada.

Estágios de desenvolvimento de teste

    Formulação da finalidade e objeto da pesquisa.

Quem, o quê e por que deve ser testado

    Desenvolvimento de conteúdo de teste.

Estudar os requisitos do padrão educacional, o conteúdo dos livros didáticos.

Escrevendo uma especificação de teste:

    Seleção de seções (tópicos) e seu conteúdo percentual no teste

    Seleção de tipos de trabalho

    Determinação dos níveis de domínio de conhecimentos e habilidades:

    Nível 1

    Conhecimento das definições dos conceitos básicos da disciplina, bem como afirmações básicas sobre os métodos da disciplina

    Nível 2

    Conhecimento de fórmulas e algoritmos básicos; capacidade de aplicá-los ao resolver problemas padrão

    Nível 3

    Aplicação dos conhecimentos adquiridos na resolução de problemas atípicos

  1. Determinar o número aproximado de tarefas do teste e distribuir esse número por tipo de tarefa.

    Desenvolvimento de tarefas.

Como a primeira versão do teste deveria revelar as deficiências das tarefas (incluindo os distratores propostos), foi oferecido o maior número possível de distratores em cada tarefa, para que, ao serem descartados, restassem um número suficiente deles.

    Exame de massa crua.

O objetivo do exame é identificar e corrigir formulações incorretas e pouco claras. Como resultado, algumas tarefas podem ser removidas do teste (portanto, as tarefas são recomendadas).

    Aprovação.

    Cálculo de características de tarefas e testes.

Com base nos resultados do teste, são calculadas as seguintes características estatísticas das tarefas e do teste.

Faixa de pontuações individuais mede a distância dentro da qual todos os valores dos indicadores na distribuição (pontuações individuais) mudam.

COM amostra média(média) para o agregado de pontuações individuais X 1 , X 2 , …, X K grupos K assuntos é calculado pela fórmula

.

Contar variações baseia-se no cálculo dos desvios de cada valor do indicador em relação à média aritmética na distribuição:

.

A baixa dispersão indica baixa qualidade do teste, uma vez que a fraca variação nos resultados indica fraca diferenciação dos candidatos por nível de preparação. A dispersão excessivamente alta é típica do caso em que todos os alunos são diferentes no número de tarefas concluídas, o que também exige a reformulação do teste.

O cálculo das características do teste é concluído avaliando a confiabilidade do teste. Para calcular o coeficiente de confiabilidade, você pode usar a fórmula Coeficiente de Kuder-Richardson(apenas no caso em que todos os pesos das tarefas são iguais a um):

.

Para dar uma avaliação qualitativa da confiabilidade do teste com base no valor do coeficiente, use a seguinte tabela:

Valor do coeficiente de confiabilidade

Avaliação de confiabilidade

insatisfatório

satisfatório

excelente

Estimativa da dificuldade da j-ésima tarefa calculado pela fórmula

.

Observe que quanto mais fácil for a tarefa, maior será a proporção de respostas corretas para ela ( p j), portanto seria mais natural interpretar esta proporção como a facilidade da tarefa. Um teste bem equilibrado em termos de dificuldade deve ter várias tarefas difíceis, várias fáceis, mas o grosso das tarefas deve ter uma dificuldade de 0,3 a 0,7; neste caso, é desejável que as tarefas sejam organizadas em ordem crescente de dificuldade.

Validade dos itens de teste determinado pelo grau de cumprimento da tarefa com o objetivo de diferenciação dos sujeitos. Para isso, são determinados os coeficientes de correlação da avaliação da tarefa com a pontuação de todo o teste. Isso é feito usando o coeficiente de correlação de acordo com a fórmula

,

Onde X eu pontuação do teste eu-º assunto, S eu- apontar eu-º assunto para a tarefa. Observe que no caso de avaliação dicotômica de uma tarefa, o cálculo do coeficiente é um tanto simplificado. Se R< 0, то задание следует удалить из теста, т. к. в нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Положительные значения, но близкие к нулю (незначимые), указывают на низкую прогностическую способность задания теста; такие задания требуют доработки содержания.

A capacidade de diferenciar assuntos como os melhores e os piores mostra coeficiente de diferenciação(ou índice discriminativo) tarefas. A maneira mais simples de calcular esse índice é chamada de método do grupo de contraste e é a seguinte. De todo o grupo de sujeitos, são identificados alguns dos melhores sujeitos com base nos resultados dos testes (vamos chamá-los de subgrupo forte) e o mesmo número dos piores (subgrupo fraco). A proporção de respostas corretas no subgrupo é então calculada para cada um desses subgrupos. Vamos denotar por p 1 j proporção de respostas corretas para j-ésima tarefa em um subgrupo forte, e depois p 0 j– a proporção de respostas corretas no subgrupo fraco. Então o índice de discriminatividade eu-tarefa é determinada pela fórmula:

(R dis) j =p 1 jp 0 j .

Para uma tarefa que todos os sujeitos fortes enfrentaram e nenhum dos fracos, o índice de discriminatividade R dis será igual a 1; neste caso, a tarefa tem o efeito diferenciador máximo. Para uma tarefa que todos os sujeitos fracos realizaram e nenhum dos sujeitos fortes realizou, o índice de discriminatividade será igual a –1. Nos demais casos, o índice assumirá valores entre –1 e 1. Itens com valores zero e de índice discriminativo negativo não diferenciam bem os alunos, portanto devem ser retirados da prova. Se o índice for positivo, mas inferior a 0,2, então tal tarefa requer uma análise cuidadosa do conteúdo.

De acordo com essas características, algumas tarefas podem ser retiradas da prova, enquanto outras devem ser corrigidas. Depois disso, os passos 5 e 6 devem ser repetidos.

Fórmulas para calcular a probabilidade de adivinhar

Ao projetar um teste, você precisa determinar quantas respostas devem ser oferecidas para cada pergunta, de modo que a probabilidade de passar no teste simplesmente adivinhando as respostas corretas seja inferior a 0,05 (ou seja, inferior a 5%). O teste será considerado concluído com êxito se o candidato responder corretamente a pelo menos P% de perguntas. Se o teste incluir N questões, então, para calcular a probabilidade de “adivinhação bem-sucedida”, a seguinte fórmula é usada:

,

Onde eu- o número de respostas oferecidas para cada pergunta.

No caso em que o número de respostas propostas às questões em diferentes tarefas é diferente, a fórmula tem uma forma mais complexa:

,

Onde - probabilidade de adivinhar as respostas para j perguntas, que é calculado da seguinte forma. Deixe todas as questões do teste serem divididas em R grupos para que as questões com a mesma probabilidade de adivinhação sejam combinadas em um grupo. Vamos denotar p eu , 0< p eu <1 - вероятность угадывания и k eu - número de perguntas em eu- aquele grupo (
), e

.

Então para j de
tonelada:

,

Onde t R = j  (t 1 + t 2 +…+ t R-1) e se t R > k R, então assumiremos
= 0 .

Exemplos.

N=10, Q=2/3: m=2, P<0,2; m=3, P<0,02; m=4, P<0,004

Literatura

    Chelyshkova M. B. Teoria e prática de construção de testes pedagógicos: livro didático. – M.: Logos, 2002. – 432 p.

    Malygin A. A., Svetsov V. I., Shchanitsina S. V. Recomendações práticas para a preparação de materiais de controle e medição: Método. subsídio / Ivan. estado quim.-tecnologia. universidade. – Ivanovo, 2005. – 30 p.

    Como escrever um teste // Sloyer K. Fantasias matemáticas. - M.: Mundo, 1993. - S. 116-118.

O problema de testar a aptidão física humana desenvolvido na teoria e metodologia da educação física, metrologia esportiva, antropomotora, biomecânica, medicina esportiva e outras ciências. Ao longo de aproximadamente 130-140 anos de história deste problema, acumulou-se um enorme e variado material, que sempre despertou e continua a despertar grande interesse não só de cientistas, mas também de professores de educação física, treinadores, alunos e seus pais.

O primeiro artigo dedicado ao problema em consideração é introdutório. Revela os fundamentos da teoria dos testes e das provas, sem familiarização com os quais é difícil para o professor resolver os problemas de utilização dos testes na prática do seu trabalho. Vamos citar pelo menos algumas das questões que surgem. O que é um “teste”? Qual é a classificação dos testes? Por que e é necessário testar a aptidão física dos alunos? Como determinar o nível (alto, médio, baixo) de desenvolvimento das qualidades físicas e da preparação? O que é considerado norma durante o teste e como configurá-lo? Se um professor apresentasse um novo teste motor ou uma bateria de testes para determinar a aptidão física das crianças, então a que deveria prestar atenção ou que condições necessárias (requisitos, critérios) deveria cumprir? Testar a condição física dos alunos requer a familiarização obrigatória do professor com métodos elementares de estatística matemática. Quais?

Em nossos artigos apresentaremos também informações históricas sobre o surgimento dos testes e a teoria de testar a aptidão física humana. Digamos quando e onde surgiram os primeiros testes, incluindo baterias de testes para avaliar a aptidão física. Quais são os testes mais comuns para determinar o condicionamento (força, velocidade, resistência, flexibilidade) e habilidades de coordenação de crianças em idade escolar? Quais baterias (programas) de testes para avaliação da aptidão física de crianças e adolescentes são mais populares nos diferentes países? Discutiremos também um problema prático tão importante como a relação entre resultados de provas e notas (notas) na disciplina “Educação Física”. Mais especificamente, se um aluno tem um desempenho consistente de alto nível nos testes, isso significa automaticamente uma nota excelente em nossa matéria? E assim por diante.

Neste artigo discutiremos: 1) tarefas de teste; 2) o conceito de “teste” e classificação dos testes motores (motores); 3) critérios para o fator de qualidade dos testes motores; 4) organização de testes de aptidão física de crianças em idade escolar.

1. Tarefas de teste. Testar as habilidades motoras humanas é uma das áreas de atuação mais importantes de cientistas e professores na área de educação física e esportes. Ajuda a resolver uma série de problemas pedagógicos complexos na identificação dos níveis de desenvolvimento das capacidades de condicionamento e coordenação, avaliando a qualidade da prontidão técnica e tática. Com base nos resultados dos testes, é possível comparar a preparação de alunos individuais e de grupos inteiros de alunos que vivem em diferentes regiões e países; realizar seleção adequada para a prática de um ou outro esporte, para participação em competições; realizar um controle bastante objetivo sobre a educação (treinamento) de crianças em idade escolar e jovens atletas; identificar as vantagens e desvantagens dos meios utilizados, métodos de ensino e formas de organização das aulas; por fim, fundamentar as normas (específicas por idade, individuais) de aptidão física de crianças e adolescentes.



a) ensinar os próprios alunos a determinar o nível de sua aptidão física e planejar para si os conjuntos de exercícios físicos necessários;

b) incentivar os alunos a melhorar ainda mais sua condição física
(formulários);

c) conhecer não tanto o nível inicial de desenvolvimento da habilidade motora, mas sua mudança ao longo de um determinado tempo;

d) incentivar os alunos que tenham alcançado resultados elevados, mas não tanto pelo elevado nível de aptidão física alcançado, mas pela implementação do aumento planeado nos resultados pessoais.



Os especialistas enfatizam que a abordagem tradicional dos testes, quando os dados dos testes e padrões padronizados são comparados com os resultados apresentados, provoca uma atitude negativa entre muitos alunos, especialmente aqueles com níveis baixos e médios de aptidão física. Os testes devem ajudar a aumentar o interesse dos alunos, trazer-lhes alegria e não levar ao desenvolvimento de um complexo de inferioridade. Nesse sentido, propomos as seguintes abordagens:

1) os resultados dos testes do aluno são determinados não com base na comparação com os padrões, mas com base nas mudanças ocorridas durante um determinado período de tempo;

2) todos os componentes do teste são modificados, são utilizadas versões leves dos exercícios (as tarefas que compõem o conteúdo do teste devem ser fáceis o suficiente para que a probabilidade de sua conclusão com sucesso seja alta);

3) são excluídos escores zero ou com sinal de menos; somente resultados positivos são elegíveis.

Portanto, ao testar, é importante reunir tarefas científicas (teóricas) e motivos positivos e pessoalmente significativos para que o aluno participe desse procedimento.

2. O conceito de “teste” e classificação dos testes motores (motores). O termo teste traduzido do inglês significa amostra, teste. Os testes são usados ​​para resolver muitos problemas científicos e práticos. Entre os métodos de avaliação da condição física de uma pessoa (observação, avaliações de especialistas), o método de teste (no nosso caso, motor ou motor) é o principal método utilizado na metrologia esportiva e outras disciplinas científicas - “o estudo dos movimentos”, o teoria e metodologia da educação física.

Testeé uma medida ou teste realizado para determinar a habilidade ou condição de uma pessoa. Pode haver muitas dessas medições, inclusive com base no uso de uma ampla variedade de exercícios físicos. Porém, nem todo exercício físico ou teste pode ser considerado um teste. Somente aqueles testes (amostras) que atendam a requisitos especiais e de acordo com os quais devem ser:

a) é determinada a finalidade da utilização de qualquer teste (ou testes);

b) foram desenvolvidos uma metodologia padronizada para medir os resultados dos testes e um procedimento de teste;

c) foi determinada a confiabilidade e o conteúdo informativo dos testes;

d) foi implementada a capacidade de apresentar resultados de testes no sistema de avaliação apropriado.

É denominado o sistema de utilização de testes em relação a uma determinada tarefa, organização das condições, realização de testes por disciplinas, avaliação e análise dos resultados testando. O valor numérico obtido durante as medições é resultado do teste.

Por exemplo, o salto em distância é um teste; procedimento para realizar saltos e medir resultados - testes; comprimento do salto - resultado do teste.

Os testes utilizados na educação física são baseados em ações motoras (exercícios físicos, tarefas motoras). Tais testes são chamados motor ou motor.

Atualmente não existe uma classificação unificada de testes motores. Existe uma classificação conhecida de testes de acordo com sua estrutura e indicações preferidas (ver Tabela 1).

Distinguir unidade E complexo testes. Teste de unidade serve para medir e avaliar uma característica (coordenação ou capacidade de condicionamento). Como a estrutura de cada habilidade de coordenação ou condicionamento é complexa, tal teste geralmente avalia apenas um componente dessa habilidade (por exemplo, habilidade de equilíbrio, velocidade de reação simples, força muscular do braço).

Usando educacional O teste avalia a capacidade de aprendizagem motora (com base na diferença entre a pontuação final e inicial de um determinado período de treinamento em técnicas de movimento).

Série de testes torna possível usar o mesmo teste por um longo período, quando a habilidade medida melhora significativamente. Ao mesmo tempo, as tarefas de teste aumentam consistentemente em dificuldade. Infelizmente, este tipo de teste único ainda não é amplamente utilizado tanto na ciência como na prática.

Usando teste complexo avaliar vários sinais ou componentes de habilidades diferentes ou da mesma habilidade (por exemplo, pular de um lugar - com um aceno de braços, sem um aceno de braços, até uma determinada altura). Com base nesse teste, você pode obter informações sobre o nível de habilidades de velocidade-força (com base na altura do salto), habilidades de coordenação (com base na precisão da diferenciação dos esforços de força, a diferença na altura do salto com e sem balançar os braços).

Perfil de teste consiste em vários testes separados com base nos quais são avaliadas diversas capacidades físicas diferentes (heterogêneo perfil de teste), ou múltiplas manifestações da mesma capacidade física (homogêneo perfil de teste). Os resultados dos testes podem ser apresentados na forma de um perfil, o que possibilita

Formas de testes e possibilidades de sua utilização (segundo D.-D. Blume, 1987)


tabela 1


Tipo Capacidade mensurável Sinal de estrutura Exemplo
Teste de unidade
Teste elementar contendo uma tarefa motora Um objetivo de teste, uma pontuação final de teste Teste de equilíbrio, tremômetro, teste de conexão, teste de ritmo, salto de precisão de pouso
Teste prático Uma habilidade ou aspecto (componente) de uma habilidade Uma ou mais tarefas de teste. Uma nota final de teste (período letivo) Teste de estudo geral
Série de testes Uma habilidade ou aspecto (componente) de uma habilidade Um problema de teste com opções ou vários problemas de dificuldade crescente Teste para avaliar a capacidade de conexão (comunicação)
Teste complexo
Teste complexo contendo uma tarefa Múltiplas habilidades ou aspectos (componentes) de uma habilidade Uma tarefa de teste, várias notas finais Teste de salto
Teste de tarefa reutilizável Múltiplas tarefas de teste executadas sequencialmente, múltiplas avaliações finais Teste de reação reutilizável
Perfil de teste Múltiplas habilidades ou aspectos de uma habilidade Vários testes, múltiplas avaliações finais Estrela coordenadora
Bateria de teste Múltiplas habilidades ou aspectos de uma habilidade Vários testes, uma pontuação de teste Bateria de testes para avaliação da capacidade de aprendizagem motora

compare rapidamente os resultados individuais e de grupo.

Bateria de teste também consiste em vários testes separados, cujos resultados são combinados em uma pontuação final, considerada em uma das escalas de avaliação (mais sobre isso no segundo artigo). Tal como no perfil de teste, aqui distinguimos homogêneo E heterogêneo baterias.

bateria homogênea, ou perfil homogêneo são usados ​​na avaliação de todos os componentes de uma habilidade complexa (por exemplo, capacidade de resposta). Neste caso, os resultados dos testes individuais devem estar intimamente interligados (correlacionados).

Um perfil de teste heterogêneo ou uma bateria heterogênea serve para avaliar um complexo (conjunto) de diversas habilidades motoras. Por exemplo, essas baterias de testes são usadas para avaliar habilidades de força, velocidade e resistência - são baterias de testes de aptidão física.

Em testes tarefas reutilizáveis os sujeitos realizam tarefas motoras sequencialmente e recebem notas separadas para cada solução de uma tarefa motora. Essas avaliações podem estar intimamente relacionadas entre si. Através de cálculos estatísticos apropriados, podem ser obtidas informações adicionais sobre as habilidades avaliadas. Um exemplo são as tarefas de teste de salto realizadas sequencialmente (Tabela 2).

A definição de testes motores afirma que eles avaliam as habilidades motoras e, em parte, as habilidades motoras. Portanto, de forma mais geral, distinguem-se testes de condicionamento, testes de coordenação e testes de avaliação de habilidades e habilidades motoras (técnicas de movimento). Esta sistematização é, no entanto, ainda demasiado geral.

Classificação dos testes motores de acordo com suas indicações predominantes decorre da sistematização das capacidades físicas (motoras). A este respeito, existem testes de condicionamento(para avaliar força: máxima, velocidade, resistência de força; para avaliar resistência; para avaliar habilidades de velocidade; para avaliar flexibilidade: ativa e passiva) e testes de coordenação(para estimar coor

habilidades de coordenação relacionadas a grupos independentes separados de ações motoras que medem habilidades especiais de coordenação; avaliar habilidades específicas de coordenação - capacidade de equilíbrio, orientação espacial, resposta, diferenciação de parâmetros de movimento, ritmo, rearranjo de ações motoras, coordenação (comunicação), estabilidade vestibular, relaxamento muscular voluntário.

Um grande número de testes foi desenvolvido para avaliar habilidades motoras em diversos esportes. Eles são fornecidos nos livros e manuais relevantes e não são discutidos neste artigo.

Assim, cada classificação serve como uma espécie de diretriz para selecionar (ou criar) o tipo de testes que melhor se adapta aos objetivos do teste.

3. Critérios de qualidade dos testes motores. Conforme observado acima, o conceito de “teste motor” atende ao seu propósito se o teste satisfizer os critérios básicos relevantes: confiabilidade, estabilidade, equivalência, objetividade, conteúdo de informação, bem como critérios adicionais: padronização, comparabilidade e economia.

Os testes que atendem aos requisitos de confiabilidade e conteúdo de informação são chamados de bons ou autênticos (confiáveis).

A confiabilidade de um teste refere-se ao grau de precisão com que ele avalia uma determinada habilidade motora, independentemente dos requisitos de quem o avalia. A fiabilidade é a medida em que os resultados são consistentes quando as mesmas pessoas são testadas repetidamente nas mesmas condições; é a estabilidade ou estabilidade do resultado do teste de um indivíduo quando um exercício de teste é repetido. Em outras palavras, um aluno em um grupo de disciplinas, com base nos resultados de testes repetidos (por exemplo, indicadores de salto, tempo de corrida, distância de arremesso), mantém consistentemente sua posição no ranking.

A confiabilidade do teste é determinada por meio de análise estatística de correlação, calculando o coeficiente de confiabilidade. Neste caso, vários métodos são utilizados para avaliar a confiabilidade do teste.

A estabilidade do teste baseia-se na relação entre a primeira e a segunda tentativas, repetidas após certo tempo nas mesmas condições pelo mesmo experimentador. O método de testes repetidos para determinar a confiabilidade é chamado de reteste. A estabilidade do teste depende do tipo de teste, da idade e sexo dos sujeitos e do intervalo de tempo entre o teste e o reteste. Por exemplo, o desempenho em testes de condicionamento ou características morfológicas em curtos intervalos de tempo é mais estável do que o desempenho em testes de coordenação; Para os alunos mais velhos, os resultados são mais estáveis ​​do que para os mais novos. Um novo teste geralmente é realizado no máximo uma semana depois. Em intervalos mais longos (por exemplo, após um mês), a estabilidade até mesmo de testes como a corrida de 1000 m ou o salto em distância parado torna-se visivelmente menor.

A equivalência do teste reside na correlação do resultado do teste com os resultados de outros testes do mesmo tipo. Por exemplo, o critério de equivalência é utilizado quando é necessário escolher qual teste reflete mais adequadamente as habilidades de velocidade: correr 30, 50, 60 ou 100 m.

Esta ou aquela atitude em relação a testes equivalentes (homogêneos) depende de muitas razões. Caso seja necessário aumentar a confiabilidade das avaliações ou conclusões dos estudos, é aconselhável utilizar dois ou mais testes equivalentes. E se a tarefa for criar uma bateria contendo um mínimo de testes, então apenas um dos testes equivalentes deverá ser utilizado.


Tabela 2 Tarefas do teste de salto realizadas sequencialmente (de acordo com D.-D. Blume, 1987)

№№ Objetivo do teste Avaliação de resultados Habilidade
Salte até a altura máxima sem balançar os braços Altura (cm Força de salto
Salte para a altura máxima com balanço do braço Altura (cm Poder de salto e capacidade de conexão
Salte para a altura máxima com balanço do braço e salte Altura (cm Conectividade e força de salto
10 saltos com balanços de braços a uma distância igual a 2/3 da altura máxima do salto, como no problema 2 Soma dos desvios de uma determinada marca Capacidade de diferenciar parâmetros de potência dos movimentos
A diferença entre os resultados da resolução de um problema e de dois problemas ... cm Capacidade de conexão (comunicação)

Tal bateria, como observado, é heterogênea, pois os testes nela incluídos medem diferentes habilidades motoras. Um exemplo de bateria de testes heterogênea é a corrida de 30 m, flexões, flexão para frente e corrida de 1000 m. Outros exemplos de tais complexos serão apresentados em uma publicação separada.

A confiabilidade dos testes também é determinada pela comparação das pontuações médias das tentativas pares e ímpares incluídas no teste. Por exemplo, a precisão média de arremesso de uma bola em um alvo em 1, 3, 5, 7 e 9 tentativas é comparada com a precisão média de arremessos em 2, 4, 6, 8 e 10 tentativas. Este método de avaliação da confiabilidade é denominado método de duplicação, ou divisão, e é utilizado principalmente na avaliação de habilidades de coordenação e caso o número de tentativas que formam o resultado do teste seja de pelo menos seis.

Sob objetividade(consistência) de um teste refere-se ao grau de consistência dos resultados obtidos nos mesmos assuntos por diferentes experimentadores (professores, juízes, especialistas).

a) horário, local e condições climáticas do teste;

b) suporte unificado de materiais e hardware;

c) fatores psicofisiológicos (volume e intensidade da carga, motivação);

d) apresentação de informações (declaração verbal precisa da tarefa de teste, explicação e demonstração).

O cumprimento destas condições cria o chamado objetividade do teste. Eles também falam sobre objetividade interpretativa, no que diz respeito ao grau de independência de interpretação dos resultados dos testes por diferentes experimentadores.

Em geral, como observam os especialistas, a confiabilidade dos testes pode ser aumentada de várias maneiras: padronização mais rigorosa dos testes (ver acima), aumento no número de tentativas, melhor motivação dos sujeitos, aumento no número de avaliadores (juízes , especialistas), um aumento na consistência das suas opiniões, um aumento no número de testes equivalentes .

Não existem valores fixos para indicadores de confiabilidade de teste. Na maioria dos casos, são utilizadas as seguintes recomendações: 0,95-0,99 - excelente confiabilidade; 0,90-0,94 - bom; 0,80-0,89 - aceitável; 0,70-0,79 - ruim; 0,60-0,69 - duvidoso para avaliações individuais, o teste só é adequado para caracterizar um grupo de sujeitos. Conteúdo informativo de um teste é o grau de precisão com que ele mede a habilidade ou habilidade motora que está sendo avaliada. Na literatura estrangeira e nacional, em vez da palavra “informatividade”, utiliza-se o termo “validade” (do inglês validade - validade, realidade, legalidade). Na verdade, em relação ao conteúdo da informação, o pesquisador responde a duas perguntas: o que esse teste específico (bateria de testes) mede e qual o grau de precisão da medição.

Distinguir validade lógico (substantivo), empírico (baseado em dados experimentais) e preditivo. Informações mais detalhadas sobre este tópico estão contidas nos já clássicos livros didáticos para estudantes de universidades de educação física (Metrologia Esportiva / Editado por V.M. Zatsiorsky. - M.: FiS, 1982. - P. 73-80; Godik M.A. Metrologia Esportiva. - M .: FiS, 1988), bem como em diversos manuais modernos.

Critérios de teste adicionais importantes, conforme observado, são padronização, comparabilidade e eficiência.

A essência racionamentoé que, com base nos resultados dos testes, é possível criar padrões de particular importância para a prática (isso será discutido em um artigo separado).

Comparabilidade teste é a capacidade de comparar resultados obtidos de um teste ou de várias formas de testes paralelos (homogêneos). Em termos práticos, a utilização de testes motores comparáveis ​​reduz a probabilidade de que, como resultado da utilização regular do mesmo teste, o grau de habilidade seja avaliado não apenas e não tanto, como o nível de habilidade. Ao mesmo tempo, resultados de testes comparáveis ​​aumentam a fiabilidade das conclusões.

A essência eficiência como critério para a qualidade do teste é que a realização do teste não exija muito tempo, grandes custos de material e a participação de muitos auxiliares. Por exemplo, uma bateria de seis testes para determinar a aptidão física, recomendada no “Programa abrangente de educação física para alunos das séries I-XI” (M.: Prosveshcheniye, 2005-2006), pode ser realizada por um professor com dois assistentes em uma aula, examinando 25 a 30 crianças.

Organização de testes de aptidão física de crianças em idade escolar.O segundo problema importante de teste de habilidades motoras (lembre-se que o primeiro - a seleção de testes informativos - foi discutido anteriormente) é a organização de seu uso.

O professor de educação física deve determinar quando é melhor organizar os testes, como realizá-los em sala de aula e com que frequência os testes devem ser realizados.

Salvar testes são estabelecidos de acordo com o currículo escolar, que prevê testes obrigatórios de aptidão física dos alunos duas vezes ao dia. É aconselhável realizar o primeiro teste na segunda ou terceira semana de setembro (após o processo educativo ter voltado à normalidade), e o segundo - duas semanas antes do final do ano letivo (numa data posterior pode haver dificuldades organizacionais causada pelos próximos exames e feriados).

O conhecimento das mudanças anuais no desenvolvimento das habilidades motoras dos escolares permite ao professor fazer os ajustes adequados no processo de educação física para o próximo ano letivo. Contudo, o professor pode e deve realizar testes mais frequentes e exercer o chamado controle operacional. É aconselhável realizar este procedimento, por exemplo, para determinar mudanças no nível de velocidade, capacidade de força e resistência sob a influência das aulas de atletismo durante o primeiro trimestre, etc. Para tanto, o professor pode utilizar testes para avaliar as habilidades de coordenação das crianças no início e ao final do domínio do material didático do currículo escolar, por exemplo, em jogos esportivos, para identificar alterações nos indicadores de desenvolvimento dessas habilidades. .

Deve-se ter em mente que a variedade de problemas pedagógicos a serem resolvidos não permite dotar o professor de uma metodologia de teste unificada, das mesmas regras de realização de testes e avaliação de resultados de testes. Isto exige que os experimentadores (professores) demonstrem independência na resolução de questões teóricas, metodológicas e organizacionais de testes.

Testando em aula deve estar vinculado ao seu conteúdo. Ou seja, o teste (ou testes) utilizado, observados os requisitos adequados para ele como método de pesquisa, deve (deveria) ser organicamente incluído nos exercícios físicos planejados. Se, por exemplo, os alunos precisam determinar o nível de desenvolvimento das habilidades de velocidade ou resistência, então os testes necessários devem ser agendados na parte da aula em que serão resolvidas as tarefas de desenvolvimento das habilidades físicas correspondentes.

Frequência de testeé em grande parte determinado pelo ritmo de desenvolvimento de habilidades físicas específicas, idade, sexo e características individuais de seu desenvolvimento.

Por exemplo, para alcançar um aumento significativo na velocidade, resistência ou força, são necessários vários meses de exercício regular (treinamento). Ao mesmo tempo, para obter um aumento significativo na flexibilidade ou nas habilidades de coordenação individual, são necessários apenas 4 a 12 treinos. Se você começar do zero, poderá obter melhorias em uma ou outra qualidade física em menos tempo. Mas para melhorar a mesma qualidade, quando se atinge um nível elevado num aluno, leva mais tempo. Nesse sentido, o professor deve estudar mais profundamente as características do desenvolvimento e aprimoramento das diversas habilidades motoras em crianças de diferentes idades e gêneros.

Ao avaliar a aptidão física geral dos alunos, conforme observado, é possível utilizar uma grande variedade de baterias de testes, cuja escolha depende dos objetivos específicos do teste e da disponibilidade das condições necessárias. Porém, pelo fato de os resultados dos testes obtidos só poderem ser avaliados por comparação, é aconselhável escolher testes que estejam amplamente representados na teoria e na prática da educação física infantil. Por exemplo, confie naqueles recomendados no “Programa abrangente de educação física para alunos das séries I-XI de uma escola abrangente” (M.: Prosveshcheniye, 2004-2006).

Para comparar o nível geral de aptidão física de um aluno ou grupo de alunos por meio de um conjunto de testes, eles recorrem à conversão dos resultados dos testes em pontos ou pontuações (falaremos sobre isso com mais detalhes no próximo artigo). A mudança na quantidade de pontos durante testes repetidos permite avaliar o progresso de uma criança individual e de um grupo de crianças.

Educação Física na escola, 2007, nº 6


Introdução

Relevância. O problema de testar a aptidão física de uma pessoa é um dos mais desenvolvidos na teoria e metodologia da educação física. Nas últimas décadas, uma enorme e variada quantidade de material foi acumulada: definição de tarefas de teste; condicionalidade dos resultados dos testes por vários fatores; desenvolvimento de testes para avaliar habilidades individuais de condicionamento e coordenação; programas de testes que caracterizam a aptidão física de crianças e adolescentes de 11 a 15 anos, adotados na Federação Russa, em outros países da CEI e em muitos países estrangeiros.

Testar as qualidades motoras de escolares é um dos métodos mais importantes e básicos de controle pedagógico.

Ajuda a resolver uma série de problemas pedagógicos complexos: identificar os níveis de desenvolvimento das capacidades de condicionamento e coordenação, avaliar a qualidade da prontidão técnica e tática. Com base nos resultados do teste, você pode:

comparar a preparação de alunos individuais e de grupos inteiros que vivem em diferentes regiões e países;

realizar seleção esportiva para a prática de um determinado esporte, para participação em competições;

exercer um controle amplamente objetivo sobre a educação (treinamento) de crianças em idade escolar e jovens atletas;

identificar as vantagens e desvantagens dos meios utilizados, métodos de ensino e formas de organização das aulas;

por fim, fundamentar as normas (específicas por idade, individuais) de aptidão física de crianças e adolescentes.

Juntamente com as tarefas científicas na prática em diferentes países, as tarefas de teste resumem-se ao seguinte:

ensinar os próprios alunos a determinar o nível de sua aptidão física e planejar para si os conjuntos de exercícios físicos necessários;

incentivar os alunos a melhorarem ainda mais a sua condição física (forma);

conhecer não tanto o nível inicial de desenvolvimento da habilidade motora, mas sua mudança ao longo de um determinado tempo;

incentivar os alunos que alcançaram resultados elevados, mas não tanto para um nível alto, mas para um aumento planejado nos resultados pessoais.

Neste trabalho contaremos com os testes recomendados no “Programa abrangente de educação física para alunos do 1º ao 11º ano de uma escola abrangente” elaborado por V.I. Lyakh e G.B. Maxson.

Objetivo do estudo: fundamentar a metodologia de teste das qualidades físicas de alunos do ensino fundamental.

Hipótese de pesquisa: o uso de testes é um método preciso e informativo para determinar o desenvolvimento das qualidades físicas.

Objeto de estudo: a testagem como método de controle pedagógico.

Objeto de pesquisa: testar as qualidades dos alunos.


Capítulo 1. VISÕES SOBRE A TEORIA DOS TESTES DE APTIDÃO FÍSICA

1.1 Breve informação histórica sobre a teoria de teste de habilidades motoras

Há muito tempo que as pessoas se interessam em medir as conquistas motoras humanas. As primeiras informações sobre como medir a distância de saltos longos datam de 664 aC. e. Nos XXIX Jogos Olímpicos da antiguidade em Olímpia, Chionis de Esparta saltou uma distância de 52 pés, ou seja, aproximadamente 16,66 m, é claro que se trata de um salto repetido.

Sabe-se que um dos fundadores da educação física, J. Ch. F. Guts-Muts, 1759-1839, mediu o desempenho motor de seus alunos e fez registros precisos de seus resultados. E para melhorar suas conquistas, ele lhes concedeu “prêmios” - coroas de carvalho (G. Sorm, 1977). Nos anos trinta do século XIX. Eiselen, funcionário do famoso professor alemão F. L. Yahn, com base nas medições feitas, compilou uma tabela para determinar o desempenho no salto. Como você pode ver, contém três gradações (Tabela 1).

Tabela 1. - Resultados em saltos (em cm) para homens (fonte: K. Mekota, P. Blahus, 1983)

elementar

Através da cabra


Note que já em meados do século XIX. na Alemanha, ao determinar o comprimento ou a altura de um salto, era recomendado levar em consideração os parâmetros corporais.

Medições precisas de conquistas esportivas, inclusive recordes, têm sido realizadas desde meados do século XIX, e regularmente desde 1896, desde os Jogos Olímpicos do nosso tempo.

Há muito tempo que as pessoas tentam medir as capacidades de força. As primeiras informações interessantes sobre o assunto datam de 1741, quando, por meio de instrumentos simples, foi possível medir a força do lutador Thomas Topham. Ele levantou um peso cuja massa ultrapassava 830 kg (G. Sorm, 1977). As capacidades de força dos alunos já foram medidas por Guts-Muts e Jan, utilizando medidores de força simples. Mas o primeiro dinamômetro, o progenitor do dinamômetro moderno, foi projetado por Reiniger na França em 1807. Na prática da educação física dos alunos do ginásio de Paris, foi utilizado por F. Amoros em 1821. No século XIX. Para medir a força, também utilizamos levantar o corpo pendurado em uma barra, dobrar e esticar os braços de apoio e levantar pesos.

Os precursores das baterias modernas de testes para determinar a aptidão física são os eventos esportivos e de ginástica geral. O primeiro é o antigo pentatlo, introduzido na prática nos XVIII Jogos Olímpicos da antiguidade em 708 aC. e. Incluía lançamento de disco, lançamento de dardo, salto, corrida e luta livre. O decatlo tal como o conhecemos foi incluído pela primeira vez no programa de competição dos III Jogos Olímpicos (St. Louis, EUA, 1904), e o pentatlo moderno nos V Jogos Olímpicos (Estocolmo, Suécia, 1912). A composição dos exercícios nestas competições é heterogênea; o atleta precisa demonstrar preparação em diferentes disciplinas. Então, ele deve ser fisicamente versátil.

Provavelmente, tendo em conta esta ideia, por volta da mesma época (início do século XX), foram introduzidos na prática conjuntos de exercícios para crianças, jovens e adultos, que determinavam de forma abrangente a aptidão física de uma pessoa. Pela primeira vez, tais testes complexos foram introduzidos na Suécia (1906), depois na Alemanha (1913) e ainda mais tarde - na Áustria e na URSS (Rússia) - o complexo “Pronto para o Trabalho e a Defesa” (1931).

Os antecessores dos testes motores modernos surgiram no final do século XIX e início do século XX. Em particular, D. A. Sargent introduziu na prática o “teste de força” na Universidade de Harvard, que, além da dinamometria e da espirometria, incluía empurrar os braços para cima, levantar e abaixar o corpo. Desde 1890, este teste tem sido utilizado em 15 universidades dos EUA. O francês G. Hebert criou um teste, cuja publicação apareceu em 1911. Inclui 12 tarefas motoras: correr em diferentes distâncias, ficar em pé e correr, saltar, lançar, levantar repetidamente um projétil de 40 quilos (peso), nadar e mergulhar .

Vejamos brevemente as fontes de informação que examinam os resultados da pesquisa científica realizada por médicos e psicólogos. Pesquisas realizadas por médicos até o final do século XIX. estavam mais frequentemente focados na alteração de dados morfológicos externos, bem como na identificação de assimetrias. A antropometria utilizada para esses fins acompanhou o uso da dinamometria. Assim, o médico belga A. Quetelet, após extensa pesquisa, publicou um trabalho em 1838, segundo o qual os resultados médios da coluna vertebral (coluna) de mulheres e homens de 25 anos são de 53 e 82 kg, respectivamente. Em 1884, o italiano A. Mosso estudou resistência muscular. Para isso, utilizou um ergógrafo, que lhe permitiu observar o desenvolvimento da fadiga com repetidas flexões do dedo.

A ergometria moderna remonta a 1707. Naquela época, foi criado um aparelho que permitia medir a frequência cardíaca por minuto. O protótipo do ergômetro atual foi projetado por G. A. Him em 1858. Cicloergômetros e esteiras foram criados posteriormente, em 1889-1913.

No final do século XIX - início do século XX. Começa a pesquisa sistemática por psicólogos. O tempo de reação está sendo estudado e testes estão sendo desenvolvidos para determinar a coordenação motora e o ritmo. O conceito de “tempo de reação” foi introduzido na ciência pelo fisiologista austríaco S. Exner em 1873. Os alunos do fundador da psicologia experimental W. Wundt, no laboratório criado em 1879 em Leipzig, realizaram extensas medições de tempo ocioso e reações complexas. Os primeiros testes de coordenação motora incluíram batidas e diferentes tipos de mira. Uma das primeiras tentativas de estudar a pontaria é o teste de X. Frenkel, proposto por ele em 1900. Sua essência era segurar o dedo indicador em todos os tipos de furos, anéis, etc. e tremor dinâmico."

Tentando determinar o talento musical, em 1915, S. E. Seashore examinou a habilidade de ritmo.

A teoria dos testes remonta, no entanto, ao final do século XIX e início do século XX. Foi então que foram lançadas as bases da estatística matemática, sem as quais a moderna teoria dos testes não pode prescindir. Nesse caminho, os méritos indiscutíveis pertencem ao geneticista e antropólogo F. Galton, aos matemáticos Pearson e U. Youle e ao matemático-psicólogo S. Spearman. Foram esses cientistas que criaram um novo ramo da biologia - a biometria, que se baseia em medições e métodos estatísticos, como correlação, regressão, etc. Criado por Pearson (1901) e Spearman (1904), um complexo método matemático-estático - análise fatorial - permitiu que o cientista inglês Bart (S. Burt) a aplicasse em 1925 à análise dos resultados de testes motores de alunos em escolas de Londres. Como resultado, foram identificadas capacidades físicas como força, velocidade, agilidade e resistência. Um fator denominado “aptidão física geral” também se destacou. Um pouco mais tarde, foi publicada uma das obras mais famosas do cientista americano McCloy (S.N. McCloy, 1934) - “Medição das habilidades motoras gerais”. No início dos anos 40. os cientistas chegam à conclusão sobre a complexa estrutura das habilidades motoras humanas. Utilizando vários testes motores em combinação com o uso de modelos matemáticos desenvolvidos paralelamente (análise simples e multivariada), a teoria dos testes incorporou firmemente os conceitos de cinco habilidades motoras: força, velocidade, coordenação motora, resistência e flexibilidade.

Os testes motores na ex-URSS foram usados ​​para desenvolver padrões de controle para o complexo “Pronto para o Trabalho e Defesa” (1931). Existe um conhecido teste de habilidades motoras (principalmente coordenação de movimentos), que foi proposto para crianças e jovens por N. I. Ozeretsky (1923). O trabalho sobre a medição das capacidades motoras de crianças e jovens surgiu na mesma época na Alemanha, Polónia, Checoslováquia e outros países.

Avanços significativos no desenvolvimento da teoria de teste da aptidão física humana ocorreram no final dos anos 50 e 60. Século XX O fundador desta teoria é provavelmente o americano McCloy, que em coautoria com M. D. Young publicou em 1954 a monografia “Testes e Medição em Cuidados de Saúde e Educação Física”, que posteriormente foi utilizada por muitos autores de trabalhos semelhantes.

O livro “Estrutura e Medição das Habilidades Físicas” do famoso pesquisador americano E.A. foi e ainda é de grande importância teórica. Fleishman (1964). O livro não apenas reflete as questões teóricas e metodológicas do problema de testar essas habilidades, mas também descreve resultados específicos, opções de abordagens, estudos de confiabilidade, conteúdo de informação (validade) dos testes, e também apresenta importante material factual sobre a estrutura fatorial. de testes motores de diversas habilidades motoras.

Os livros de V. M. são de grande importância para a teoria dos testes de habilidades físicas. Zatsiorsky “Qualidades Físicas de um Atleta” (1966) e “Cibernética, Matemática, Esportes” (1969).

Breves informações históricas sobre testes de aptidão física na ex-URSS podem ser encontradas nas publicações de E.Ya. Bondarevsky, V. V. Kudryavtsev, Yu.I. Sbrueva, V.G. Panaeva, B.G. Fadeeva, P.A. Vinogradova e outros.

Convencionalmente, podem ser distinguidos três estágios de testes na URSS (Rússia):

Etapa 1 - 1920-1940 - período de exames em massa para estudar os principais indicadores do desenvolvimento físico e do nível de prontidão motora, surgindo nesta base os padrões do complexo “Pronto para o Trabalho e Defesa”.

Fase 2 – 1946-1960 – estudo da prontidão motora em função das características morfofuncionais de forma a criar os pré-requisitos para uma fundamentação científica e teórica da sua relação.

Etapa 3 - de 1961 até a atualidade - período de estudos abrangentes da condição física da população em função das características climáticas e geográficas das regiões do país.

Pesquisas realizadas nesse período mostram que os indicadores de desenvolvimento físico e aptidão motora das pessoas que vivem nas diferentes regiões do país são determinados pela influência de fatores biológicos, climático-geográficos, socioeconômicos e outros fatores constantes e variáveis. De acordo com o programa abrangente unificado desenvolvido, composto por quatro seções (aptidão física, desenvolvimento físico, estado funcional dos principais sistemas do corpo, informações sociológicas), em 1981 foi realizado um levantamento abrangente da condição física da população de diferentes idades e sexos em vários regiões da URSS foi realizado.

Um pouco mais tarde, nossos especialistas notaram que o nível de desenvolvimento físico e preparação de uma pessoa tem sido estudado há mais de 100 anos. Porém, apesar do número relativamente grande de trabalhos neste sentido, não é possível realizar uma análise profunda e abrangente dos dados obtidos, uma vez que os estudos foram realizados com diferentes contingentes, em diferentes períodos sazonais, utilizando diferentes métodos, testando programas e processamento matemático e estatístico da informação recebida.

Neste sentido, a ênfase principal foi colocada no desenvolvimento de uma metodologia e na organização de um sistema unificado de recolha de dados, tendo em conta os requisitos metrológicos e metodológicos e na criação de um banco de dados em computador.

Em meados dos anos 80. No século passado, foi realizada uma pesquisa massiva em toda a União com cerca de 200.000 pessoas de 6 a 60 anos de idade, o que confirmou as conclusões do estudo anterior.

Desde o início do surgimento de abordagens científicas para testar a aptidão física humana, os investigadores têm procurado obter respostas para duas questões principais:

quais testes devem ser selecionados para avaliar o nível de desenvolvimento de uma determinada capacidade motora (física) e o nível de aptidão física de crianças, adolescentes e adultos;

Quantos testes são necessários para obter informações mínimas e ao mesmo tempo suficientes sobre a condição física de uma pessoa?

Ainda não existem ideias comuns no mundo sobre essas questões. Ao mesmo tempo, estão cada vez mais próximas as ideias sobre programas de testes (baterias) que caracterizam a aptidão física de crianças e adolescentes de 6 a 17 anos, adotados em diversos países.

1.2 O conceito de “teste” e classificação dos testes motores (motores)

O termo teste traduzido do inglês significa “amostra, teste”.

Os testes são usados ​​para resolver muitos problemas científicos e práticos. Entre outros métodos de avaliação da condição física de uma pessoa (observação, avaliações de especialistas), o método de teste (no nosso caso, motor ou motor) é o principal método utilizado na metrologia esportiva e outras disciplinas científicas (“o estudo dos movimentos”, teoria e métodos de educação física).

Um teste é uma medida ou teste realizado para determinar a habilidade ou condição de uma pessoa. Pode haver muitas dessas medições, inclusive com base no uso de uma ampla variedade de exercícios físicos. Porém, nem todo exercício físico ou teste pode ser considerado um teste. Somente os testes (amostras) que atendem a requisitos especiais podem ser usados ​​como testes:

a finalidade de qualquer teste (ou testes) deve ser definida;

Uma metodologia de medição de teste padronizada e um procedimento de teste devem ser desenvolvidos;

é necessário determinar a confiabilidade e o conteúdo informativo dos testes;

os resultados dos testes podem ser apresentados no sistema de avaliação apropriado.

O sistema de utilização de testes de acordo com a tarefa, organização das condições, realização dos testes pelos sujeitos, avaliação e análise dos resultados é denominado teste, e o valor numérico obtido durante as medições é o resultado do teste (teste). Por exemplo, o salto em distância é um teste; procedimento de salto e medição de resultados - testes; comprimento do salto é o resultado do teste.

Os testes utilizados na educação física são baseados em ações motoras (exercícios físicos, tarefas motoras). Esses testes são chamados de testes motores ou de movimento.

Atualmente não existe uma classificação unificada de testes motores. Existe uma classificação conhecida dos exames de acordo com sua estrutura e suas indicações primárias (Tabela 2).

Como segue na tabela, é feita uma distinção entre testes simples e complexos. Um único teste é usado para medir e avaliar uma característica (coordenação ou capacidade de condicionamento). Como, como vemos, a estrutura de cada habilidade de coordenação ou condicionamento é complexa, tal teste, via de regra, avalia apenas um componente de tal habilidade (por exemplo, a capacidade de equilíbrio, a velocidade de uma reação simples, a força dos músculos do braço).

Tabela 2. - Formas de testes e possibilidades de sua utilização (segundo D.D. Blume, 1987)

Capacidade mensurável

Sinal de estrutura

Teste de unidade

Teste elementar contendo uma tarefa motora

Uma habilidade ou aspecto (componente) de uma habilidade

Um objetivo de teste, uma pontuação final de teste

Teste de equilíbrio, tremometria, teste de conectividade, teste de ritmo

Teste prático

Uma ou mais tarefas de teste. Uma pontuação final no teste

Teste de estudo geral

Série de testes

Uma tarefa de teste com opções ou várias tarefas de maior dificuldade

Teste para avaliar a capacidade de conexão (comunicação)

Teste complexo

Teste complexo contendo uma tarefa

Múltiplas habilidades ou aspectos (componentes) de uma habilidade

Uma tarefa de teste, várias notas finais

Teste de salto

Teste de tarefa reutilizável

Múltiplas tarefas de teste executadas sequencialmente, múltiplas avaliações finais

Teste de reação reutilizável

Perfil de teste

Vários testes, múltiplas avaliações finais

Tarefa de coordenação

Bateria de teste

Vários testes, uma pontuação de teste

Bateria de testes para avaliar a capacidade de aprendizagem do movimento


Por meio de um teste de treinamento, avalia-se a capacidade de aprendizagem motora (com base na diferença entre a pontuação final e a inicial de um determinado período de treinamento em técnicas de movimento).

Uma série de testes permite utilizar o mesmo teste durante um longo período de tempo, quando a capacidade de ser medido melhora significativamente. Ao mesmo tempo, as tarefas de teste aumentam consistentemente em dificuldade. Infelizmente, este tipo de teste ainda não é suficientemente utilizado tanto na ciência como na prática.

Por meio de um teste complexo, são avaliados vários sinais ou componentes de habilidade diferente ou igual, por exemplo, pular de um lugar (com um aceno de braços, sem um aceno de braços, até uma determinada altura). Com base neste teste, você pode obter informações sobre o nível de habilidades de velocidade-força (com base na altura do salto), habilidades de coordenação (com base na precisão da diferenciação dos esforços de força, a diferença na altura do salto com e sem balançar os braços).

Um perfil de teste consiste em testes individuais que avaliam diversas capacidades físicas diferentes (perfil de teste heterogêneo) ou diferentes manifestações da mesma capacidade física (perfil de teste homogêneo). Os resultados dos testes podem ser apresentados em forma de perfil, permitindo a comparação dos resultados individuais e de grupo.

A bateria de testes é também composta por vários testes individuais, cujos resultados são combinados numa pontuação final, considerada numa das escalas de avaliação (ver Capítulo 2). Tal como no perfil de teste, é feita uma distinção entre baterias homogêneas e heterogêneas. A bateria homogênea, ou perfil homogêneo, encontra aplicação na avaliação de todos os componentes de uma capacidade complexa (por exemplo, capacidade de reação). Neste caso, os resultados dos testes individuais devem estar intimamente interligados (devem correlacionar).

Em testes de tarefas múltiplas, os sujeitos realizam tarefas motoras sequencialmente e recebem notas separadas para cada solução de uma tarefa motora. Essas avaliações podem estar intimamente relacionadas entre si. Através de cálculos estatísticos apropriados, podem ser obtidas informações adicionais sobre as habilidades avaliadas. Um exemplo são as tarefas de teste de salto resolvidas sequencialmente (Tabela 3).

Tabela 3. - Tarefas de teste de salto resolvidas sequencialmente

Objetivo do teste

Avaliação de resultados

Habilidade

Salto máximo sem balançar os braços

Força de salto

Salto máximo com balanço do braço

Poder de salto e capacidade de conexão

Salto máximo com um aceno de braços e um salto

Conectividade e força de salto

10 saltos com balanços de braços a uma distância igual a 2/3 da altura máxima do salto, como no problema 2

Soma dos desvios de uma determinada marca

Capacidade de diferenciar parâmetros de potência dos movimentos

A diferença entre os resultados para resolver um problema e dois problemas

Capacidade de conexão (comunicação)

(de acordo com DD Blume, 1987)

A definição de testes motores afirma que eles avaliam as habilidades motoras e, em parte, as habilidades motoras. Na forma mais geral, existem testes de condicionamento, testes de coordenação e testes de avaliação de habilidades e habilidades motoras (técnicas de movimento). Esta sistematização é, no entanto, ainda demasiado geral. A classificação dos testes motores de acordo com suas indicações primárias decorre da sistematização das habilidades físicas (motoras).

A este respeito, existem:

1) testes de condição:

avaliar força: máxima, velocidade, resistência de força;

avaliar a resistência;

avaliar habilidades de velocidade;

avaliar a flexibilidade – ativa e passiva;

2) testes de coordenação:

avaliar habilidades de coordenação relacionadas a grupos individuais independentes de ações motoras que medem habilidades especiais de coordenação;

avaliar habilidades específicas de coordenação - habilidades de equilíbrio, orientação no espaço, resposta, diferenciação de parâmetros de movimento, ritmo, reestruturação de ações motoras, coordenação (comunicação),

estabilidade vestibular, relaxamento muscular voluntário.

O conceito de “testes para avaliação de habilidades motoras” não é discutido neste trabalho. Exemplos de testes são fornecidos no Apêndice 2.

Assim, cada classificação é uma espécie de diretriz para selecionar (ou criar) o tipo de teste mais consistente com as tarefas de teste.

1.3 Critérios de qualidade para testes motores

O conceito de “teste de motor” atende ao seu propósito quando o teste satisfaz os requisitos relevantes.

Os testes que atendem aos requisitos de confiabilidade e conteúdo de informação são chamados de bons ou autênticos (confiáveis).

A confiabilidade de um teste refere-se ao grau de precisão com que ele avalia uma habilidade motora específica, independentemente das exigências de quem o avalia. A fiabilidade é a medida em que os resultados são consistentes quando as mesmas pessoas são testadas repetidamente nas mesmas condições; Esta é a estabilidade ou estabilidade do resultado do teste de um indivíduo quando o exercício de controle é repetido. Por outras palavras, uma criança num grupo de sujeitos, com base nos resultados de testes repetidos (por exemplo, desempenho de salto, tempo de corrida, distância de lançamento), mantém consistentemente o seu lugar no ranking.

A confiabilidade do teste é determinada por meio de análise estatística de correlação, calculando o coeficiente de confiabilidade. Neste caso, vários métodos são utilizados para avaliar a confiabilidade do teste.

A estabilidade do teste baseia-se na relação entre a primeira e a segunda tentativas, repetidas após certo tempo nas mesmas condições pelo mesmo experimentador. O método de testes repetidos para determinar a confiabilidade é chamado de reteste. A estabilidade do teste depende do tipo de teste, da idade e sexo dos sujeitos e do intervalo de tempo entre o teste e o reteste. Por exemplo, o desempenho em testes de condicionamento ou características morfológicas em curtos intervalos de tempo é mais estável do que o desempenho em testes de coordenação; As crianças mais velhas apresentam resultados mais estáveis ​​do que as mais novas. Um novo teste geralmente é realizado no máximo uma semana depois. Em intervalos mais longos (por exemplo, após um mês), a estabilidade até mesmo de testes como a corrida de 1000 m ou o salto em distância parado torna-se visivelmente menor.

A equivalência do teste reside na correlação do resultado do teste com os resultados de outros testes do mesmo tipo (por exemplo, quando é necessário escolher qual teste reflete mais adequadamente as habilidades de velocidade: correr 30, 50, 60 ou 100 m).

A atitude em relação a testes equivalentes (homogéneos) depende de muitas razões. Caso seja necessário aumentar a confiabilidade das avaliações ou conclusões de pesquisas, é aconselhável utilizar dois ou mais testes equivalentes. E se a tarefa for criar uma bateria contendo um mínimo de testes, apenas um dos testes equivalentes deverá ser utilizado. Tal bateria, como observado, é heterogênea, pois os testes nela incluídos medem diferentes habilidades motoras. Um exemplo de bateria heterogênea de testes é corrida de 30 m, pull-up, flexão para frente e corrida de 1000 m.

A confiabilidade dos testes também é determinada pela comparação das pontuações médias das tentativas pares e ímpares incluídas no teste. Por exemplo, a precisão média dos tiros ao alvo de 1, 3, 5, 7 e 9 tentativas é comparada com a precisão média dos tiros de 2, 4, 6, 8 e 10 tentativas. Este método de avaliação da confiabilidade é denominado método de duplicação ou divisão. É utilizado principalmente na avaliação das habilidades de coordenação e caso o número de tentativas que formam o resultado do teste seja de pelo menos 6.

A objetividade (consistência) de um teste é entendida como o grau de consistência dos resultados obtidos nos mesmos sujeitos por diferentes experimentadores (professores, juízes, especialistas).

Para aumentar a objetividade dos testes, é necessário cumprir as condições de teste padrão:

tempo de teste, localização, condições climáticas;

suporte unificado de material e hardware;

fatores psicofisiológicos (volume e intensidade de carga, motivação);

apresentação de informações (declaração verbal precisa da tarefa de teste, explicação e demonstração).

Esta é a chamada objetividade do teste. Eles também falam sobre objetividade interpretativa, que diz respeito ao grau de independência na interpretação dos resultados dos testes por diferentes experimentadores.

Em geral, como observam os especialistas, a confiabilidade dos testes pode ser aumentada de várias maneiras: padronização mais rigorosa dos testes (ver acima), aumento no número de tentativas, melhor motivação dos sujeitos, aumento no número de avaliadores (juízes , especialistas), um aumento na consistência das suas opiniões, um aumento no número de testes equivalentes .

Não existem valores fixos para indicadores de confiabilidade de teste. Na maioria dos casos, são utilizadas as seguintes recomendações: 0,95-0,99 - excelente confiabilidade; 0,90-0,94 - bom; 0,80-0,89 - aceitável; 0,70-0,79 - ruim; 0,60-- 0,69 - duvidoso para avaliações individuais, o teste só é adequado para caracterizar um grupo de sujeitos.

A validade de um teste é o grau de precisão com que ele mede a habilidade ou habilidade motora que está sendo avaliada. Na literatura estrangeira (e nacional), em vez da palavra “informatividade”, utiliza-se o termo “validade” (do inglês validade - validade, realidade, legalidade). Na verdade, ao falar sobre o conteúdo da informação, o pesquisador responde a duas perguntas: o que esse teste específico (bateria de testes) mede e qual o grau de precisão da medição?

Existem vários tipos de validade: lógica (substantiva), empírica (baseada em dados experimentais) e preditiva (2)

Critérios de teste adicionais importantes são padronização, comparabilidade e eficiência.

A essência da padronização é que, com base nos resultados dos testes, é possível criar padrões de particular importância para a prática.

A comparabilidade de testes é a capacidade de comparar resultados obtidos de uma ou mais formas de testes paralelos (homogêneos). Em termos práticos, a utilização de testes motores comparáveis ​​reduz a probabilidade de que, como resultado da utilização regular do mesmo teste, o grau de habilidade seja avaliado não apenas e não tanto, como o nível de habilidade. Ao mesmo tempo, resultados de testes comparáveis ​​aumentam a fiabilidade das conclusões.

A essência da economia como critério de qualidade de um teste é que a realização do teste não requer muito tempo, grandes custos de material e a participação de muitos auxiliares.


Conclusão

Os antecessores dos testes motores modernos surgiram no final do século XIX e início do século XX. Desde 1920, em nosso país são realizados exames em massa para estudar os principais indicadores do desenvolvimento físico e do nível de prontidão motora. Com base nesses dados, foram desenvolvidos os padrões do complexo “Pronto para o Trabalho e a Defesa”.

A teoria dos testes incorporou firmemente os conceitos de cinco habilidades motoras: força, velocidade, coordenação, resistência e flexibilidade. Várias baterias de testes diferentes foram desenvolvidas para avaliá-los.

Dentre os métodos de avaliação da condição física de uma pessoa, o método de teste é o principal. Existem testes simples e complexos. Além disso, no âmbito da sistematização das habilidades físicas (motoras), os testes são classificados em condicionamento e coordenação.

Todos os testes devem atender a requisitos específicos. Os principais critérios incluem: confiabilidade, estabilidade, equivalência, objetividade, conteúdo da informação (validade). Os critérios adicionais incluem: padronização, comparabilidade e eficiência.

Portanto, ao escolher determinados testes, todos esses requisitos devem ser atendidos. Para aumentar a objetividade dos testes, deve-se aderir a uma padronização mais rigorosa dos testes, aumentar o número de tentativas, melhorar a motivação dos sujeitos, aumentar o número de avaliadores (juízes, especialistas), aumentar a consistência de seus pareceres e um aumento no número de testes equivalentes.


Capítulo 2. Objetivos, métodos e organização do estudo

2.1 Objetivos da pesquisa:

1. Estudar informações sobre a teoria dos testes de acordo com fontes da literatura;

2. Analisar a metodologia de teste de qualidades físicas;

3. Compare os indicadores de prontidão motora dos alunos da 7ª e 7ª séries.

2.2 Métodos de pesquisa:

1. Análise e síntese de fontes literárias.

Realizado ao longo do estudo. A resolução destes problemas a nível teórico realiza-se através do estudo da literatura sobre: ​​teoria e metodologia da educação física e do desporto, educação das qualidades físicas, metrologia desportiva. Foram analisadas 20 fontes literárias.

2. Influência verbal.

Foram fornecidas instruções sobre a sequência de realização dos testes motores e uma conversa motivacional para definir o clima para alcançar um melhor resultado.

3. Testando qualidades físicas.

Corrida de 30 metros (partida alta),

corrida de ônibus 3 x 10 metros,

salto em distância em pé,

Corrida de 6 minutos (m),

flexão para frente a partir da posição sentada (cm),

pull-ups na barra (meninas em baixo).

4. Métodos de estatística matemática.

Utilizado para realizar cálculos que foram utilizados na análise comparativa de alunos do 7a e 7b anos.

2.3 Organização do estudo

Numa primeira fase, em abril de 2009, foi realizada uma análise da literatura científica e metodológica:

· estudar o conteúdo dos programas de educação física para alunos do ensino geral

Uma medição ou teste realizado para determinar a condição ou habilidade de um atleta é chamado teste. Nem todas as medições podem ser utilizadas como testes, mas apenas aquelas que atendem a requisitos especiais: padronização, presença de sistema de classificação, confiabilidade, conteúdo da informação, objetividade. Testes que atendem aos requisitos de confiabilidade, conteúdo de informação e objetividade são chamados sólido.

O processo de teste é chamado testando, e os valores numéricos resultantes são resultado do teste.

Testes baseados em tarefas motoras são chamados motor ou motor. Dependendo da tarefa do sujeito, distinguem-se três grupos de testes motores.

Tipos de testes motores

Nome de teste

Tarefa para o atleta

Resultado do teste

Exercício de controle

Conquistas motoras

Tempo de corrida de 1500m

Testes funcionais padrão

O mesmo para todos, dosado: 1) de acordo com a quantidade de trabalho realizado; 2) pela magnitude das mudanças fisiológicas

Indicadores fisiológicos ou bioquímicos durante o trabalho padrão Indicadores motores durante uma quantidade padrão de alterações fisiológicas

Registro da frequência cardíaca durante o trabalho padrão 1000 kgm/min Velocidade de corrida na frequência cardíaca 160 batimentos/min

Testes funcionais máximos

Mostrar resultado máximo

Indicadores fisiológicos ou bioquímicos

Determinação do débito máximo de oxigênio ou consumo máximo de oxigênio

Às vezes não são usados ​​​​um, mas vários testes que têm um objetivo final comum. Este grupo de testes é denominado bateria de testes.

Sabe-se que mesmo com a mais rigorosa padronização e equipamentos precisos, os resultados dos testes sempre variam um pouco. Portanto, uma das condições importantes para a seleção de bons testes é a sua confiabilidade.

Confiabilidade do testeé o grau de concordância entre os resultados quando as mesmas pessoas são testadas repetidamente nas mesmas condições. Existem quatro razões principais que causam variação intraindividual ou intragrupo nos resultados dos testes:

    mudança na condição dos sujeitos (cansaço, mudança na motivação, etc.); mudanças descontroladas nas condições externas e equipamentos;

    mudança no estado de quem realiza ou avalia o teste (bem-estar, mudança de experimentador, etc.);

    imperfeição do teste (por exemplo, testes obviamente imperfeitos e não confiáveis ​​​​- lances livres em uma cesta de basquete antes do primeiro erro, etc.).

O critério de confiabilidade para o teste pode ser fator de confiabilidade, calculado como a razão entre a dispersão verdadeira e a dispersão registrada no experimento: r = s 2 verdadeiro / s 2 registrado, onde o valor verdadeiro é entendido como a dispersão obtida a partir de um número infinitamente grande de observações nas mesmas condições; a variação registrada é derivada de estudos experimentais. Em outras palavras, o coeficiente de confiabilidade é simplesmente a proporção da variação verdadeira na variação registrada no experimento.

Além desse coeficiente, eles também usam índice de confiabilidade, que é considerado um coeficiente teórico de correlação ou relação entre os valores registrados e verdadeiros de um mesmo teste. Este método é mais comum como critério para avaliar a qualidade (confiabilidade) de um teste.

Uma das características da confiabilidade do teste é a sua equivalência, que reflete o grau de concordância entre os resultados de testes da mesma qualidade (por exemplo, física) por testes diferentes. A atitude em relação à equivalência do teste depende da tarefa específica. Por um lado, se dois ou mais testes são equivalentes, a sua utilização combinada aumenta a fiabilidade das estimativas; por outro lado, parece possível utilizar apenas um teste equivalente, o que simplificará os testes.

Se todos os testes incluídos em uma bateria de testes forem altamente equivalentes, eles serão chamados homogêneo(por exemplo, para avaliar a qualidade da habilidade de salto, deve-se assumir que saltos longos, saltos altos e saltos triplos serão homogêneos). Pelo contrário, se não houver testes equivalentes no complexo (como para avaliar a aptidão física geral), então todos os testes nele incluídos medem propriedades diferentes, ou seja, essencialmente o complexo é heterogêneo.

A confiabilidade dos testes pode ser aumentada até certo ponto por:

    padronização mais rigorosa dos testes;

    aumentando o número de tentativas;

    aumentar o número de avaliadores e aumentar a consistência das suas opiniões;

    aumentar o número de testes equivalentes;

    melhor motivação dos sujeitos.

Testar objetividade existe um caso especial de confiabilidade, ou seja, independência dos resultados do teste em relação à pessoa que o realiza.

Conteúdo informativo do teste– este é o grau de precisão com que se mede a propriedade (a qualidade do atleta) que se utiliza para avaliar. Em casos diferentes, os mesmos testes podem ter conteúdos informativos diferentes. A questão da informatividade do teste divide-se em duas questões específicas:

O que esse teste muda? Como exatamente ele mede?

Por exemplo, é possível utilizar um indicador como o MPC para avaliar a preparação de corredores de longa distância e, em caso afirmativo, com que grau de precisão? Este teste pode ser usado no processo de controle?

Se o teste é usado para determinar a condição do atleta no momento do exame, então se fala em diagnóstico conteúdo informativo do teste. Se, com base nos resultados dos testes, quiserem tirar uma conclusão sobre o possível desempenho futuro do atleta, falam sobre prognóstico conteúdo informativo. Um teste pode ser informativo para diagnóstico, mas não para prognóstico, e vice-versa.

O grau de conteúdo da informação pode ser caracterizado quantitativamente - com base em dados experimentais (os chamados empírico conteúdo da informação) e qualitativamente - com base em uma análise significativa da situação ( lógico conteúdo informativo). Embora no trabalho prático, a análise lógica ou significativa deva sempre preceder a análise matemática. Um indicador da informatividade de um teste é o coeficiente de correlação calculado para a dependência do critério do resultado do teste e vice-versa (o critério é considerado um indicador que reflete obviamente a propriedade que vai ser medida usando o teste).

Nos casos em que o conteúdo informativo de algum teste é insuficiente, é utilizada uma bateria de testes. No entanto, este último, mesmo com elevados critérios de conteúdo de informação individual (a julgar pelos coeficientes de correlação), não permite obter um único número. Aqui, um método mais complexo de estatística matemática pode ajudar - análise fatorial. O que permite determinar quantos e quais testes funcionam juntos em um fator separado e qual é o grau de sua contribuição para cada fator. É então fácil selecionar testes (ou combinações deles) que avaliem com mais precisão os fatores individuais.

1 Como é chamado um teste?

2 O que é teste?

Quantificação de uma qualidade ou condição de um atleta Uma medição ou teste realizado para determinar a condição ou habilidade de um atleta Processo de teste que avalia quantitativamente uma qualidade ou condição de um atleta Não é necessária definição

3 Como é chamado o resultado do teste?

Quantificação de uma qualidade ou condição de um atleta Uma medição ou teste realizado para determinar a condição ou habilidade de um atleta Processo de teste que avalia quantitativamente uma qualidade ou condição de um atleta Não é necessária definição

4 Que tipo de testes são esses? 100m de corrida?

5 Que tipo de testes são esses? dinamometria manual?

Exercício de controle Teste funcionalTeste funcional máximo

6 A que tipo de testes pertence a amostra? CIP?

Exercício de controle Teste funcionalTeste funcional máximo

7 Que tipo de testes são esses? corrida de três minutos com metrônomo?

Exercício de controle Teste funcionalTeste funcional máximo

8 Que tipo de testes são esses? número máximo de pull-ups na barra?

Exercício de controle Teste funcionalTeste funcional máximo

9 Em que casos um teste é considerado informativo?

10 Quando um teste é considerado confiável?

A capacidade do teste ser reproduzível quando testado novamente A capacidade do teste de medir a qualidade de interesse do atleta A independência dos resultados do teste em relação à pessoa que administra o teste

11 Em que caso o teste é considerado objetivo?

A capacidade do teste ser reproduzível quando testado novamente A capacidade do teste de medir a qualidade de interesse do atleta A independência dos resultados do teste em relação à pessoa que administra o teste

12 Que critério é necessário para avaliar um teste quanto ao conteúdo informativo?

13 Qual critério é necessário ao avaliar um teste de confiabilidade?

Teste T de Student Teste F de Fisher Coeficiente de correlação Coeficiente de determinação Dispersão

14 Que critério é necessário ao avaliar um teste de objetividade?

Teste T de Student Teste F de Fisher Coeficiente de correlação Coeficiente de determinação Dispersão

15 Como é denominado o conteúdo informativo de um teste se ele é utilizado para avaliar o grau de aptidão de um atleta?

16 Qual conteúdo informativo dos exercícios de controle o treinador se orienta ao selecionar crianças para sua seção de esportes?

Diagnóstico Empírico Preditivo Lógico

17 A análise de correlação é necessária para avaliar o conteúdo informativo dos testes?

18 A análise fatorial é necessária para avaliar o conteúdo informativo dos testes?

19 É possível avaliar a confiabilidade de um teste utilizando análise de correlação?

20 É possível avaliar a objetividade de um teste por meio da análise de correlação?

21 Os testes destinados a avaliar a aptidão física geral serão equivalentes?

22 Ao medir a mesma qualidade com testes diferentes, são utilizados testes...

Projetados para medir a mesma qualidade Possuir alta correlação entre si Ter baixa correlação entre si

FUNDAMENTOS DA TEORIA DA VALORAÇÃO

Para avaliar os resultados esportivos, são frequentemente utilizadas tabelas de pontos especiais. O objetivo de tais tabelas é converter o resultado esportivo mostrado (expresso em medidas objetivas) em pontos condicionais. A lei da conversão de resultados esportivos em pontos é chamada escala de classificação. A escala pode ser especificada como uma expressão matemática, tabela ou gráfico. Existem 4 tipos principais de escalas utilizadas nos esportes e na educação física.

Escalas proporcionais

Escalas regressivas

Escalas progressivas.

Escalas proporcionais sugerir a atribuição do mesmo número de pontos para igual aumento nos resultados (por exemplo, para cada 0,1 s de melhoria no resultado na corrida de 100 m, são atribuídos 20 pontos). Essas escalas são usadas no pentatlo moderno, patinação de velocidade, corrida de esqui, combinado nórdico, biatlo e outros esportes.

Escalas regressivas sugerem que para o mesmo aumento nos resultados à medida que aumentam as conquistas esportivas, um número cada vez menor de pontos é concedido (por exemplo, para uma melhoria no resultado na corrida de 100 m de 15,0 para 14,9 s, são adicionados 20 pontos, e para 0,1 s na faixa de 10,0-9,9 s – apenas 15 pontos).

Escalas progressivas. Aqui, quanto maior o resultado atlético, maior será o aumento de pontos para sua melhoria (por exemplo, para uma melhoria no tempo de corrida de 15,0 para 14,9 s, são somados 10 pontos, e de 10,0 para 9,9 s - 100 pontos). Escalas progressivas são usadas na natação, em certos tipos de atletismo e no levantamento de peso.

Escamas sigmóides raramente são usados ​​​​em esportes, mas são amplamente utilizados na avaliação da aptidão física (por exemplo, é assim que se parece a escala de padrões de aptidão física para a população dos EUA). Nestas escalas, as melhorias nos resultados na zona de resultados muito baixos e muito elevados são moderadamente recompensadas; O aumento dos resultados na zona intermediária de realização traz mais pontos.

Os principais objetivos da avaliação são:

    compare diferentes realizações na mesma tarefa;

    comparar realizações em diferentes tarefas;

    definir padrões.

A norma na metrologia esportiva é chamado o valor limite do resultado, que serve de base para a atribuição de um atleta a um dos grupos de classificação. Existem três tipos de normas: comparativas, individuais, devidas.

Padrões comparativos baseiam-se numa comparação de pessoas pertencentes à mesma população. Por exemplo, dividir as pessoas em subgrupos de acordo com o grau de resistência (alta, média, baixa) ou reatividade (hiperreativa, normoreativa, hiporreativa) à hipóxia.

Diferentes gradações de avaliações e normas

Porcentagem de assuntos

Normas em escalas

Verbal

em pontos

Percentil

Muito baixo

Abaixo de M - 2

De M - 2 a M - 1

Abaixo da média

De M-1 a M–0,5

De M–0,5 a M+0,5

Acima da média

De M+0,5 a M+1

De M+1 a M+2

Muito alto

Acima de M+2

Estas normas caracterizam apenas os sucessos comparativos dos sujeitos de uma determinada população, mas não dizem nada sobre a população como um todo (ou em média). Portanto, as normas comparativas devem ser comparadas com dados obtidos de outras populações e utilizadas em combinação com normas individuais e apropriadas.

Normas individuais baseiam-se na comparação do desempenho do mesmo atleta em diferentes condições. Por exemplo, em muitos desportos não existe relação entre o peso corporal e o desempenho atlético. Cada atleta tem um peso individual ideal correspondente ao seu estado de aptidão atlética. Esta norma pode ser controlada em diferentes fases do treinamento esportivo.

Padrões devidos baseiam-se na análise do que uma pessoa deve ser capaz de fazer para enfrentar com sucesso as tarefas que a vida lhe impõe. Um exemplo disso podem ser os padrões dos complexos individuais de treinamento físico, os valores adequados de capacidade vital, taxa metabólica basal, peso corporal e altura, etc.

1 É possível medir diretamente a qualidade da resistência?

2 É possível medir diretamente a qualidade da velocidade?

3 É possível medir diretamente a qualidade da destreza?

4 É possível medir diretamente a qualidade da flexibilidade?

5 É possível medir diretamente a força dos músculos individuais?

6 A avaliação pode ser expressa em uma característica qualitativa (bom, satisfatório, ruim, aprovado, etc.)?

7 Existe alguma diferença entre uma escala de medição e uma escala de classificação?

8 O que é uma escala de classificação?

Sistema de medição de resultados esportivos A lei da conversão de resultados esportivos em pontos Sistema de avaliação de normas

9 A escala pressupõe a atribuição do mesmo número de pontos para igual aumento dos resultados. Esse …

10 Para o mesmo aumento nos resultados, são atribuídos cada vez menos pontos à medida que aumentam as conquistas desportivas. Esse …

Escala progressiva Escala regressiva Escala proporcional Escala sigmóide

11 Quanto maior o resultado esportivo, maior o aumento de pontos, avalia-se a melhora. Esse …

Escala progressiva Escala regressiva Escala proporcional Escala sigmóide

12 A melhoria do desempenho nas zonas de desempenho muito baixo e muito alto é recompensada com moderação; O aumento dos resultados na zona intermediária de realização traz mais pontos. Esse …

Escala progressiva Escala regressiva Escala proporcional Escala sigmóide

13 As normas baseadas na comparação de pessoas pertencentes a uma mesma população são denominadas...

14 As normas baseadas na comparação do desempenho do mesmo atleta em diferentes condições são chamadas...

Padrões individuais Padrões devidos Padrões comparativos

15 Chamam-se normas baseadas na análise do que uma pessoa deve ser capaz de fazer para cumprir as tarefas que lhe são atribuídas ...

Padrões individuais Padrões devidos Padrões comparativos

CONCEITOS BÁSICOS DE QUALIMETRIA

Qualimetria(latim qualitas - qualidade, metron - medida) estuda e desenvolve métodos quantitativos para avaliação de características qualitativas.

A qualimetria baseia-se em vários pontos de partida:

Qualquer qualidade pode ser medida;

A qualidade depende de uma série de propriedades que formam a “árvore de qualidade” (por exemplo, a árvore de qualidade do desempenho do exercício na patinação artística consiste em três níveis - mais alto, médio, mais baixo);

Cada propriedade é determinada por dois números: indicador relativo e peso; a soma dos pesos das propriedades em cada nível é igual a um (ou 100%).

As técnicas metodológicas de qualimetria são divididas em dois grupos:

Heurística (intuitiva), baseada em avaliações de especialistas e questionários;

Instrumental.

Especialistaé uma avaliação obtida através da consulta da opinião de especialistas. Exemplos típicos de especialização: julgamento em ginástica e patinação artística, competição pelo melhor trabalho científico, etc.

A realização de um exame compreende as seguintes etapas principais: formação da sua finalidade, seleção dos peritos, escolha da metodologia, realização do inquérito e tratamento da informação recebida, incluindo a avaliação da consistência das avaliações periciais individuais. Durante o exame, o grau de consistência das perícias, avaliado pelo valor, é de grande importância coeficiente de correlação de classificação(no caso de vários especialistas). Ressalta-se que a correlação de postos está na base da solução de muitos problemas de qualimetria, pois permite cálculos matemáticos com características qualitativas.

Na prática, um indicador das qualificações de um perito é frequentemente o desvio das suas classificações em relação às classificações médias de um grupo de peritos.

Questionárioé um método de coleta de opiniões por meio do preenchimento de questionários. Questionários, juntamente com entrevistas e conversas, são métodos de pesquisa. Ao contrário das entrevistas e conversas, o questionamento envolve respostas escritas da pessoa que preenche o questionário – o respondente – a um sistema de perguntas padronizadas. Permite estudar motivos de comportamento, intenções, opiniões, etc.

Por meio de questionários, você pode resolver muitos problemas práticos no esporte: avaliar o estado psicológico de um atleta; sua atitude em relação à natureza e direção das sessões de treinamento; relacionamento interpessoal na equipe; avaliação própria de prontidão técnica e tática; avaliação dietética e muitos outros.

1 O que a qualimetria estuda?

Estudar a qualidade dos testes Estudar as propriedades qualitativas de uma característica Estudar e desenvolver métodos quantitativos para avaliar a qualidade

2 Métodos matemáticos utilizados em qualimetria?

Correlação de pares Correlação de classificação Análise de variância

3 Que métodos são usados ​​para avaliar o nível de desempenho?

4 Que métodos são utilizados para avaliar a diversidade de elementos técnicos?

Método do questionário Método de avaliação especializada Método não especificado

5 Que métodos são utilizados para avaliar a complexidade dos elementos técnicos?

Método do questionário Método de avaliação especializada Método não especificado

6 Que métodos são utilizados para avaliar o estado psicológico de um atleta?

Método do questionário Método de avaliação especializada Método não especificado

O primeiro componente, teoria dos testes, contém uma descrição de modelos estatísticos para processamento de dados diagnósticos. Ele contém modelos para análise de respostas em tarefas de teste e modelos para cálculo de resultados totais de testes. Mullenberg (1980, 1990) chamou isso de “psicometria”. A teoria clássica dos testes, a teoria moderna dos testes (ou o modelo de Análise de Resposta ao Item - TRI) e a


amostras de itens constituem os três tipos mais importantes de modelos de teoria de testes. O tema da consideração do psicodiagnóstico são os dois primeiros modelos.

Teoria clássica dos testes. A maioria dos testes intelectuais e de personalidade foram desenvolvidos com base nesta teoria. O conceito central desta teoria é o conceito de “confiabilidade”. A confiabilidade refere-se à consistência dos resultados em avaliações repetidas. Nos livros de referência, esse conceito geralmente é apresentado de forma muito breve e, em seguida, é fornecida uma descrição detalhada do aparato da estatística matemática. Neste capítulo introdutório apresentaremos uma descrição concisa do significado básico do conceito observado. Na teoria clássica dos testes, a confiabilidade refere-se à repetibilidade dos resultados de vários procedimentos de medição (principalmente medições por meio de testes). O conceito de confiabilidade envolve o cálculo do erro de medição. Os resultados obtidos durante o processo de teste podem ser apresentados como a soma do resultado verdadeiro e do erro de medição:

Xi = Ti+ Ej

Onde XIé uma avaliação dos resultados obtidos, Ti é o resultado verdadeiro, e Ej- erro de medição.

A avaliação dos resultados obtidos é, em regra, o número de respostas corretas às tarefas do teste. Um resultado verdadeiro pode ser pensado como uma avaliação verdadeira no sentido platônico (Gulliksen, 1950). O conceito de resultados esperados é difundido, ou seja, ideias sobre pontuações que podem ser obtidas como resultado de um grande número de repetições de procedimentos de medição (Lord & Novich, 1968). Mas não é possível realizar o mesmo procedimento de avaliação com uma pessoa. Portanto, é necessário buscar outras opções para solucionar o problema (Witlman, 1988).

Este conceito faz certas suposições sobre resultados verdadeiros e erros de medição. Estes últimos são considerados um fator independente, o que, obviamente, é uma suposição bastante razoável, uma vez que flutuações aleatórias nos resultados não fornecem covariâncias: rEE =0.

Supõe-se que não há correlação entre pontuações verdadeiras e erros de medição: rEE =0.


O erro total é 0, porque A média aritmética é considerada a estimativa verdadeira:

Essas suposições nos levam, em última análise, à conhecida definição de confiabilidade como a razão entre o resultado verdadeiro e a variância total ou a expressão: 1 menos a razão, cujo numerador é o erro de medição e o denominador é a variância total:


, OU

A partir desta fórmula para determinar a confiabilidade, obtemos que a variância do erro S2 (E) igual à variância total no número de casos (1 – r XX "); assim, o erro padrão de medição é determinado pela fórmula:

Após uma justificativa teórica da confiabilidade e suas derivadas, é necessário determinar o índice de confiabilidade de um determinado teste. Existem procedimentos práticos para avaliar a confiabilidade dos testes, como o uso de formulários intercambiáveis ​​(testes paralelos), a divisão dos itens em duas partes, o reteste e a medição da consistência interna. Cada livro de referência contém índices de consistência dos resultados dos testes:

rXX' =r(x 1 , x 2)

Onde rXX' - coeficiente de estabilidade, e x 1 E x 2 - resultados de duas medições.

O conceito de confiabilidade de formas intercambiáveis ​​foi introduzido e desenvolvido por Gulliksen (1950). Este procedimento é bastante trabalhoso, pois está associado à necessidade de criar uma série paralela de tarefas

rXX' =r(x 1 , x 2)

Onde rXX' - coeficiente de equivalência, e x 1 E x 2 - dois testes paralelos.

O próximo procedimento – dividir a massa principal em duas partes A e B – é mais fácil de usar. As pontuações obtidas em ambas as partes do teste são correlacionadas. Usando a fórmula de Spearman-Brown, a confiabilidade do teste como um todo é avaliada:

onde A e B são duas partes paralelas do teste.

O próximo método é determinar a consistência interna das tarefas de teste. Este método baseia-se na determinação das covariâncias de tarefas individuais. Sg é a variância de uma tarefa selecionada aleatoriamente e Sgh é a covariância de duas tarefas selecionadas aleatoriamente. O coeficiente mais comumente utilizado para determinar a consistência interna é o alfa de Cronbach. A fórmula também é usada KR20 e λ-2(lambda-2).

O conceito clássico de confiabilidade define erros de medição que surgem tanto durante os testes quanto durante as observações. As fontes desses erros são diferentes: podem ser características pessoais, características das condições de teste e das próprias tarefas de teste. Existem métodos específicos para calcular erros. Sabemos que as nossas observações podem revelar-se erradas, as nossas ferramentas metodológicas são imperfeitas, tal como as próprias pessoas são imperfeitas. (Como não lembrar de Shakespeare: “Indigno de confiança és tu, cujo nome é homem”). O fato de que na teoria clássica dos testes os erros de medição são explicitados e explicados é um ponto positivo importante.

A teoria clássica dos testes tem uma série de características significativas que também podem ser consideradas suas desvantagens. Algumas destas características são assinaladas em livros de referência, mas a sua importância (do ponto de vista quotidiano) nem sempre é enfatizada, nem se nota que do ponto de vista teórico ou metodológico devam ser consideradas deficiências.

Primeiro. A teoria clássica dos testes e o conceito de confiabilidade estão focados no cálculo das pontuações totais dos testes, que são o resultado da soma das pontuações obtidas nas tarefas individuais. Sim, ao trabalhar


Segundo. O coeficiente de confiabilidade envolve avaliar a quantidade de dispersão dos indicadores medidos. Conclui-se que o coeficiente de fiabilidade será menor se (sendo os restantes indicadores iguais) a amostra for mais homogénea. Não existe um coeficiente único de consistência interna dos itens de teste; este coeficiente é sempre “contextual”. Crocker e Algina (1986), por exemplo, propõem uma fórmula especial de “correção de amostra homogênea” projetada para as pontuações mais altas e mais baixas obtidas pelos participantes do teste. É importante que o diagnosticador conheça as características de variação da população amostral, caso contrário não poderá utilizar os coeficientes de consistência interna especificados no manual para este teste.

Terceiro. O fenômeno da redução a uma média aritmética é uma consequência lógica do conceito clássico de confiabilidade. Se a pontuação do teste flutuar (ou seja, não for suficientemente confiável), então é possível que, quando o procedimento for repetido, os indivíduos com pontuações baixas recebam pontuações mais altas e, inversamente, os indivíduos com pontuações altas obtenham pontuações baixas. Este artefato do procedimento de medição não deve ser confundido com uma verdadeira mudança ou manifestação de processos de desenvolvimento. Mas, ao mesmo tempo, não é fácil diferenciá-los, porque... a possibilidade de mudança durante o desenvolvimento nunca pode ser descartada. Para ter certeza absoluta, é necessária uma comparação com um grupo de controle.

A quarta característica dos testes desenvolvidos de acordo com os princípios da teoria clássica é a presença de dados normativos. O conhecimento das normas do teste permite ao pesquisador interpretar adequadamente os resultados dos candidatos. Fora das normas, as pontuações dos testes não têm sentido. O desenvolvimento de padrões de teste é uma tarefa bastante cara, uma vez que o psicólogo deve obter resultados de testes a partir de uma amostra representativa.

doisYater Laak

Se falamos das deficiências do conceito clássico de confiabilidade, então é apropriado citar a afirmação de Siytsma (1992, pp. 123-125). Ele observa que a primeira e principal suposição da teoria clássica dos testes é que as pontuações dos testes seguem o princípio do intervalo. No entanto, não existem estudos que apoiem esta suposição. Em essência, é “medição de acordo com uma regra estabelecida arbitrariamente”. Esta característica coloca a teoria clássica dos testes em desvantagem em comparação com as escalas de medição de atitude e, claro, em comparação com a teoria moderna dos testes. Muitos métodos de análise de dados (análise de variância, análise de regressão, correlação e análise fatorial) baseiam-se no pressuposto da existência de uma escala intervalar. Contudo, não tem uma base sólida. Considerar a escala de resultados verdadeiros como uma escala de valores de características psicológicas (por exemplo, habilidades aritméticas, inteligência, neuroticismo) só pode ser presumida.

A segunda observação diz respeito ao facto de os resultados dos testes não serem indicadores absolutos de uma ou outra característica psicológica da pessoa testada; devem ser considerados apenas como os resultados de um ou outro teste. Dois testes podem pretender examinar as mesmas características psicológicas (por exemplo, inteligência, capacidade verbal, extroversão), mas isso não significa que os dois testes sejam equivalentes ou tenham as mesmas capacidades. Comparar o desempenho de duas pessoas testadas com testes diferentes é incorreto. O mesmo se aplica ao mesmo candidato que completa dois testes diferentes. O terceiro ponto diz respeito à suposição de que o erro padrão de medição é o mesmo para qualquer nível de capacidade individual a ser medido. No entanto, não há teste empírico desta suposição. Por exemplo, não há garantia de que um candidato com boas habilidades matemáticas terá uma pontuação alta em um teste de aritmética relativamente simples. Nesse caso, uma pessoa com habilidades baixas ou médias tem maior probabilidade de receber uma classificação alta.

Dentro da estrutura da moderna teoria dos testes ou da teoria da análise das respostas, os itens dos testes contêm uma descrição de um grande


número de modelos de respostas possíveis dos entrevistados. Estes modelos diferem nos pressupostos que lhes estão subjacentes, bem como nos requisitos dos dados obtidos. O modelo Rasch é frequentemente considerado sinônimo de teorias de análise de resposta ao item (1RT). Na verdade, este é apenas um dos modelos. A fórmula nele apresentada para descrever a curva característica da tarefa g é a seguinte:

Onde g- tarefa de teste separada; experiência- função exponencial (dependência não linear); δ (“delta”) - o nível de dificuldade da prova.

Outros itens de teste, por ex. h, também obter suas próprias curvas características. Condição cumprida δ h >δ g (g significa que h- uma tarefa mais difícil. Portanto, para qualquer valor do indicador Θ (“theta” - propriedades latentes das habilidades dos participantes do teste) probabilidade de conclusão bem-sucedida da tarefa h menos. Este modelo é denominado estrito porque é óbvio que com um baixo grau de expressão da característica, a probabilidade de completar a tarefa é próxima de zero. Não há espaço para suposições ou suposições neste modelo. Para tarefas de múltipla escolha, não há necessidade de fazer suposições sobre a probabilidade de sucesso. Além disso, este modelo é rigoroso no sentido de que todos os itens do teste devem ter a mesma capacidade discriminativa (a alta discriminatividade se reflete na inclinação da curva; aqui é possível construir a escala de Guttman, segundo a qual em cada ponto da curva curva característica a probabilidade de completar a tarefa varia de O a 1). Devido a esta condição, nem todos os itens podem ser incluídos em testes baseados no modelo Rasch.

Existem diversas variantes deste modelo (por exemplo, Birnbaura, 1968; Ver Lord & Novik). Permite a existência de tarefas com diferentes discriminações

habilidade.

O pesquisador holandês Mokken (1971) desenvolveu dois modelos para analisar as respostas aos itens de teste que são menos rigorosos que o modelo Rasch e, portanto, talvez mais realistas. Como condição básica

Via Mokken apresenta a proposição de que a curva característica de uma tarefa deve seguir monotonamente, sem interrupções. Todas as tarefas de teste visam estudar a mesma característica psicológica, que deve ser medida V. Qualquer forma desta dependência é permitida até que seja interrompida. Portanto, a forma da curva característica não é determinada por nenhuma função específica. Essa “liberdade” permite utilizar mais itens de teste, e o nível de avaliação não é superior ao normal.

A metodologia dos padrões de resposta ao item (TRI) difere da maioria dos estudos experimentais e correlacionais. O modelo matemático é projetado para estudar características comportamentais, cognitivas, emocionais, bem como fenômenos de desenvolvimento. Esses fenômenos em questão são frequentemente limitados a respostas aos itens, levando Mellenberg (1990) a chamar a TRI de “teoria do minicomportamento”. Os resultados do estudo podem, até certo ponto, ser apresentados como curvas de consistência, principalmente nos casos em que falta compreensão teórica das características em estudo. Até agora, temos à nossa disposição apenas alguns testes de inteligência, aptidão e personalidade criados com base em numerosos modelos da teoria TRI. Variantes do modelo Rasch são mais frequentemente utilizadas no desenvolvimento de testes de desempenho (Verhelst, 1993), enquanto os modelos Mokken são mais adequados para fenómenos de desenvolvimento (ver também Capítulo 6).

A resposta do candidato aos itens do teste é a unidade básica dos modelos TRI. O tipo de resposta é determinado pelo grau de expressão da característica que está sendo estudada em uma pessoa. Tal característica poderia ser, por exemplo, habilidades aritméticas ou espaciais. Na maioria dos casos, este é um ou outro aspecto da inteligência, características de realizações ou traços de personalidade. Supõe-se que existe uma relação não linear entre a posição de uma determinada pessoa em uma determinada faixa das características em estudo e a probabilidade de completar com sucesso uma determinada tarefa. A não-linearidade desta dependência é, em certo sentido, intuitiva. Frases famosas “Todo começo é difícil” (lento e não


início linear) e “Tornar-se um santo não é tão fácil” significam que é difícil melhorar ainda mais depois de atingir um determinado nível. A curva se aproxima lentamente, mas quase nunca atinge uma taxa de sucesso de 100%.

Alguns modelos contradizem bastante a nossa compreensão intuitiva. Vejamos este exemplo. Uma pessoa com índice de intensidade característica voluntária de 1,5 tem 60% de probabilidade de sucesso na conclusão da tarefa. Isso contradiz nossa compreensão intuitiva de tal situação, porque você pode lidar com a tarefa com sucesso ou simplesmente não lidar com ela. Vejamos este exemplo: uma pessoa tenta 100 vezes atingir a altura de 1m 50 cm, o sucesso a acompanha 60 vezes, ou seja, tem uma taxa de sucesso de 60%.

Para avaliar a gravidade de uma característica, são necessárias pelo menos duas tarefas. O modelo Rasch envolve a determinação da gravidade das características independentemente da dificuldade da tarefa. Isso também vai contra a nossa intuição: suponha que uma pessoa tenha 80% de chance de saltar acima de 1,30 m. Se for esse o caso, então de acordo com a curva característica da tarefa ela tem 60% de chance de saltar acima de 1,50 m e 40% de chance de saltar acima de 1,50 m. probabilidade de saltar acima de 1,70 m. Portanto, independentemente do valor da variável independente (altura), é possível estimar a capacidade de uma pessoa saltar alto.

Existem cerca de 50 modelos TRI (Goldstein & Wood, 1989).Existem muitas funções não lineares que descrevem (explicam) a probabilidade de sucesso na conclusão de uma tarefa ou grupo de tarefas. Os requisitos e limitações destes modelos são diferentes, e estas diferenças podem ser reveladas comparando o modelo Rasch e a escala Mokken. Os requisitos desses modelos incluem:

1) a necessidade de determinar a característica em estudo e avaliar a posição da pessoa dentro do alcance dessa característica;

2) avaliação da sequência de tarefas;

3) verificação de modelos específicos. Em psicometria, muitos procedimentos foram desenvolvidos para testar o modelo.

Alguns livros de referência discutem a teoria da TRI como uma forma de análise de itens de teste (ver, por exemplo,

Croker & Algina, J 986). Poderíamos, no entanto, argumentar que a TRI é uma “miniteoria sobre minicomportamento”. Os proponentes da teoria TRI observam que se os conceitos (modelos) de nível intermediário são imperfeitos, então o que pode ser dito sobre construções mais complexas em psicologia?

Teorias de testes clássicas e modernas. As pessoas não podem deixar de comparar coisas que parecem quase iguais. (Talvez o equivalente cotidiano da psicometria consista principalmente em comparar pessoas quanto a características significativas e escolher entre elas.) Cada uma das teorias apresentadas – a teoria da medição dos erros de estimativa e o modelo matemático das respostas dos testes – tem os seus apoiantes (Goldstein & Wood, 1986).

Os modelos TRI não foram acusados ​​de serem “avaliações baseadas em regras”, como a teoria clássica dos testes. O modelo TRI está focado na análise das características avaliadas. As características de personalidade e as características da tarefa são avaliadas por meio de escalas (ordinais ou intervalares). Além disso, é possível comparar o desempenho de diferentes testes destinados a estudar características semelhantes. Finalmente, a confiabilidade não é a mesma para cada valor de uma escala, e as pontuações médias são geralmente mais confiáveis ​​do que as pontuações no início e no final da escala. Assim, os modelos TRI parecem ser teoricamente mais superiores. Existem também diferenças no uso prático da teoria moderna dos testes e da teoria clássica (Sijstma, 1992, pp. 127-130). A teoria moderna dos testes é mais complexa em comparação com a clássica, por isso é menos utilizada por não especialistas. Além disso, a TRI tem requisitos de tarefas específicos. Isso significa que os itens devem ser excluídos do teste caso não atendam aos requisitos do modelo. Esta regra se aplica ainda às tarefas que faziam parte de testes amplamente utilizados, baseados nos princípios da teoria clássica. O teste fica mais curto e, portanto, sua confiabilidade diminui.

A TRI fornece modelos matemáticos para estudar fenômenos do mundo real. Os modelos devem ajudar-nos a compreender os principais aspectos destes fenómenos. No entanto, aqui reside a principal questão teórica. Modelos podem ser considerados


como uma abordagem para estudar a complexa realidade em que vivemos. Mas modelo e realidade não são a mesma coisa. De acordo com a visão pessimista, é possível modelar apenas tipos de comportamento isolados (e não os mais interessantes). Você também pode se deparar com a afirmação de que a realidade não pode ser modelada de forma alguma, porque obedece a mais do que apenas leis de causa e efeito. Na melhor das hipóteses, é possível modelar fenômenos comportamentais individuais (ideais). Há outra visão, mais otimista, das possibilidades de modelagem. A posição acima bloqueia a possibilidade de compreensão profunda da natureza dos fenômenos do comportamento humano. A aplicação de um modelo ou de outro levanta algumas questões gerais e fundamentais. Em nossa opinião, não há dúvida de que a TRI é um conceito teórica e tecnicamente superior à teoria clássica dos testes.

O objetivo prático dos testes, independentemente da base teórica em que sejam criados, é determinar critérios significativos e estabelecer com base neles as características de determinados construtos psicológicos. O modelo TRI também apresenta vantagens nesse aspecto? É possível que os testes baseados neste modelo não prevejam com maior precisão do que os testes baseados na teoria clássica, e é possível que a sua contribuição para o desenvolvimento de construtos psicológicos não seja mais significativa. Os diagnosticadores preferem critérios que sejam diretamente relevantes para o indivíduo, instituição ou comunidade. Um modelo cientificamente mais avançado “ipso facto”* não define um critério mais apropriado e é, em certa medida, limitado na explicação de construtos científicos. É óbvio que o desenvolvimento de testes baseados na teoria clássica continuará, mas ao mesmo tempo serão criados novos modelos de TRI, estendendo-se ao estudo de um maior número de fenómenos psicológicos.

Na teoria clássica dos testes, os conceitos de “confiabilidade” e “validade” são diferenciados. Os resultados dos testes devem ser confiáveis, ou seja, os resultados do teste inicial e reteste devem ser consistentes. Além do mais,

* ipso facto(verniz) - por si só (aprox. trad.).

os resultados devem estar livres (na medida do possível) de erros de estimativa. A validade é um dos requisitos para os resultados obtidos. Neste caso, a confiabilidade é considerada condição necessária, mas ainda não suficiente, para a validade do teste.

O conceito de validade sugere que os resultados se relacionam com algo importante em termos práticos ou teóricos. As conclusões tiradas dos resultados dos testes devem ser válidas. Na maioria das vezes falam sobre dois tipos de validade: preditiva (critério) e construtiva. Existem também outros tipos de validade (ver Capítulo 3). Além disso, a validade pode ser determinada no caso de quase-experimentos (Cook & Campbell, 1976, Cook & Shadish, 1994). Contudo, o principal tipo de validade ainda é a validade preditiva, que é entendida como a capacidade de prever algo significativo sobre o comportamento futuro a partir de um resultado de teste, bem como a possibilidade de uma compreensão mais profunda de uma determinada propriedade ou qualidade psicológica.

Os tipos de validade apresentados são discutidos em cada livro de referência e acompanhados de uma descrição dos métodos de análise da validade dos testes. A análise fatorial é mais apropriada para determinar a validade de construto, e equações de regressão linear são utilizadas para analisar a validade preditiva. Certas características (desempenho acadêmico, eficácia da terapia) podem ser previstas com base em um ou mais indicadores obtidos ao trabalhar com testes intelectuais ou de personalidade. Técnicas de processamento de dados como correlação, regressão, análise de variância, análise de correlações parciais e variâncias são utilizadas para determinar a validade preditiva de um teste.

A validade de conteúdo também é frequentemente descrita. Presume-se que todas as tarefas e tarefas do teste devem pertencer a uma área específica (propriedades mentais, comportamento, etc.). O conceito de validade de conteúdo caracteriza a correspondência de cada item do teste ao domínio medido. A validade de conteúdo às vezes é vista como parte da confiabilidade ou “generalização” (Cronbach, Gleser, Nanda & Rajaratnam, 1972). No entanto, quando


Ao escolher tarefas para testes de aproveitamento em uma área temática específica, também é importante prestar atenção às regras de inclusão de tarefas na prova.

Na teoria clássica dos testes, a confiabilidade e a validade são tratadas de forma relativamente independente uma da outra. Mas há outra compreensão da relação entre esses conceitos. A teoria moderna dos testes é baseada no uso de modelos. Os parâmetros são estimados dentro de um determinado modelo. Se uma tarefa não atender aos requisitos do modelo, então, dentro da estrutura deste modelo, ela será considerada inválida. A validação da construção faz parte da verificação do próprio modelo. Esta validação refere-se principalmente a testar a existência de um traço de interesse latente unidimensional com características de escala conhecidas. As pontuações da escala podem certamente ser usadas para determinar medidas apropriadas e podem ser correlacionadas com medidas de outros construtos para reunir informações sobre a validade convergente e divergente do construto.

O psicodiagnóstico é semelhante à linguagem, descrita como a unidade de quatro componentes apresentados em três níveis. O primeiro componente, a teoria dos testes, é análogo à sintaxe, a gramática de uma linguagem. A gramática gerativa é, por um lado, um modelo engenhoso e, por outro, um sistema que obedece a regras. Com a ajuda dessas regras, frases complexas são construídas com base em frases afirmativas simples. Ao mesmo tempo, porém, este modelo deixa de lado a descrição de como o processo de comunicação é organizado (o que é transmitido e o que é percebido) e para que fins é realizado. Compreender isso requer conhecimento adicional. O mesmo pode ser dito sobre a teoria dos testes: ela é necessária no psicodiagnóstico, mas não é capaz de explicar o que um psicodiagnóstico faz e quais são seus objetivos.

1.3.2. Teorias psicológicas e construções psicológicas

O psicodiagnóstico é sempre um diagnóstico de algo específico: características pessoais, comportamento, pensamento, emoções. Os testes são projetados para avaliar diferenças individuais. Existem vários conceitos

diferenças individuais, cada uma das quais com características próprias. Se for reconhecido que o psicodiagnóstico não se limita apenas à avaliação das diferenças individuais, então outras teorias tornam-se essenciais para o psicodiagnóstico. Um exemplo é a avaliação das diferenças nos processos de desenvolvimento mental e das diferenças no ambiente social. Embora a avaliação das diferenças individuais não seja um atributo indispensável do psicodiagnóstico, existem, no entanto, certas tradições de investigação nesta área. O psicodiagnóstico começou com a avaliação das diferenças de inteligência. O objetivo principal dos testes era “determinar a transmissão hereditária do gênio” (Gallon) ou a seleção de crianças para treinamento (Binet, Simon). A medição do QI recebeu compreensão teórica e desenvolvimento prático nos trabalhos de Spearman (Grã-Bretanha) e Thurstone (EUA). Raymond B. Cattell fez algo semelhante para avaliar as características de personalidade. O psicodiagnóstico torna-se inextricavelmente ligado a teorias e ideias sobre diferenças individuais em realizações (avaliação de capacidades máximas) e formas de comportamento (nível de funcionamento típico). Esta tradição continua a ser eficaz hoje. Nos livros didáticos sobre psicodiagnóstico, as diferenças no ambiente social são avaliadas com muito menos frequência em comparação com a consideração das características dos próprios processos de desenvolvimento. Não há explicação razoável para isso. Por um lado, o diagnóstico não se limita a certas teorias e conceitos. Por outro lado, necessita de teorias, pois é nelas que se determina o conteúdo que está sendo diagnosticado (ou seja, “o que” está sendo diagnosticado). Por exemplo, a inteligência pode ser considerada tanto como uma característica geral quanto como base para muitas habilidades independentes umas das outras. Se o psicodiagnóstico tenta “escapar” desta ou daquela teoria, então a base do processo psicodiagnóstico passa a ser ideias de bom senso. A pesquisa utiliza vários métodos de análise de dados, e a lógica geral da pesquisa determina a escolha de um ou outro modelo matemático e determina a estrutura dos conceitos psicológicos utilizados. Tais métodos de estatística matemática


ki, como análise de variância, análise de regressão, análise fatorial e cálculo de correlações, assumem a existência de dependências lineares. Se esses métodos forem utilizados incorretamente, eles “introduzem” sua estrutura nos dados obtidos e nos construtos utilizados.

As ideias sobre as diferenças no ambiente social e no desenvolvimento da personalidade quase não tiveram impacto no psicodiagnóstico. Os livros didáticos (ver, por exemplo, Murphy & Davidshofer, 1988) examinam a teoria clássica dos testes e discutem métodos relevantes de processamento estatístico, descrevem testes bem conhecidos e discutem o uso do psicodiagnóstico na prática: na psicologia gerencial, na seleção de pessoal, na avaliação características psicológicas humanas.

As teorias das diferenças individuais (bem como as ideias sobre as diferenças entre os ambientes sociais e o desenvolvimento mental) são análogas ao estudo da semântica da linguagem. Este é o estudo da essência, conteúdo e significado. Os significados são estruturados de uma determinada forma (semelhante às construções psicológicas), por exemplo, por semelhança ou contraste (analogia, convergência, divergência).

1.3.3. Testes psicológicos e outras ferramentas metodológicas

O terceiro componente do esquema proposto são testes, procedimentos e meios metodológicos com os quais são coletadas informações sobre características de personalidade. Drene e Sijtsma (1990, p. 31) definem os testes da seguinte forma: “Um teste psicológico é considerado como uma classificação de acordo com um determinado sistema ou como um procedimento de medição que permite que um determinado julgamento seja feito sobre um ou mais empiricamente isolados ou teoricamente características baseadas em um aspecto específico do comportamento humano (para dentro da situação de teste). Neste caso, a resposta dos respondentes a um certo número de estímulos cuidadosamente selecionados é examinada e as respostas obtidas são comparadas com as normas do teste.”

O diagnóstico requer testes e técnicas para coletar informações confiáveis, precisas e válidas sobre os recursos

e traços característicos de personalidade, sobre o pensamento, emoções e comportamento humano. Além do desenvolvimento de procedimentos de teste, este componente também inclui as seguintes questões: como os testes são criados, como as tarefas são formuladas e selecionadas, como decorre o processo de teste, quais são os requisitos para as condições de teste, como os erros de medição são levados em consideração. , como os resultados dos testes são calculados e interpretados.

O processo de desenvolvimento de testes distingue entre estratégias racionais e empíricas. A aplicação de uma estratégia racional começa com a definição de conceitos básicos (por exemplo, o conceito de inteligência, extroversão), e as tarefas de teste são formuladas de acordo com esses conceitos. Um exemplo de tal estratégia é o conceito de análise de aspecto (a teoria das facetas) de Guttman (1957, 1968, 1978). Primeiro, são determinados vários aspectos dos construtos principais, depois as tarefas e atribuições são selecionadas de forma que cada um desses aspectos seja levado em consideração. A segunda estratégia é que as tarefas sejam selecionadas numa base empírica. Por exemplo, se um pesquisador estivesse tentando criar um teste de interesse vocacional que diferenciasse médicos de engenheiros, este seria o procedimento. Ambos os grupos de respondentes devem responder a todos os itens do teste, e aqueles itens para os quais são encontradas diferenças estatisticamente significativas são incluídos no teste final. Se, por exemplo, existirem diferenças entre os grupos nas respostas à afirmação “Gosto de pescar”, então essa afirmação torna-se um elemento do teste. A premissa central deste livro é que o teste está vinculado a uma teoria conceitual ou taxonômica que define essas características.

A finalidade do teste geralmente é definida nas instruções de uso. O teste deve ser padronizado para que possa avaliar diferenças entre indivíduos e não entre condições de teste. Existem, no entanto, desvios da padronização em procedimentos denominados “testar os limites” e “testes de potencial de aprendizagem”. Nessas condições, o respondente é auxiliado no processo


teste e, em seguida, avalia o efeito de tal procedimento no resultado. A pontuação das respostas às tarefas é objetiva, ou seja, realizado de acordo com procedimento padrão. A interpretação dos resultados obtidos também é estritamente definida e realizada com base em padrões de teste.

O terceiro componente do psicodiagnóstico – testes psicológicos, instrumentos, procedimentos – contém certas tarefas que são as menores unidades do psicodiagnóstico e neste sentido as tarefas são semelhantes aos fonemas de uma língua. O número de combinações possíveis de fonemas é limitado. Apenas certas estruturas fonêmicas podem formar palavras e frases que garantam a transmissão da informação ao ouvinte. Também E tarefas de teste: somente em uma certa combinação entre si podem se tornar um meio eficaz de avaliar o construto correspondente.

Enviar seu bom trabalho na base de conhecimento é simples. Utilize o formulário abaixo

Estudantes, estudantes de pós-graduação, jovens cientistas que utilizam a base de conhecimento em seus estudos e trabalhos ficarão muito gratos a você.

postado em http://www.allbest.ru/

1. CONCEITOS BÁSICOS

Um teste é uma medição ou teste realizado para determinar a condição ou habilidade de um atleta. O processo de teste é chamado de teste: o valor numérico resultante é o resultado do teste (ou resultado do teste). Por exemplo, a corrida de 100m é um teste, o procedimento para conduzir corridas e o tempo é um teste, o tempo de corrida é o resultado do teste.

Os testes baseados em tarefas motoras são chamados de testes motores (ou motores). Nestes testes, os resultados podem ser tanto conquistas motoras (tempo para completar a distância, número de repetições, distância percorrida, etc.), quanto indicadores fisiológicos e bioquímicos. Dependendo disso, bem como da tarefa do sujeito, distinguem-se três grupos de testes motores (Tabela A).

Tabela A. Tipos de testes motores.

Nome de teste

Tarefa para o atleta

Resultado dos testes

Exercícios de teste

Realização motora

1500m de corrida, tempo de corrida

Testes funcionais padrão

O mesmo para todos, dosado: a) de acordo com a quantidade de trabalho realizado, ou: b) de acordo com a magnitude das alterações fisiológicas

Indicadores fisiológicos ou bioquímicos durante o trabalho padrão Indicadores motores durante uma quantidade padrão de alterações fisiológicas

Registro da frequência cardíaca durante o trabalho padrão 1000 km/min Velocidade de corrida na frequência cardíaca 160 batimentos/min, amostra de PVC (170)

Testes funcionais máximos

Mostrar resultado máximo

Indicadores fisiológicos ou bioquímicos

Determinação do débito máximo de oxigênio ou consumo máximo de oxigênio

Às vezes são utilizados não um, mas vários testes que têm um único objetivo final (por exemplo, avaliar a condição do atleta durante o período de treinamento competitivo). Esse grupo é chamado de complexo ou bateria de testes. Nem todas as medições podem ser usadas como testes. Para fazer isso, eles devem atender a requisitos especiais. Estes incluem: 1) confiabilidade do teste; 2) conteúdo informativo da prova; 3) a presença de um sistema de classificação (ver próximo capítulo); 4) padronização – o procedimento e as condições do ensaio devem ser os mesmos em todos os casos de aplicação do ensaio. Os testes que atendem aos requisitos de confiabilidade e conteúdo de informação são chamados de testes bons ou autênticos.

2. TESTE DE CONFIABILIDADE

2.1 Conceito de confiabilidade de teste

teste físico em esteira

A confiabilidade do teste é o grau de concordância dos resultados quando repetidos testes das mesmas pessoas (ou outros objetos) sob as mesmas condições. Idealmente, o mesmo teste administrado aos mesmos indivíduos sob as mesmas condições deveria produzir os mesmos resultados. No entanto, mesmo com a mais rigorosa padronização de testes e equipamentos precisos, os resultados dos testes sempre variam um pouco. Por exemplo, um atleta que acabou de levantar 55 kg em um dinamômetro de pulso mostrará apenas 50 kg em poucos minutos. Tal variação é chamada de variação intraindividual ou (usando a terminologia mais geral da estatística matemática) variação intraclasse. É causada por quatro razões principais:

mudança no estado dos sujeitos (fadiga, treino, aprendizagem, mudança na motivação, concentração, etc.);

alterações descontroladas nas condições externas e nos equipamentos (temperatura e umidade, tensão de alimentação, presença de pessoas não autorizadas, vento, etc.);

mudança no estado de quem conduz ou avalia o teste, substituição de um experimentador ou juiz por outro;

imperfeição do teste (há testes que obviamente não são confiáveis, por exemplo, lances livres em uma cesta de basquete antes do primeiro erro; mesmo um atleta com alto percentual de acertos pode cometer um erro acidentalmente nos primeiros lances).

O exemplo simplificado a seguir ajudará a entender a ideia dos métodos usados ​​para avaliar a confiabilidade dos testes. Vamos supor que eles queiram comparar os resultados do salto em distância de dois atletas com base em duas tentativas realizadas. Se quiser tirar conclusões precisas, não pode limitar-se a registar apenas os melhores resultados. Suponhamos que os resultados de cada um dos atletas variem dentro de ± 10 cm do valor médio e sejam iguais a 220 ± 10 cm (ou seja, 210 e 230 cm) e 320 ± 10 cm (ou seja, 310 e 330 cm), respectivamente. Nesse caso, a conclusão, claro, será totalmente inequívoca: o segundo atleta é superior ao primeiro. A diferença entre os resultados (320 cm - 220 cm = 100 cm) é claramente maior que as flutuações aleatórias (±10 cm). Será muito menos certo

Arroz. 1. A proporção de variação inter e intraclasse com confiabilidade alta (superior) e baixa (inferior).

Traços verticais curtos - dados de tentativas individuais, X e A" 2, X 3 - resultados médios de três sujeitos

conclusão se, para uma mesma variação intraclasse (igual a ±10 cm), a diferença entre sujeitos (variação interclasse) será pequena. Digamos que os valores médios serão 220 cm (numa tentativa 210 cm, outra 230 cm) e 222 (212 e 232 cm). Então pode acontecer, por exemplo, que na primeira tentativa o primeiro atleta salte 230 cm, e o segundo apenas 212, e ficará a impressão de que o primeiro é significativamente mais forte que o segundo.

O exemplo mostra que o principal significado não é a variabilidade intraclasse em si, mas a sua relação com as diferenças interclasses. A mesma variação intraclasse confere confiabilidade diferente com diferenças diferentes entre classes (no caso particular dos sujeitos, Fig. 1).

A teoria da confiabilidade do teste é baseada no fato de que o resultado de qualquer medição realizada em uma pessoa - X ( - é a soma de duas quantidades:

X ^ Hoo + Heh, (1)

onde X x é o chamado resultado verdadeiro que desejam registrar;

X e - erro causado por uma variação descontrolada no estado do sujeito, introduzida por um dispositivo de medição, etc.

Por definição, o verdadeiro resultado é entendido como o valor médio de X^ para um número infinitamente grande de observações sob condições idênticas (é por isso que o sinal de infinito oo é colocado em X).

Se os erros são aleatórios (sua soma é zero e em diferentes tentativas eles não dependem um do outro), então segue-se da estatística matemática:

O/ = Ooo T<З е,

ou seja, a dispersão dos resultados registrados no experimento (st/ 2) é igual à soma das dispersões dos resultados verdadeiros ((Xm 2) e erros (0 e 2).

Ooo 2 caracteriza a variação interclasse idealizada (ou seja, livre de erros), e e 2 caracteriza a variação intraclasse. A influência de o e 2 altera a distribuição dos resultados dos testes (Fig. 2).

Por definição, o coeficiente de confiabilidade (Hz) é igual à razão entre a variância verdadeira e a variância registrada no experimento:

Em outras palavras, rp é simplesmente a proporção da variação verdadeira na variação registrada na experiência.

Além do coeficiente de confiabilidade, também é utilizado o índice de confiabilidade:

que é considerado um coeficiente de correlação teórico entre os valores de teste registrados e os verdadeiros. Eles também utilizam o conceito de erro padrão de confiabilidade, que é entendido como o desvio padrão dos resultados do teste registrados (X () da linha de regressão conectando o valor de X g com os resultados verdadeiros (X") - Fig. 3.

2.2 Avaliação de confiabilidade baseada em dados experimentais

O conceito de um resultado de teste verdadeiro é uma abstração. Hoe não pode ser medido experimentalmente (afinal, é impossível, na realidade, realizar um número infinitamente grande de observações sob condições idênticas). Portanto, temos que usar métodos indiretos.

O método mais preferível para avaliar a confiabilidade é a análise de variância seguida do cálculo dos chamados coeficientes de correlação intraclasse.

A análise de variância, como se sabe, permite decompor a variação registrada experimentalmente nos resultados dos testes em componentes devido à influência de fatores individuais. Por exemplo, se registrarmos os resultados dos sujeitos em qualquer teste, repetindo esse teste em dias diferentes, e fazendo várias tentativas em cada dia, trocando periodicamente de experimentadores, então ocorrerá uma variação:

a) de sujeito para sujeito (variação interindividual),

b) dia após dia,

c) de experimentador para experimentador,

d) de tentativa em tentativa.

A análise de variância permite isolar e avaliar as variações causadas por esses fatores.

Um exemplo simplificado mostra como isso é feito. Suponhamos que os resultados de duas tentativas foram medidos em 5 sujeitos (k = 5, n = 2)

Os resultados da análise de variância (ver o curso de estatística matemática, bem como o Apêndice 1 da primeira parte do livro) são apresentados na forma tradicional em tabela. 2.

mesa 2

A confiabilidade é avaliada usando o chamado coeficiente de correlação intraclasse:

onde r "i é o coeficiente de correlação intraclasse (coeficiente de confiabilidade, que, para distingui-lo do coeficiente de correlação usual (r), é denotado por um primo adicional (r")\

n -- número de tentativas utilizadas no teste;

n" - o número de tentativas para as quais a avaliação de confiabilidade é realizada.

Por exemplo, se quiserem estimar a fiabilidade da média de duas tentativas com base nos dados fornecidos no exemplo, então

Se nos limitarmos a apenas uma tentativa, a confiabilidade será igual a:

e se você aumentar o número de tentativas para quatro, o coeficiente de confiabilidade também aumentará ligeiramente:

Assim, para avaliar a confiabilidade é necessário, em primeiro lugar, realizar uma análise de variância e, em segundo lugar, calcular o coeficiente de correlação intraclasse (coeficiente de confiabilidade).

Algumas dificuldades surgem quando existe uma chamada tendência, ou seja, um aumento ou diminuição sistemático nos resultados de tentativa em tentativa (Fig. 4). Nesse caso, são utilizados métodos mais complexos de avaliação da confiabilidade (não são descritos neste livro).

Para o caso de duas tentativas e ausência de tendência, os valores do coeficiente de correlação intraclasse praticamente coincidem com os valores do coeficiente de correlação usual entre os resultados da primeira e da segunda tentativas. Portanto, em tais situações, o coeficiente de correlação usual pode ser usado para avaliar a confiabilidade (estima a confiabilidade de uma em vez de duas tentativas). Entretanto, se o número de novas tentativas em um teste for maior que duas, e especialmente se forem usados ​​designs de teste complexos,

Arroz. 4. Uma série de seis tentativas, das quais as três primeiras (esquerda) ou as três últimas (direita) estão sujeitas à tendência

(por exemplo, 2 tentativas por dia durante dois dias), é necessário o cálculo do coeficiente intraclasse.

O coeficiente de confiabilidade não é um indicador absoluto que caracteriza o teste. Este coeficiente pode variar dependendo da população de sujeitos (por exemplo, pode ser diferente para iniciantes e atletas qualificados), condições de teste (se tentativas repetidas são realizadas uma após a outra ou, digamos, em intervalos de uma semana) e outras razões . Portanto, é sempre necessário descrever como e em quem foi realizado o teste.

2.3 Confiabilidade na prática de testes

A falta de confiabilidade dos dados experimentais reduz a magnitude das estimativas dos coeficientes de correlação. Como nenhum teste pode se correlacionar mais com outro teste do que consigo mesmo, o limite superior para estimar o coeficiente de correlação aqui não é mais ±1,00, mas o índice de confiabilidade

g (oo = Y~g e

Para passar da estimativa de coeficientes de correlação entre dados empíricos para a estimativa da correlação entre valores verdadeiros, você pode usar a expressão

onde r xy é a correlação entre os valores verdadeiros de X e Y;

1~xy -- correlação entre dados empíricos; HzI^ - avaliação da confiabilidade de X e Y.

Por exemplo, se r xy = 0,60, r xx = 0,80 e r yy = 0,90, então a correlação entre os valores verdadeiros é 0,707.

A fórmula dada (6) é chamada de correção de redução (ou fórmula de Spearman-Brown), e é constantemente usada na prática.

Não existe um valor fixo de confiabilidade para que um teste seja considerado aceitável. Tudo depende da importância das conclusões tiradas da aplicação do teste. E ainda assim, na maioria dos casos no esporte, as seguintes diretrizes aproximadas podem ser usadas: 0,95--0,99 --¦ excelente confiabilidade, 0,90-^0,94 - - bom, 0,80--0,89 - aceitável, 0,70--0,79 - ruim, 0,60--0,69 - duvidoso para avaliações individuais, o teste é adequado apenas para caracterizar um grupo de sujeitos.

Você pode obter alguma melhoria na confiabilidade do teste aumentando o número de novas tentativas. Veja como, por exemplo, no experimento a confiabilidade do teste (lançamento de uma granada de 350 g com partida em corrida) aumentou à medida que o número de tentativas aumentou: 1 tentativa - 0,53, 2 tentativas - 0,72, 3 tentativas - 0,78, 4 tentativas - 0,80, 5 tentativas - 0,82, 6 tentativas - 0,84. O exemplo mostra que se no início a confiabilidade aumenta rapidamente, depois de 3-4 tentativas o aumento diminui significativamente.

Com várias tentativas repetidas, os resultados podem ser determinados de diferentes maneiras: a) pela melhor tentativa, b) pela média aritmética, c) pela mediana, d) pela média de duas ou três melhores tentativas, etc. mostraram que na maioria dos casos o mais confiável é usar a média aritmética, a mediana é um pouco menos confiável e a melhor tentativa é ainda menos confiável.

Ao falar sobre a confiabilidade dos testes, é feita uma distinção entre sua estabilidade (reprodutibilidade), consistência e equivalência.

2.4 Estabilidade de teste

A estabilidade do teste refere-se à reprodutibilidade dos resultados quando repetidos após um certo tempo nas mesmas condições. Testes repetidos são geralmente chamados de reteste. O esquema de avaliação da estabilidade do teste é o seguinte: 1

Neste caso, distinguem-se dois casos. Em um deles, um reteste é realizado para obter dados confiáveis ​​​​sobre a condição do sujeito durante todo o intervalo de tempo entre o teste e o reteste (por exemplo, para obter dados confiáveis ​​​​sobre as capacidades funcionais dos esquiadores em junho, eles são medidos duas vezes com intervalo de uma semana). Neste caso, resultados de testes precisos são importantes e a confiabilidade deve ser avaliada por meio de análise de variância.

Noutro caso, pode ser importante apenas preservar a ordem dos sujeitos do grupo (se o primeiro permanece em primeiro, o último permanece entre os últimos). Neste caso, a estabilidade é avaliada pelo coeficiente de correlação entre teste e reteste.

A estabilidade do teste depende de:

tipo de teste

contingente de sujeitos,

intervalo de tempo entre teste e reteste. Por exemplo, características morfológicas em pequenos

os intervalos de tempo são muito estáveis; testes de precisão de movimentos (por exemplo, arremesso de um alvo) têm menos estabilidade.

Nos adultos, os resultados dos testes são mais estáveis ​​do que nas crianças; entre os atletas são mais estáveis ​​do que entre aqueles que não praticam esportes.

À medida que aumenta o intervalo de tempo entre o teste e o reteste, a estabilidade do teste diminui (Tabela 3).

2.5 Teste de consistência

A consistência do teste é caracterizada pela independência dos resultados do teste em relação às qualidades pessoais da pessoa que conduz ou avalia o teste." A consistência é determinada pelo grau de concordância dos resultados obtidos nos mesmos assuntos por diferentes experimentadores, juízes, e especialistas. Neste caso, duas opções são possíveis:

A pessoa que administra o teste apenas avalia os resultados do teste sem influenciar o seu desempenho. Por exemplo, diferentes examinadores podem avaliar o mesmo trabalho escrito de forma diferente. As avaliações dos juízes em ginástica, patinação artística, boxe, indicadores manuais de cronometragem, avaliações de eletrocardiograma ou radiografia feitas por diferentes médicos, etc., muitas vezes diferem.

A pessoa que realiza o teste influencia os resultados. Por exemplo, alguns experimentadores são mais persistentes e exigentes do que outros e são melhores a motivar os sujeitos. Isto afeta os resultados (que podem ser medidos de forma bastante objetiva).

A consistência do teste é essencialmente a confiabilidade das pontuações do teste quando diferentes pessoas o administram.

1 Em vez do termo “consistência”, é frequentemente utilizado o termo “objetividade”. Este uso de palavras é lamentável, uma vez que a coincidência dos resultados de diferentes experimentadores ou juízes (especialistas) não indica de forma alguma sua objetividade. Juntos, eles podem cometer erros consciente ou inconscientemente, distorcendo a verdade objetiva.

2.6 Equivalência de testes

Freqüentemente, um teste é o resultado de uma seleção entre um certo número de testes semelhantes.

Por exemplo, lançar uma cesta de basquete pode ser feito de diferentes pontos, correr pode ser feito em uma distância de, digamos, 50, 60 ou 100 m, pull-ups podem ser feitos em argolas ou barra, com pegada por cima ou por baixo , etc.

Nesses casos, pode-se utilizar o chamado método de formas paralelas, quando os sujeitos são solicitados a realizar duas versões do mesmo teste e, em seguida, é avaliado o grau de concordância entre os resultados. O esquema de teste aqui é o seguinte:

O coeficiente de correlação calculado entre os resultados dos testes é denominado coeficiente de equivalência. A atitude em relação à equivalência dos testes depende da situação específica. Por um lado, se dois ou mais testes são equivalentes, a sua utilização combinada aumenta a fiabilidade das estimativas; por outro lado, pode ser útil deixar apenas um teste equivalente na bateria - isso simplificará os testes e reduzirá apenas ligeiramente o conteúdo de informações do conjunto de testes. A solução para este problema depende de razões como a complexidade e a complexidade dos testes, o grau de precisão dos testes exigido, etc.

Se todos os testes incluídos em um conjunto de testes forem altamente equivalentes, ele será chamado de homogêneo. Todo este complexo mede uma propriedade das habilidades motoras humanas. Digamos que um complexo que consiste em saltos longos, verticais e triplos seja provavelmente homogêneo. Pelo contrário, se não houver testes equivalentes no complexo, então todos os testes nele incluídos medem propriedades diferentes. Tal complexo é denominado heterogêneo. Exemplo de bateria heterogênea de testes: flexões na barra, inclinação para frente (para testar flexibilidade), corrida de 1500 m.

2.7 Maneiras de melhorar a confiabilidade dos testes

A confiabilidade dos testes pode ser aumentada até certo ponto por:

a) padronização mais rigorosa dos testes,

b) aumentar o número de tentativas,

c) aumentar o número de avaliadores (juízes, peritos) e aumentar a consistência de suas opiniões,

d) aumentar o número de testes equivalentes,

e) melhor motivação dos sujeitos.

3. TESTES INFORMATIVOS

3.1 Conceitos básicos

A informatividade de um teste é o grau de precisão com que ele mede a propriedade (qualidade, habilidade, característica, etc.) que é usado para avaliar. A informatividade é muitas vezes também chamada de validade (do inglês uaNaNu - validade, validade, legalidade). Suponhamos que para determinar o nível de preparação de força especial dos velocistas - corredores e nadadores - eles desejam utilizar os seguintes indicadores: 1) dinamometria do carpo, 2) força de flexão plantar do pé, 3) força dos extensores do ombro articulação (esses músculos suportam uma grande carga ao nadar crawl), 4) força dos músculos extensores do pescoço. Com base nesses testes, propõe-se gerenciar o processo de treinamento, em particular, encontrar elos fracos no sistema motor e fortalecê-los propositalmente. Os testes são bem escolhidos? Eles são informativos? Mesmo sem realizar experimentos especiais, pode-se supor que o segundo teste provavelmente será informativo para velocistas e corredores, o terceiro para nadadores, e o primeiro e o quarto, provavelmente, não mostrarão nada de interessante nem para nadadores nem para corredores (embora possam ser muito útil em outros esportes, como luta livre). Em casos diferentes, os mesmos testes podem ter conteúdos informativos diferentes.

A questão sobre a informatividade do teste é dividida em 2 questões específicas:

O que esse teste mede?

Como exatamente ele faz isso?

Por exemplo, é possível avaliar a aptidão de corredores de longa distância com base em um indicador como o consumo máximo de oxigênio (MOC) e, em caso afirmativo, com que grau de precisão? Em outras palavras, qual é o conteúdo informativo do IPC entre os que ficam? Este teste pode ser usado no processo de controle?

Se o teste é usado para determinar (diagnosticar) a condição do atleta no momento do exame, então se fala em informatividade diagnóstica. Se, com base nos resultados do teste, quiserem tirar uma conclusão sobre o possível desempenho futuro do atleta, o teste deve conter informações preditivas. Um teste pode ser informativo para diagnóstico, mas não para prognóstico, e vice-versa.

O grau de conteúdo da informação pode ser caracterizado quantitativamente - com base em dados experimentais (o chamado conteúdo de informação empírico) e qualitativamente - com base em uma análise significativa da situação (conteúdo de informação substantivo ou lógico).

3.2 Conteúdo da informação empírica (caso um - existe um critério mensurável)

A ideia de determinar o conteúdo da informação empírica é que os resultados dos testes sejam comparados com algum critério. Para fazer isso, calcule o coeficiente de correlação entre o critério e o teste (este coeficiente é chamado de coeficiente de informatividade e é denotado por r gk, onde I é a primeira letra da palavra “teste”, k na palavra “critério”).

O critério é considerado um indicador que reflete de forma óbvia e indiscutível a propriedade que será medida por meio do teste.

Muitas vezes acontece que existe um critério bem definido com o qual o teste proposto pode ser comparado. Por exemplo, ao avaliar a preparação especial de atletas em esportes com resultados medidos objetivamente, o próprio resultado costuma servir como tal critério: o teste cuja correlação com o resultado esportivo é maior é mais informativo. No caso de determinação do conteúdo da informação prognóstica, o critério é o indicador cuja previsão deve ser realizada (por exemplo, se for previsto o comprimento do corpo de uma criança, o critério é o comprimento do seu corpo na idade adulta).

Os critérios mais comuns em metrologia esportiva são:

Resultado esportivo.

Qualquer característica quantitativa de um exercício esportivo básico (por exemplo, comprimento da passada na corrida, força de impulso no salto, sucesso na luta sob a tabela no basquete, saque no tênis ou vôlei, porcentagem de passes longos precisos no futebol).

Os resultados de outro teste, cujo conteúdo informativo foi comprovado (isso é feito se a realização de um teste de critério for complicada e difícil e você puder selecionar outro teste que seja igualmente informativo, mas mais simples. Por exemplo, em vez de troca gasosa, determine a frequência cardíaca). Este caso especial, quando o critério é outro teste, é denominado conteúdo de informação competitiva.

Pertencer a um grupo específico. Por exemplo, você pode comparar membros da seleção nacional, mestres do esporte e atletas de primeira classe; pertencer a um desses grupos é um critério. Neste caso, são utilizados tipos especiais de análise de correlação.

O chamado critério composto, por exemplo a soma dos pontos no geral. Nesse caso, tipos gerais e tabelas de pontos podem ser geralmente aceitas ou compiladas novamente pelo experimentador (para saber como as tabelas são compiladas, consulte o próximo capítulo). Recorre-se a um critério composto quando não existe um critério único (por exemplo, se a tarefa é avaliar a aptidão física geral, a habilidade de um jogador em jogos desportivos, etc., nenhum indicador tomado por si só pode servir como critério).

Um exemplo de determinação do conteúdo informativo do mesmo teste - velocidade de corrida de 30 m em movimento para homens - com critérios diferentes é dado na Tabela 4.

A questão da escolha de um critério é essencialmente a mais importante para determinar o real significado e informatividade do teste. Por exemplo, se a tarefa é determinar o conteúdo informativo de um teste como o salto em distância de velocistas, você pode escolher diferentes critérios: o resultado na corrida de 100 m, o comprimento do passo, a proporção entre o comprimento do passo e o comprimento da perna ou à altura, etc. Conteúdo da informação o teste mudará neste caso (no exemplo dado, aumentou de 0,558 para velocidade de corrida para 0,781 para a relação “comprimento do passo/comprimento da perna”).

Nos desportos onde é impossível medir objectivamente o espírito desportivo, tentam contornar esta dificuldade introduzindo critérios artificiais. Por exemplo, em jogos esportivos coletivos, os especialistas classificam todos os jogadores de acordo com suas habilidades em uma determinada ordem (ou seja, eles fazem listas dos 20, 50 ou, digamos, 100 jogadores mais fortes). O lugar ocupado pelo atleta (como se costuma dizer, a sua classificação) é considerado um critério com o qual os resultados dos testes são comparados para determinar a sua informatividade.

Surge a pergunta: por que usar testes se o critério é conhecido? Por exemplo, não é mais fácil organizar competições de controle e determinar resultados esportivos do que determinar resultados em exercícios de controle? A utilização de testes apresenta as seguintes vantagens:

nem sempre é possível ou aconselhável determinar um resultado esportivo (por exemplo, as competições de maratona não podem ser realizadas com frequência; no inverno geralmente é impossível registrar um resultado no lançamento de dardo e no verão no esqui cross-country);

um resultado esportivo depende de muitos motivos (fatores), como força, resistência, técnica do atleta, etc. A utilização de testes permite determinar os pontos fortes e fracos de um atleta e avaliar cada um desses fatores separadamente

3.3 Informatividade empírica (caso dois - não há critério único; informatividade fatorial)

Muitas vezes acontece que não existe um critério único com o qual os resultados dos testes propostos possam ser comparados. Digamos que eles queiram encontrar os testes mais informativos para avaliar a prontidão de força dos jovens. O que preferir: flexões na barra ou flexões, agachamentos com barra, remadas com barra ou agachamento em posição supina? Qual poderia ser o critério para escolher o teste certo aqui?

Você pode oferecer aos participantes uma grande bateria de vários testes de força e, em seguida, selecionar entre eles aqueles que apresentam a maior correlação com os resultados de todo o complexo (afinal, você não pode usar sistematicamente todo o complexo - é muito complicado e inconveniente). Esses testes serão os mais informativos: fornecerão informações sobre os possíveis resultados das disciplinas para todo o conjunto inicial de testes. Mas os resultados de um conjunto de testes não são expressos em um número. É possível, claro, formar algum tipo de critério composto (por exemplo, determinar a quantidade de pontos obtidos em alguma escala). Porém, outra forma, baseada nas ideias da análise fatorial, é muito mais eficaz.

A análise fatorial é um dos métodos da estatística multivariada (a palavra “multidimensional” indica que muitos indicadores diferentes são estudados simultaneamente, por exemplo, os resultados dos sujeitos em muitos testes). Este é um método bastante complexo, pelo que aqui é aconselhável limitar-nos a apresentar apenas a sua ideia principal.

A análise fatorial parte do fato de que o resultado de qualquer teste é consequência da ação simultânea de uma série de fatores diretamente inobserváveis ​​​​(também conhecidos como latentes). Por exemplo, os resultados nas corridas de 100, 800 e 5.000 m dependem da velocidade, força, resistência do atleta, etc. Se você escolher dois testes que são influenciados aproximadamente igualmente pelos mesmos fatores, os resultados desses testes serão altamente correlacionados entre si (digamos, em corridas de distâncias de 800 e 1.000 m). Se os testes não tiverem fatores comuns ou tiverem pouca influência nos resultados, a correlação entre esses testes será baixa (por exemplo, a correlação entre o desempenho nos 100m e nos 5000m). Quando um grande número de testes diferentes são realizados e os coeficientes de correlação entre eles são calculados, então, por meio da análise fatorial, é possível determinar quantos fatores atuam juntos nesses testes e qual o grau de sua contribuição para cada teste. E então é fácil selecionar testes (ou combinações deles) que avaliem com mais precisão o nível de fatores individuais. Essa é a ideia do conteúdo de informação fatorial dos testes. O exemplo a seguir de um experimento específico mostra como isso é feito.

A tarefa era encontrar os testes mais informativos para avaliar a prontidão geral de força de alunos-atletas de terceira e primeira classe envolvidos em diferentes esportes. Para tanto, foi examinado. (N.V. Averkovich, V.M. Zatsiorsky, 1966) de acordo com 15 testes, 108 pessoas. Como resultado da análise fatorial, foram identificados três fatores: 1) força das extremidades superiores, 2) força das extremidades inferiores, 3) força dos músculos abdominais e flexores do quadril. Os testes mais informativos entre os testados foram: para o primeiro fator - flexões, para o segundo - um salto em distância em pé, para o terceiro - levantar as pernas retas enquanto está pendurado e o número máximo de transições para um agachamento a partir de uma posição supina dentro 1 minuto . Se nos limitarmos a apenas um teste, então o mais informativo foi o force-flip na barra (foi avaliado o número de repetições).

3.4 Informática empírica no trabalho prático

Ao utilizar na prática indicadores empíricos de informatividade, deve-se ter em mente que eles são válidos apenas em relação aos assuntos e às condições para os quais são calculados. Um teste que é informativo em um grupo de iniciantes pode se revelar completamente pouco informativo se você tentar usá-lo em um grupo de mestres do esporte.

O conteúdo informativo do teste não é o mesmo nos diferentes grupos. Em particular, em grupos de composição mais homogênea, o teste costuma ser menos informativo. Se o conteúdo informativo de uma prova em qualquer grupo for determinado, e então os mais fortes dele forem incluídos na seleção nacional, então o conteúdo informativo da mesma prova na seleção nacional será significativamente menor. As razões para isso ficam claras na Fig. 5: a seleção reduz a variância geral dos resultados do grupo e reduz a magnitude do coeficiente de correlação. Por exemplo, se determinarmos o conteúdo de informação de um teste como o MPC de nadadores de 400 m que têm resultados nitidamente diferentes (digamos, de 3,55 a 6,30), então o coeficiente de conteúdo de informação será muito alto (Y 4º>0,90); se realizarmos as mesmas medições em um grupo de nadadores com resultados de 3,55 a 4,30, o número g em valor absoluto não ultrapassará 0,4-0,6; se determinarmos o mesmo indicador entre os nadadores mais fortes do mundo (3,53>, 5=4,00), o coeficiente de conteúdo de informação em geral ""pode ​​ser igual a zero: apenas com a ajuda deste teste será impossível distinguir entre nadadores nadando, digamos, 3,55 e 3,59: e esses e outros têm valores MIC. será alto e aproximadamente o mesmo.

Os coeficientes de informatividade dependem muito da confiabilidade do teste e do critério. Um teste com baixa confiabilidade nem sempre é muito informativo, portanto, não faz sentido verificar testes de baixa confiabilidade quanto ao conteúdo informativo. A confiabilidade insuficiente do critério também leva a uma diminuição nos coeficientes de informatividade. Porém, neste caso, seria errado negligenciar o teste como pouco informativo - afinal, o limite superior da possível correlação de um teste não é ±1, mas sim o seu índice de confiabilidade. Portanto, é necessário comparar o coeficiente de conteúdo informacional com este índice. O conteúdo real da informação (ajustado pela falta de confiabilidade do critério) é calculado pela fórmula:

Assim, em um dos trabalhos, a classificação de um atleta de pólo aquático (a classificação foi considerada como critério de habilidade) foi estabelecida com base nas avaliações de 4 especialistas. A confiabilidade (consistência) do critério, determinada pelo coeficiente de correlação intraclasse, foi de 0,64. O coeficiente de informação foi de 0,56. O coeficiente real de conteúdo informacional (ajustado pela falta de confiabilidade do critério) é igual a:

Intimamente relacionado à informatividade e confiabilidade do teste está o conceito de sua capacidade discriminativa, que é entendida como a diferença mínima entre os sujeitos que é diagnosticada pelo teste (este conceito tem significado semelhante ao conceito de sensibilidade do dispositivo) . A capacidade discriminativa do teste depende de:

Variação interindividual nos resultados. Por exemplo, um teste como “número máximo de arremessos repetidos de uma bola de basquete contra uma parede a uma distância de 4 m em 10 segundos” é bom para iniciantes, mas inadequado para jogadores de basquete habilidosos, pois todos mostram aproximadamente o mesmo resultado e tornar-se indistinguível. Em muitos casos, a variação entre avaliadores (variação entre classes) pode ser aumentada aumentando a dificuldade do teste. Por exemplo, se você aplicar a atletas de diferentes qualificações um teste funcional que seja fácil para eles (digamos, 20 agachamentos ou trabalhar em uma bicicleta ergométrica com potência de 200 kgm/min), então a magnitude das alterações fisiológicas em todos será aproximadamente o mesmo e será impossível avaliar o grau de prontidão. Se você oferecer a eles uma tarefa difícil, as diferenças entre os atletas se tornarão grandes e com base nos resultados dos testes será possível avaliar a preparação dos atletas.

Confiabilidade (ou seja, a relação entre variação inter e intraindividual) do teste e critério. Se os resultados do mesmo sujeito no salto em distância variam, digamos,

Nos casos de ±10 cm, então, embora o comprimento do salto possa ser determinado com uma precisão de ±1 cm, é impossível distinguir com confiança os sujeitos cujos resultados “verdadeiros” são 315 e 316 cm.

Não existe um valor fixo para o conteúdo informativo de um teste, após o qual o teste pode ser considerado adequado. Muito depende da situação específica: a precisão desejada da previsão, a necessidade de obter pelo menos algumas informações adicionais sobre o atleta, etc. Na prática, são utilizados testes para diagnóstico, cujo conteúdo de informação não é inferior a 0,3 Para uma previsão, via de regra, é necessário um conteúdo de informação superior - pelo menos 0,6.

O conteúdo informativo de uma bateria de testes é naturalmente superior ao conteúdo informativo de um teste. Muitas vezes acontece que o conteúdo de informação de um teste individual é demasiado baixo para utilizar este teste. O conteúdo informativo de uma bateria de testes pode ser suficiente.

O conteúdo informativo de um teste nem sempre pode ser determinado por meio de um experimento e do processamento matemático de seus resultados. Por exemplo, se a tarefa é desenvolver tickets para exames ou tópicos para dissertações (este também é um tipo de teste), é necessário selecionar questões mais informativas, pelas quais você possa avaliar com mais precisão o conhecimento dos graduados e sua preparação para o trabalho prático. Até agora, nesses casos, baseiam-se apenas numa análise lógica e significativa da situação.

Às vezes acontece que o conteúdo informativo de um teste fica claro sem nenhum experimento, principalmente quando o teste é simplesmente parte das ações que um atleta realiza nas competições. Quase não são necessários experimentos para comprovar a informatividade de indicadores como o tempo necessário para realizar as voltas na natação, a velocidade nas últimas etapas da corrida no salto em distância, a porcentagem de lances livres no basquete, a qualidade do servir no tênis ou no vôlei.

Contudo, nem todos esses testes são igualmente informativos. Por exemplo, um lançamento lateral no futebol, embora seja um elemento do jogo, dificilmente pode ser considerado um dos indicadores mais importantes da habilidade dos jogadores de futebol. Se houver muitos desses testes e você precisar selecionar os mais informativos, não poderá prescindir de métodos matemáticos de teoria dos testes.

A análise do conteúdo informativo da prova e sua justificativa experimental e matemática devem se complementar. Nenhuma destas abordagens tomadas por si só é suficiente. Em particular, se como resultado de um experimento for determinado um alto coeficiente de conteúdo informativo de um teste, é necessário verificar se isso não é consequência da chamada falsa correlação. Sabe-se que falsas correlações aparecem quando os resultados de ambas as características correlacionadas são influenciados por algum terceiro indicador, o que por si só não representa

interesse. Por exemplo, entre os alunos do ensino médio pode-se encontrar uma correlação significativa entre o resultado na corrida de 100 m e o conhecimento de geometria, pois eles, comparados aos alunos do ensino fundamental, em média apresentarão maior desempenho tanto na corrida quanto no conhecimento de geometria. A terceira característica estranha que causou o surgimento de uma correlação foi a idade dos sujeitos. É claro que o pesquisador que não percebeu isso e recomendou o exame de geometria como prova para corredores de 100 m cometeria um erro. Para evitar tais erros, é necessário analisar as relações de causa e efeito que causaram o correlação entre o critério e o teste. É útil, em particular, imaginar o que aconteceria se os resultados dos testes melhorassem. Isso levará a um aumento nos resultados dos critérios? No exemplo acima, isso significa: se o aluno conhecer melhor geometria, ele será mais rápido na corrida de 100 m? A óbvia resposta negativa leva a uma conclusão natural: o conhecimento da geometria não pode servir de teste para velocistas. A correlação encontrada é falsa. É claro que as situações da vida real são muito mais complexas do que este exemplo deliberadamente estúpido.

Um caso especial de informatividade significativa dos testes é a informatividade por definição. Nesse caso, eles simplesmente concordam sobre o significado que deve ser dado a esta ou aquela palavra (termo). Por exemplo, eles dizem: “um salto em altura em pé é caracterizado pela habilidade de saltar”. Seria mais correto dizer o seguinte: “vamos concordar em chamar capacidade de salto o que é medido pelo resultado de saltar de um lugar”. Esse acordo mútuo é necessário, pois evita mal-entendidos desnecessários (afinal, alguém pode entender pela habilidade de salto os resultados de um salto dez vezes maior em uma perna e considerar um salto em altura em pé, digamos, um teste de força “explosiva” das pernas ).

56.0 Padronização de testes

A padronização dos testes de aptidão física para avaliar o desempenho aeróbico humano é alcançada através da adesão aos seguintes princípios.

A metodologia de teste deve permitir medições diretas ou cálculos indiretos do consumo máximo de oxigênio do corpo (capacidade aeróbica), uma vez que este indicador fisiológico da aptidão física humana é o mais importante. Será designado pelo símbolo gpax1ggsht U 0g e expresso em mililitros por quilograma de peso do sujeito por minuto (ml/kg-min.).

Em geral, a metodologia de teste deve ser a mesma para medições de laboratório e de campo, porém:

1. Em condições laboratoriais (em laboratórios estacionários e móveis), o desempenho aeróbio de uma pessoa pode ser determinado diretamente usando equipamentos bastante complexos e um grande número de medições.

2. No campo, o desempenho aeróbio é avaliado indiretamente com base num número limitado de medições fisiológicas.

A metodologia de teste deve permitir a comparação dos seus resultados.

Os testes devem ser realizados em um dia e de preferência sem interrupções. Isto tornará possível distribuir de forma expedita tempo, equipamento e esforço durante o teste inicial e reteste.

A metodologia de teste deve ser suficientemente flexível para permitir testar grupos de pessoas com diferentes capacidades físicas, diferentes idades, géneros, diferentes níveis de atividade, etc.

57,0. Seleção de equipamentos

Todos os princípios de testes fisiológicos acima podem ser observados, em primeiro lugar, sujeitos à seleção correta dos seguintes meios técnicos:

esteira,

bicicleta ergométrica,

stepergômetro,

equipamentos auxiliares necessários que possam ser utilizados em qualquer tipo de teste.

57.1. A esteira pode ser usada em uma ampla variedade de estudos. No entanto, este dispositivo é o mais caro. Mesmo a versão menor é muito volumosa para ser amplamente utilizada em campo. A esteira deve permitir velocidades de 3 a (pelo menos) 8 km/h (2-5 mph) e inclinações de 0 a 30%. A inclinação de uma esteira é definida como a porcentagem da elevação vertical em relação à distância horizontal percorrida."

A distância e a elevação vertical devem ser expressas em metros, a velocidade em metros por segundo (m/s) ou quilômetros por hora (km/h).

57.2. Bicicleta ergométrica. Este dispositivo é fácil de usar tanto em condições de laboratório quanto de campo. É bastante versátil, podendo ser utilizado para realizar trabalhos de intensidade variada - do nível mínimo ao máximo.

A bicicleta ergométrica possui sistema de frenagem mecânica ou elétrica. O sistema de frenagem elétrica pode ser alimentado por uma fonte externa ou por um gerador localizado no ergômetro.

A resistência mecânica ajustável é expressa em quilogramas metros por minuto (kgm/min) e em watts. Quilômetros por minuto são convertidos em watts usando a fórmula:

1 watt = 6 kgm/min. 2

A bicicleta ergométrica deve ter um assento fixo móvel para que a altura de sua posição possa ser ajustada para cada pessoa. Durante o teste, o assento é instalado de forma que a pessoa sentada nele possa alcançar o pedal inferior com a perna quase totalmente esticada. Em média, a distância entre o assento e o pedal na posição mais baixada deve ser 109% do comprimento da perna do sujeito de teste.

Existem vários modelos de bicicleta ergométrica. No entanto, o tipo de ergômetro não afeta os resultados do experimento se a resistência especificada em watts ou quilogramas por minuto corresponder exatamente à carga externa total.

Stepergômetro. Trata-se de um dispositivo relativamente barato, com altura de degrau ajustável de 0 a 50 cm, que, assim como uma bicicleta ergométrica, pode ser facilmente utilizado tanto em laboratório quanto em campo.

Comparação de três opções de teste. Cada um destes instrumentos tem as suas vantagens e desvantagens (dependendo se é utilizado em laboratório ou no campo). Normalmente, ao trabalhar em esteira, o valor de max1ggsht U07 é um pouco maior do que ao trabalhar em bicicleta ergométrica; por sua vez, as leituras da bicicleta ergométrica excedem as leituras do stepergômetro.

O nível de gasto energético dos sujeitos em repouso ou realizando uma tarefa para superar a gravidade é diretamente proporcional ao seu peso. Portanto, os exercícios na esteira e no stepergômetro criam para todos os sujeitos a mesma carga relativa de levantamento (seu corpo. - Ed.) até uma determinada altura: a uma determinada velocidade e inclinação da esteira, frequência dos passos e alturas dos passos no stepergômetro, a altura do corpo será elevada - é a mesma (mas o trabalho realizado é diferente. - Ed.). Por outro lado, uma bicicleta ergométrica com um valor fixo de uma determinada carga requer quase o mesmo gasto energético, independentemente do sexo e da idade do sujeito.

58.0, Notas Gerais sobre Procedimentos de Teste

Para aplicar testes a grandes grupos de pessoas, são necessários métodos de teste simples e eficientes em termos de tempo. Porém, para um estudo mais detalhado das características fisiológicas do sujeito, são necessários testes mais aprofundados e trabalhosos. Para obter mais valor dos testes e utilizá-los de forma mais flexível, é necessário encontrar o compromisso ideal entre estes dois requisitos.

58.1. Intensidade de trabalho. O teste deve começar com pequenas cargas que os sujeitos de teste mais fracos possam suportar. A avaliação das capacidades adaptativas dos sistemas cardiovascular e respiratório deve ser realizada durante o trabalho com cargas crescentes. Os limites funcionais devem, portanto, ser estabelecidos com precisão suficiente. Considerações práticas sugerem tomar a taxa metabólica basal (isto é, taxa metabólica de repouso) como uma unidade de medida para a quantidade de energia necessária para realizar uma determinada atividade. A carga inicial e suas etapas subsequentes são expressas em Meta, múltiplos da taxa metabólica de uma pessoa em estado de repouso completo. Os indicadores fisiológicos subjacentes ao Meta são a quantidade de oxigênio (em mililitros por minuto) consumida por uma pessoa em repouso, ou seu equivalente calórico (em quilocalorias por minuto).

Para monitorar cargas em unidades Met ou valores equivalentes de consumo de oxigênio diretamente durante os testes, são necessários equipamentos eletrônicos complexos de computação, que atualmente ainda são relativamente inacessíveis. Portanto, ao determinar a quantidade de oxigênio necessária ao organismo para realizar cargas de determinado tipo e intensidade, é praticamente conveniente utilizar fórmulas empíricas. Os valores previstos (com base em fórmulas empíricas. - Ed.) valores de consumo de oxigênio ao trabalhar em esteira - por velocidade e inclinação, durante um teste de degrau - por altura e frequência de passos estão em boa concordância com os resultados de medições diretas e pode ser utilizado como equivalente fisiológico do esforço físico, com o qual se correlacionam todos os indicadores fisiológicos obtidos durante o teste.

58.2. Duração dos testes. O desejo de encurtar o processo de teste não deve prejudicar as metas e objetivos do teste. Testes demasiado curtos não produzirão resultados suficientemente distinguíveis e a sua capacidade discriminativa será pequena; testes muito longos ativam em maior medida os mecanismos termorreguladores, o que interfere no estabelecimento do desempenho aeróbico máximo. No procedimento de teste recomendado, cada nível de carga é mantido durante 2 minutos. O tempo médio de teste é de 10 a 16 minutos.

58.3. Indicações para interromper o teste. Os testes devem ser interrompidos, a menos que:

a pressão de pulso cai continuamente apesar do aumento da carga de trabalho;

a pressão arterial sistólica excede 240-250 mmHg. Arte.;

a pressão arterial diastólica sobe acima de 125 mm Hg. Arte.;

aparecem sintomas de mal-estar, como aumento da dor no peito, falta de ar intensa, claudicação intermitente;

aparecem sinais clínicos de anóxia: palidez ou cianose da face, tonturas, fenômenos psicóticos, falta de resposta à irritação;

As leituras do eletrocardiograma indicam arritmia superventricular ou ventricular paroxística, aparecimento de complexos extra-sistólicos ventriculares que ocorrem antes do final da onda T, distúrbios de condução, exceto bloqueio leve de L V, diminuição do tipo horizontal ou descendente /?--5G em mais de 0,3 mV. .;";, -

58.4. Medidas de precaução.

Saúde do sujeito. Antes de ser examinado, o sujeito deve passar por um exame médico e receber um atestado de saúde. É altamente aconselhável fazer um eletrocardiograma (pelo menos uma derivação torácica). Para homens com mais de 40 anos, o eletrocardiograma é obrigatório. Medições de pressão arterial repetidas regularmente devem ser parte integrante de todo o procedimento de teste. No final do teste, os participantes devem ser informados sobre as medidas para prevenir a acumulação perigosa de sangue nas extremidades inferiores.

Contra-indicações. O sujeito não poderá realizar provas nos seguintes casos:

falta de autorização do médico para participação em exames com cargas máximas;

temperatura oral excede 37,5°C;

a frequência cardíaca após um descanso longo está acima de 100 batimentos/min;

declínio óbvio na atividade cardíaca;

caso de infarto do miocárdio ou miocardite nos últimos 3 meses; sintomas e leituras de eletrocardiograma indicando a presença dessas doenças; sinais de angina de peito;

doenças infecciosas, incluindo resfriados.

A menstruação não é contra-indicação à participação nos testes. Porém, em alguns casos é aconselhável alterar o horário de sua realização.

B. TESTES PADRÃO

59,0. Descrição da principal metodologia para condução do padrão

Em todos os três tipos de exercício, e independentemente de o teste ser realizado com carga máxima ou submáxima, o procedimento básico de teste é o mesmo.

O sujeito chega ao laboratório com roupas esportivas leves e calçados macios. Dentro de 2 horas. Antes de iniciar o teste, ele não deve comer, tomar café ou fumar.

Descansar. A prova é precedida de um período de descanso com duração de 15 minutos. Durante esse tempo, enquanto os instrumentos de medição fisiológica estão sendo instalados, o sujeito senta-se confortavelmente em uma cadeira.

Período de acomodação. O primeiro teste de qualquer assunto, como todos os testes repetidos, fornecerá resultados bastante confiáveis ​​​​se o teste principal for precedido por um curto período de exercício com carga baixa - um período de acomodação. Dura 3 minutos. e serve aos seguintes propósitos:

familiarizar o sujeito com os equipamentos e tipo de trabalho que deverá realizar;

estudo preliminar da resposta fisiológica do sujeito a uma carga de aproximadamente 4 Meta, o que corresponde a uma frequência cardíaca de aproximadamente 100 batimentos/min;

acelerar a adaptação do corpo ao próprio teste.

Descansar. O período de acomodação é seguido por um curto período de descanso (2 min.); o sujeito senta-se confortavelmente em uma cadeira enquanto o experimentador faz os preparativos técnicos necessários.

Teste. No início do teste é definida uma carga igual à carga do período de acomodação, e o sujeito realiza os exercícios sem interrupção até a conclusão do teste. A cada 2 minutos. a carga de trabalho aumenta em 1 metro.

O teste é interrompido quando ocorre uma das seguintes condições:

o sujeito não consegue continuar realizando a tarefa;

há sinais de descompensação fisiológica (ver 58.3);

os dados obtidos na última etapa da carga permitem a extrapolação do desempenho aeróbico máximo com base em medidas fisiológicas sequenciais (realizadas durante o teste. - Nota do editor).

59,5. Medidas. O consumo máximo de oxigênio em mililitros por quilograma por minuto é medido diretamente ou calculado. Os métodos para determinar o consumo de oxigênio são muito diversos, assim como as técnicas adicionais utilizadas para analisar as capacidades fisiológicas de cada indivíduo. Isto será discutido mais detalhadamente depois.

59,6. Recuperação. No final da experiência, a observação fisiológica continua durante pelo menos 3 minutos. O sujeito novamente descansa em uma cadeira, levantando levemente as pernas.

Observação. A técnica de teste descrita fornece dados fisiológicos comparáveis ​​obtidos com a mesma sequência de aumento de carga em esteira, bicicleta ergométrica e stepergômetro. Abaixo, a metodologia de teste é descrita separadamente para cada um dos três dispositivos.

60,0. Teste em esteira

Equipamento. Esteira e equipamentos auxiliares necessários.

Descrição. Os procedimentos básicos de teste descritos em 59.0 são seguidos cuidadosamente.

A velocidade da esteira com o sujeito caminhando nela é de 80 m/min (4,8 km/h ou 3 mph). Nessa velocidade, a energia necessária para se mover horizontalmente é de aproximadamente 3 Meta; Cada aumento de 2,5% na inclinação adiciona uma unidade de taxa metabólica inicial, ou seja, 1 Met, ao gasto energético. No final dos primeiros 2 min. a inclinação da esteira aumenta rapidamente para 5%, ao final dos próximos 2 minutos - para 7,5%, depois para 10%, 12,5%, etc. 1.

Documentos semelhantes

    Realização de testes de controle usando exercícios de controle ou testes para determinar a prontidão para exercícios físicos. O problema da padronização de testes. Validade externa e interna dos testes. Manter um protocolo de exame de controle.

    resumo, adicionado em 12/11/2009

    Características das habilidades motoras e métodos de desenvolvimento de flexibilidade, resistência, agilidade, força e velocidade. Testando as habilidades motoras de escolares nas aulas de educação física. Aplicação de testes motores em atividades práticas.

    tese, adicionada em 25/02/2011

    Avaliar a dinâmica das mudanças nos dados antropométricos em escolares que praticam sistematicamente o atletismo e em escolares que não participam de seções esportivas. Desenvolvimento de testes para determinação da aptidão física geral; análise de resultados.

    tese, adicionada em 07/07/2015

    As principais orientações de utilização dos testes, sua classificação. Testes para seleção em luta livre. Métodos de avaliação de conquistas esportivas. Testando a resistência especial de um lutador. A relação entre os indicadores de teste e a habilidade técnica dos lutadores de estilo livre.

    tese, adicionada em 03/03/2012

    Avaliar a resistência especial de um nadador através de exercícios de controle. Adaptabilidade das reações básicas dos sistemas fisiológicos em ambiente aquático. Desenvolvimento de princípios para avaliação de indicadores médicos e biológicos utilizados no teste de um nadador.

    artigo, adicionado em 03/08/2009

    Consideração da energia saudável como base fundamental da saúde. Familiarização com as características dos exercícios de ginástica de acordo com o sistema qigong. Seleção de um conjunto de exercícios para exercícios em casa. Elaboração de testes para tirar conclusões sobre o trabalho realizado.

    tese, adicionada em 07/07/2015

    A metrologia esportiva é o estudo das grandezas físicas na educação física e nos esportes. Noções básicas de medição, teoria dos testes, avaliações e normas. Métodos de obtenção de informação sobre avaliação quantitativa da qualidade dos indicadores; qualimetria. Elementos de estatística matemática.

    apresentação, adicionada em 12/02/2012

    A essência e importância do controle na educação física e suas modalidades. Teste e avaliação das habilidades motoras adquiridas nas aulas de educação física. Testando o nível de aptidão física. Acompanhamento do estado funcional dos alunos.

    trabalho do curso, adicionado em 06/06/2014

    Cálculo de erros de medição absolutos e relativos. Convertendo resultados de testes em pontuações usando escalas regressivas e proporcionais. Classificação dos resultados dos testes. Mudanças nas colocações em grupo em comparação com avaliações anteriores.

    teste, adicionado em 11/02/2013

    Modo de atividade motora. O papel dos fatores que determinam o desempenho físico de jogadores de futebol em diferentes fases do treinamento de longa duração. Tipos de ajudas ergogênicas. Metodologia para realização de testes para determinação do nível de desempenho físico.



Artigos aleatórios

Acima