Um modelo estatístico é uma projeção matemática que incorpora um conjunto de diferentes suposições sobre a geração de alguns dados amostrais. O termo é frequentemente apresentado de uma forma muito idealizada.
As suposições expressas no modelo estatístico mostram um conjunto de distribuições de probabilidade. Muitos dos quais se destinam a aproximar corretamente a distribuição da qual um determinado conjunto de informações está sendo extraído. As distribuições de probabilidade inerentes aos modelos estatísticos são o que distinguem a projeção de outras modificações matemáticas.
Projeção geral
Modelo matemático é uma descrição do sistema usando certos conceitos e linguagem. Eles se aplicam às ciências naturais (como física, biologia, ciências da terra, química) e disciplinas de engenharia (como ciência da computação, engenharia elétrica), bem como às ciências sociais (como economia, psicologia, sociologia, ciência política).
O modelo pode ajudar a explicar o sistema eestude a influência de vários componentes e faça previsões de comportamento.
Modelos matemáticos podem assumir muitas formas, incluindo sistemas dinâmicos, projeções estatísticas, equações diferenciais ou parâmetros da teoria dos jogos. Esses e outros tipos podem se sobrepor, e esse modelo inclui muitas estruturas abstratas. Em geral, as projeções matemáticas também podem incluir componentes lógicos. Em muitos casos, a qualidade de um campo científico depende de quão bem os modelos matemáticos desenvolvidos teoricamente concordam com os resultados de experimentos repetidos. A f alta de acordo entre os processos teóricos e as medições experimentais muitas vezes leva a avanços importantes à medida que teorias melhores são desenvolvidas.
Nas ciências físicas, o modelo matemático tradicional contém um grande número dos seguintes elementos:
- Equações de controle.
- Submodelos adicionais.
- Definir equações.
- Equações constituintes.
- Suposições e limitações.
- Condições iniciais e de contorno.
- Restrições clássicas e equações cinemáticas.
Fórmula
Um modelo estatístico, via de regra, é definido por equações matemáticas que combinam uma ou mais variáveis aleatórias e, possivelmente, outras variáveis de ocorrência natural. Da mesma forma, a projeção é considerada "o conceito formal de um conceito."
Todos os testes estatísticos de hipóteses e avaliações estatísticas são obtidos a partir de modelos matemáticos.
Introdução
Informalmente, um modelo estatístico pode ser visto como uma suposição (ou conjunto de suposições) com uma propriedade específica: permite calcular a probabilidade de qualquer evento. Como exemplo, considere um par de dados comuns de seis faces. Duas suposições estatísticas diferentes sobre o osso precisam ser exploradas.
A primeira suposição é:
Para cada um dos dados, a probabilidade de obter um dos números (1, 2, 3, 4, 5 e 6) é: 1/6.
A partir desta suposição, podemos calcular a probabilidade de ambos os dados: 1:1/6×1/6=1/36.
Mais geralmente, você pode calcular a probabilidade de qualquer evento. No entanto, deve-se entender que é impossível calcular a probabilidade de qualquer outro evento não trivial.
Somente a primeira opinião coleta um modelo matemático estatístico: devido ao fato de que com apenas uma suposição é possível determinar a probabilidade de cada ação.
No exemplo acima com permissão inicial, é fácil determinar a possibilidade de um evento. Com alguns outros exemplos, o cálculo pode ser difícil ou até mesmo irreal (por exemplo, pode exigir muitos anos de cálculos). Para uma pessoa que projeta um modelo de análise estatística, tal complexidade é considerada inaceitável: a implementação de cálculos não deve ser praticamente impossível e teoricamente impossível.
Definição formal
Em termos matemáticos, o modelo estatístico de um sistema é normalmente considerado como um par (S, P), onde S éo conjunto de observações possíveis, ou seja, o espaço amostral, e P é o conjunto de distribuições de probabilidade em S.
A intuição desta definição é a seguinte. Supõe-se que existe uma distribuição de probabilidade "verdadeira" causada pelo processo que gera determinados dados.
Set
É ele quem determina os parâmetros do modelo. A parametrização geralmente requer valores diferentes para resultar em distribuições diferentes, ou seja,
deve segurar (em outras palavras, deve ser injetivo). Diz-se que uma parametrização que atende ao requisito é identificável.
Exemplo
Assuma que há um certo número de alunos de diferentes idades. A altura da criança será estocasticamente relacionada ao ano de nascimento: por exemplo, quando um estudante tem 7 anos, isso afeta a probabilidade de crescimento, apenas para que a pessoa tenha mais de 3 centímetros.
Você pode formalizar essa abordagem em um modelo de regressão retilínea, por exemplo, como segue: altura i=b 0 + b 1agei + εi, onde b 0 é a interseção, b 1 é o parâmetro pelo qual a idade é multiplicado ao obter o monitoramento de elevação. Este é um termo de erro. Ou seja, assume que a altura é prevista pela idade com um certo erro.
Um formulário válido deve corresponder a todos os pontos de informação. Assim, a direção retilínea (nível i=b 0 + b 1agei) não é capaz de ser uma equação para um modelo de dados - se não responder claramente a todos os pontos. Ou sejasem exceção, todas as informações estão perfeitamente na linha. A margem de erro εi deve ser inserida na equação para que o formulário corresponda a absolutamente todos os itens de informação.
Para fazer uma inferência estatística, primeiro precisamos assumir algumas distribuições de probabilidade para ε i. Por exemplo, pode-se supor que as distribuições de ε i têm uma forma gaussiana com média zero. Neste caso, o modelo terá 3 parâmetros: b 0, b 1 e a variância da distribuição gaussiana.
Você pode especificar formalmente o modelo como (S, P).
Neste exemplo, o modelo é definido especificando S e, portanto, algumas suposições podem ser feitas sobre P. Existem duas opções:
Esse crescimento pode ser aproximado por uma função linear da idade;
Que os erros na aproximação sejam distribuídos como dentro de uma Gaussiana.
Observações gerais
Parâmetros estatísticos de modelos são uma classe especial de projeção matemática. O que diferencia uma espécie de outra? Assim é que o modelo estatístico é não determinístico. Assim, nela, diferentemente das equações matemáticas, certas variáveis não possuem determinados valores, mas sim uma distribuição de possibilidades. Ou seja, as variáveis individuais são consideradas estocásticas. No exemplo acima, ε é uma variável estocástica. Sem ele, a projeção seria determinística.
A construção de um modelo estatístico é frequentemente usada, mesmo que o processo do material seja considerado determinístico. Por exemplo, jogar moedas é, em princípio, uma ação predeterminante. No entanto, na maioria dos casos, isso ainda é modelado como estocástico (através de um processo de Bernoulli).
De acordo com Konishi e Kitagawa, existem três objetivos para um modelo estatístico:
- Previsões.
- Mineração de informações.
- Descrição das estruturas estocásticas.
Tamanho da projeção
Assuma que existe um modelo de previsão estatística, O modelo é chamado paramétrico se O tem dimensão finita. Na solução, você deve escrever que
onde k é um inteiro positivo (R representa quaisquer números reais). Aqui k é chamado de dimensão do modelo.
Como exemplo, podemos assumir que todos os dados vêm de uma distribuição gaussiana univariada:
Neste exemplo, a dimensão de k é 2.
E como outro exemplo, os dados podem ser assumidos como consistindo em (x, y) pontos, que são considerados distribuídos em uma linha reta com resíduos gaussianos (com média zero). Então a dimensão do modelo econômico estatístico é igual a 3: a interseção da linha, sua inclinação e a variância da distribuição dos resíduos. Deve-se notar que em geometria uma linha reta tem uma dimensão de 1.
Embora o valor acima seja tecnicamente o único parâmetro que tem dimensão k, às vezes é considerado que contém k valores distintos. Por exemplo, com uma distribuição gaussiana unidimensional, O é o único parâmetro com tamanho 2, mas às vezes é considerado como contendo doisparâmetro individual - valor médio e desvio padrão.
Um modelo de processo estatístico é não paramétrico se o conjunto de valores O for de dimensão infinita. Também é semi-paramétrico se tiver parâmetros de dimensão finita e de dimensão infinita. Formalmente, se k é uma dimensão de O e n é o número de amostras, os modelos semiparamétricos e não paramétricos têm
então o modelo é semi-paramétrico. Caso contrário, a projeção não é paramétrica.
Modelos paramétricos são as estatísticas mais usadas. Em relação às projeções semiparamétricas e não paramétricas, Sir David Cox afirmou:
"Normalmente, eles envolvem o menor número de hipóteses sobre textura e forma de distribuição, mas incluem teorias poderosas sobre autossuficiência."
Modelos aninhados
Não confunda com projeções multiníveis.
Dois modelos estatísticos são aninhados se o primeiro puder ser convertido no segundo impondo restrições aos parâmetros do primeiro. Por exemplo, o conjunto de todas as distribuições gaussianas tem um conjunto aninhado de distribuições de média zero:
Ou seja, você precisa limitar a média no conjunto de todas as distribuições gaussianas para obter distribuições com média zero. Como um segundo exemplo, o modelo quadrático y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) tem um modelo linear embutido y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - ou seja, o parâmetro b2 é igual a 0.
Em ambos os exemplos, o primeiro modelo tem uma dimensionalidade maior do que o segundo modelo. Isso é frequente, mas nem sempre é o caso. Outro exemplo é o conjunto de distribuições gaussianas com média positiva, que tem dimensão 2.
Comparação de modelos
Assume-se que existe uma distribuição de probabilidade "verdadeira" subjacente aos dados observados induzida pelo processo que os gerou.
E também os modelos podem ser comparados entre si, utilizando análise exploratória ou confirmatória. Em uma análise exploratória, diferentes modelos são formulados e é feita uma avaliação de quão bem cada um deles descreve os dados. Em uma análise confirmatória, a hipótese formulada anteriormente é comparada com a original. Critérios comuns para isso incluem P 2, fator Bayesiano e probabilidade relativa.
Pensamento de Konishi e Kitagawa
“A maioria dos problemas em um modelo matemático estatístico pode ser pensada como questões preditivas. Eles geralmente são formulados como comparações de vários fatores.”
Além disso, Sir David Cox disse: "Como tradução do tópico, o problema no modelo estatístico é muitas vezes a parte mais importante da análise."