As suposições incorporadas na modelagem estatística descrevem um conjunto de distribuições de probabilidade, algumas das quais se supõe que se aproximem adequadamente da distribuição. Um conjunto específico de dados é selecionado na definição. As distribuições de probabilidade inerentes à modelagem estatística são o que distinguem os modelos estatísticos de outros modelos matemáticos não estatísticos.
Conexão com a matemática
Este método científico está enraizado principalmente na matemática. A modelagem estatística de sistemas geralmente é dada por equações matemáticas que relacionam uma ou mais variáveis aleatórias e possivelmente outras variáveis não aleatórias. Assim, um modelo estatístico é uma "representação formal de uma teoria" (Hermann Ader, citando Kenneth Bollen).
Todos os testes de hipóteses estatísticas e todas as estimativas estatísticas são derivadas de modelos estatísticos. De maneira mais geral, os modelos estatísticos fazem parte da base da inferência estatística.
Métodos de estatísticamodelagem
Informalmente, um modelo estatístico pode ser pensado como uma suposição estatística (ou conjunto de suposições estatísticas) com uma certa propriedade: essa suposição nos permite calcular a probabilidade de qualquer evento. Como exemplo, considere um par de dados comuns de seis faces. Estudaremos duas suposições estatísticas diferentes sobre o osso.
A primeira suposição estatística constitui o modelo estatístico, pois com apenas uma suposição podemos calcular a probabilidade de qualquer evento. A suposição estatística alternativa não constitui um modelo estatístico, pois com apenas uma suposição não podemos calcular a probabilidade de cada evento.
No exemplo acima com a primeira suposição, é fácil calcular a probabilidade de um evento. No entanto, em alguns outros exemplos, o cálculo pode ser complexo ou até impraticável (por exemplo, pode exigir milhões de anos de computação). Para a suposição que constitui um modelo estatístico, essa dificuldade é aceitável: realizar o cálculo não precisa ser praticável, apenas teoricamente possível.
Exemplos de modelos
Suponha que temos uma população de crianças em idade escolar com crianças distribuídas uniformemente. A altura de uma criança será estocasticamente relacionada à idade: por exemplo, quando sabemos que uma criança tem 7 anos, isso afeta a probabilidade de que a criança tenha 5 pés de altura (cerca de 152 cm). Poderíamos formalizar essa relação em um modelo de regressão linear, por exemplo: crescimento=b0 + b1agei+ εi, onde b0 é a interseção, b1 é o parâmetro pelo qual a idade é multiplicada na obtenção da previsão de crescimento, εi é o termo de erro. Isso implica que a altura é prevista pela idade com algum erro.
Um modelo válido deve corresponder a todos os pontos de dados. Portanto, uma linha reta (heighti=b0 + b1agei) não pode ser uma equação para um modelo de dados - a menos que se ajuste a todos os pontos de dados exatamente, ou seja, todos os pontos de dados estão perfeitamente na linha. O termo de erro εi deve ser incluído na equação para que o modelo se ajuste a todos os pontos de dados.
Para fazer uma inferência estatística, primeiro precisamos assumir algumas distribuições de probabilidade para εi. Por exemplo, podemos assumir que as distribuições de εi são gaussianas, com média zero. Neste caso, o modelo terá 3 parâmetros: b0, b1 e a variância da distribuição gaussiana.
Descrição Geral
Um modelo estatístico é uma classe especial de modelo matemático. O que distingue um modelo estatístico de outros modelos matemáticos é que ele não é determinístico. É usado para modelar dados estatísticos. Assim, em um modelo estatístico definido com equações matemáticas, algumas variáveis não possuem valores específicos, mas sim distribuições de probabilidade; ou seja, algumas variáveis são estocásticas. No exemplo acima, ε é uma variável estocástica; sem essa variável, o modelo foiseria determinístico.
Modelos estatísticos são frequentemente usados em análise e modelagem estatística, mesmo que o processo físico que está sendo modelado seja determinístico. Por exemplo, lançar moedas é, em princípio, um processo determinístico; ainda é geralmente modelado como estocástico (através de um processo de Bernoulli).
Modelos paramétricos
Os modelos paramétricos são os modelos estatísticos mais usados. Em relação aos modelos semiparamétricos e não paramétricos, Sir David Cox disse: "Eles geralmente incluem menos suposições sobre a estrutura e a forma da distribuição, mas geralmente contêm fortes suposições de independência". Como todos os outros modelos mencionados, eles também são frequentemente usados no método estatístico de modelagem matemática.
Modelos multinível
Modelos multinível (também conhecidos como modelos lineares hierárquicos, modelos de dados aninhados, modelos mistos, coeficientes aleatórios, modelos de efeitos aleatórios, modelos de parâmetros aleatórios ou modelos particionados) são modelos de parâmetros estatísticos que variam em mais de um nível. Um exemplo é um modelo de desempenho do aluno que contém métricas para alunos individuais, bem como métricas para salas de aula nas quais os alunos são agrupados. Esses modelos podem ser pensados como generalizações de modelos lineares (em particular, regressão linear), embora também possam ser estendidos a modelos não lineares. Esses modelos tornaram-semuito mais popular quando o poder de computação e o software suficientes se tornaram disponíveis.
Modelos multiníveis são particularmente adequados para projetos de pesquisa em que os dados dos participantes são organizados em mais de um nível (ou seja, dados aninhados). As unidades de análise são geralmente indivíduos (em um nível inferior) que estão aninhados em unidades de contexto/agregado (em um nível superior). Embora o nível mais baixo de dados em modelos multinível seja tipicamente individual, medições repetidas de indivíduos também podem ser consideradas. Assim, os modelos multinível fornecem um tipo alternativo de análise para análise de medidas repetidas univariadas ou multivariadas. Diferenças individuais nas curvas de crescimento podem ser consideradas. Além disso, os modelos multinível podem ser usados como uma alternativa ao ANCOVA, onde os escores das variáveis dependentes são ajustados para covariáveis (por exemplo, diferenças individuais) antes de testar as diferenças de tratamento. Modelos multinível são capazes de analisar esses experimentos sem a suposição de inclinações de regressão uniformes exigidas pela ANCOVA.
Modelos de vários níveis podem ser usados para dados com muitos níveis, embora os modelos de dois níveis sejam os mais comuns e o restante deste artigo se concentre neles. A variável dependente deve ser examinada no nível mais baixo de análise.
Seleção de modelo
Seleção do modeloé a tarefa de selecionar a partir de um conjunto de modelos candidatos a partir dos dados, realizada no âmbito da modelagem estatística. Nos casos mais simples, um conjunto de dados já existente é considerado. No entanto, a tarefa também pode envolver projetar experimentos para que os dados coletados sejam bem adequados à tarefa de seleção do modelo. Dados os modelos candidatos com poder preditivo ou explicativo semelhante, o modelo mais simples provavelmente será a melhor escolha (navalha de Occam).
Konishi & Kitagawa dizem: "A maioria dos problemas de inferência estatística podem ser considerados problemas relacionados à modelagem estatística." Da mesma forma, Cox disse: “Como a tradução do assunto para o modelo estatístico é feita geralmente é a parte mais importante da análise.”
Seleção de modelos também pode se referir ao problema de selecionar alguns modelos representativos de um grande conjunto de modelos computacionais para fins de decisão ou otimização sob incerteza.
Padrões gráficos
Modelo gráfico, ou modelo gráfico probabilístico, (PGM) ou modelo probabilístico estruturado, é um modelo probabilístico para o qual o gráfico expressa a estrutura de uma relação condicional entre variáveis aleatórias. Eles são comumente usados em teoria de probabilidade, estatística (especialmente estatística Bayesiana) e aprendizado de máquina.
Modelos Econométricos
Modelos econométricos são modelos estatísticos usados emeconometria. Um modelo econométrico define as relações estatísticas que se acredita existirem entre várias grandezas econômicas relacionadas a um fenômeno econômico particular. Um modelo econométrico pode ser derivado de um modelo econômico determinístico que leva em conta a incerteza, ou de um modelo econômico que é ele próprio estocástico. No entanto, também é possível usar modelos econométricos que não estejam vinculados a nenhuma teoria econômica específica.