Informações estatísticas: coleta, processamento, análise

Índice:

Informações estatísticas: coleta, processamento, análise
Informações estatísticas: coleta, processamento, análise
Anonim

Ao longo da história da estatística, várias tentativas foram feitas para criar uma taxonomia de níveis de medição. O psicofísico Stanley Smith Stevens definiu escalas nominais, ordinais, intervalares e proporcionais.

As medidas nominais não têm ordem significativa de classificação entre os valores e permitem qualquer conversão de um para um.

Dimensões regulares possuem diferenças inexatas entre valores consecutivos, mas possuem uma ordem específica desses valores e permitem qualquer transformação que preserve a ordem.

Medidas de intervalo têm distâncias significativas entre os pontos, mas o valor zero é arbitrário (como no caso de medições de longitude e temperatura em Celsius ou Fahrenheit) e permite qualquer transformação linear.

Dimensões de proporção têm um valor zero significativo e distâncias entre diferentes dimensões e permitem qualquer transformação de escala.

Image
Image

Variáveis e classificação das informações

Porque as variáveiscorrespondendo apenas a medidas nominais ou ordinais não podem ser razoavelmente medidas numericamente, e às vezes são agrupadas como variáveis categóricas. As medidas de razão e intervalo são agrupadas como variáveis quantitativas, que podem ser discretas ou contínuas devido à sua natureza numérica. Tais distinções geralmente são vagamente relacionadas ao tipo de dados em ciência da computação, uma vez que variáveis categóricas dicotômicas podem ser representadas por valores booleanos, variáveis categóricas politômicas com inteiros arbitrários em um tipo de dados integral e variáveis contínuas com componentes reais que envolvem computação de ponto flutuante. Mas a exibição de tipos de dados de informações estatísticas depende de qual classificação é aplicada.

Informações estatísticas sobre os trabalhadores
Informações estatísticas sobre os trabalhadores

Outras classificações

Outras classificações de dados estatísticos (informações) também foram criadas. Por exemplo, Mosteller e Tukey distinguiram entre notas, classificações, ações contadas, contagens, valores e saldos. Nelder uma vez descreveu contagens contínuas, proporções contínuas, correlação de contagens e formas categóricas de comunicação de dados. Todos esses métodos de classificação são usados na coleta de informações estatísticas.

Problemas

A questão de saber se é apropriado aplicar diferentes tipos de métodos estatísticos a dados obtidos por meio de diferentes procedimentos de medição (coleta) é complicada por questões relacionadas à conversão de variáveis e à interpretação precisa das questõespesquisar. “A relação entre os dados e o que eles descrevem simplesmente reflete o fato de que certos tipos de declarações estatísticas podem ter valores de verdade que não são invariáveis sob certas transformações. Se vale a pena considerar a transformação depende da pergunta que você está tentando responder.

Um exemplo de informação estatística
Um exemplo de informação estatística

O que é um tipo de dados

O tipo de dado é um componente fundamental do conteúdo semântico de uma variável e controla quais tipos de distribuições de probabilidade podem ser usadas logicamente para descrever a variável, as operações permitidas nela, o tipo de análise de regressão usada para predizê-la, etc. O conceito de um tipo de dados é semelhante no conceito de nível de medição, mas mais específico - por exemplo, as contagens de dados exigem uma distribuição diferente (Poisson ou binomial) do que para valores reais não negativos, mas ambos se enquadram no mesmo nível de medição (escala de coeficientes).

Informações estatísticas sobre os juízes
Informações estatísticas sobre os juízes

Escala

Várias tentativas foram feitas para criar uma taxonomia de níveis de medição para o processamento de informações estatísticas. O psicofísico Stanley Smith Stevens definiu escalas nominais, ordinais, intervalares e proporcionais. As medidas nominais não possuem uma ordem significativa de classificação entre os valores e permitem qualquer conversão de um para um. Medidas comuns têm diferenças imprecisas entre valores sucessivos, mas diferem na ordem significativa desses valores, e permitemqualquer transformação que preserve a ordem. As medições de intervalo têm distâncias significativas entre as medições, mas o valor zero é arbitrário (como no caso de medições de longitude e temperatura em Celsius ou Fahrenheit) e permite qualquer transformação linear. As dimensões de proporção têm um valor zero significativo e distâncias entre diferentes dimensões definidas e permitem qualquer transformação de escala.

Modelo de diagrama
Modelo de diagrama

Dados que não podem ser descritos usando um único número são frequentemente incluídos em vetores aleatórios de variáveis aleatórias reais, embora haja uma tendência crescente de processá-los você mesmo. Esses exemplos serão discutidos abaixo.

Vetores aleatórios

Os elementos individuais podem ou não estar correlacionados. Exemplos de distribuições usadas para descrever vetores aleatórios correlacionados são a distribuição normal multivariada e a distribuição t multivariada. Em geral, pode haver correlações arbitrárias entre quaisquer elementos, no entanto, isso geralmente se torna incontrolável acima de um determinado tamanho, exigindo restrições adicionais nos componentes correlacionados.

atributos estatísticos
atributos estatísticos

Matrizes aleatórias

Matrizes aleatórias podem ser arranjadas linearmente e tratadas como vetores aleatórios, porém esta pode não ser uma forma eficiente de representar correlações entre diferentes elementos. Algumas distribuições de probabilidade são projetadas especificamente para matrizes aleatórias, como a matriz normaldistribuição e distribuição Wishart.

Sequências Aleatórias

Às vezes eles são considerados o mesmo que vetores aleatórios, mas em outros casos o termo é aplicado especificamente aos casos em que cada variável aleatória se correlaciona apenas com variáveis próximas (como em um modelo de Markov). Este é um caso especial da rede Bayesiana e é usado para sequências muito longas, como cadeias de genes ou documentos de texto longos. Vários modelos são especialmente projetados para essas sequências, como sequências ocultas de Markov.

Gráfico típico
Gráfico típico

Processos aleatórios

São semelhantes às sequências aleatórias, mas apenas quando o comprimento da sequência é indefinido ou infinito, e os elementos da sequência são processados um a um. Isso é frequentemente usado para dados que podem ser descritos como séries temporais. Isso é verdade quando se trata, por exemplo, do preço das ações no dia seguinte.

Conclusão

A análise da informação estatística depende inteiramente da qualidade da sua recolha. Este último, por sua vez, está fortemente relacionado às possibilidades de sua classificação. Claro, existem muitos tipos de classificação de informações estatísticas, que o leitor poderá ver por si mesmo ao ler este artigo. No entanto, a presença de ferramentas eficazes e um bom domínio da matemática, bem como o conhecimento no campo da sociologia, farão seu trabalho, permitindo que você realize qualquer pesquisa ou estudo sem correções significativas de erros. Fontes de informação estatística no formuláriopessoas, organizações e outros assuntos da sociologia, felizmente, estão representados em grande abundância. E nenhuma dificuldade pode impedir um verdadeiro explorador.

Recomendado: