Métodos de regressão logística e análise discriminante são usados quando é necessário diferenciar claramente os respondentes por categorias-alvo. Nesse caso, os próprios grupos são representados por níveis de um parâmetro de variante única. Vamos dar uma olhada no modelo de regressão logística e descobrir por que ele é necessário.
Informações gerais
Um exemplo de problema em que se utiliza a regressão logística é a classificação dos entrevistados em grupos que compram e não compram mostarda. A diferenciação é feita de acordo com as características sociodemográficas. Estes incluem, nomeadamente, idade, sexo, número de familiares, rendimentos, etc. Nas operações, existem critérios de diferenciação e uma variável. Este último codifica as categorias-alvo em que, de fato, os respondentes devem ser divididos.
Nuances
Deve-se dizer que a gama de casos em que a regressão logística é aplicada é muito mais estreita do que para a análise discriminante. Nesse sentido, considera-se o uso deste último como método universal de diferenciação.mais preferido. Além disso, especialistas recomendam iniciar estudos de classificação com análise discriminante. E somente em caso de incerteza sobre os resultados, você pode usar a regressão logística. Essa necessidade se deve a vários fatores. A regressão logística é usada quando há uma compreensão clara do tipo de variáveis independentes e dependentes. Assim, um dos 3 procedimentos possíveis é selecionado. Na análise discriminante, o pesquisador sempre lida com uma operação estática. Envolve uma variável dependente e várias variáveis categóricas independentes com qualquer tipo de escala.
Visualizações
A tarefa de um estudo estatístico que usa regressão logística é determinar a probabilidade de um determinado entrevistado ser atribuído a um determinado grupo. A diferenciação é realizada de acordo com certos parâmetros. Na prática, de acordo com os valores de um ou mais fatores independentes, é possível classificar os respondentes em dois grupos. Nesse caso, ocorre a regressão logística binária. Além disso, os parâmetros especificados podem ser usados ao dividir em grupos de mais de dois. Em tal situação, ocorre a regressão logística multinomial. Os grupos resultantes são expressos em níveis de uma única variável.
Exemplo
Digamos que há respostas dos entrevistados para a pergunta se eles estão interessados na oferta de compra de um terreno nos subúrbios de Moscou. As opções são "não"e sim. É necessário descobrir quais fatores têm influência predominante na decisão dos potenciais compradores. Para isso, os respondentes são questionados sobre a infraestrutura do território, a distância até a capital, a área do local, a presença/ausência de um edifício residencial, etc. Usando regressão binária, é possível distribuir os entrevistados em dois grupos. O primeiro incluirá aqueles que estão interessados na aquisição - potenciais compradores, e o segundo, respectivamente, aqueles que não estão interessados em tal oferta. Para cada respondente, além disso, será calculada a probabilidade de ser atribuído a uma ou outra categoria.
Características comparativas
A diferença das duas opções acima é o número diferente de grupos e o tipo de variáveis dependentes e independentes. Na regressão binária, por exemplo, estuda-se a dependência de um fator dicotômico em uma ou mais condições independentes. Além disso, este último pode ter qualquer tipo de escala. A regressão multinomial é considerada uma variação desta opção de classificação. Nele, mais de 2 grupos pertencem à variável dependente. Os fatores independentes devem ter uma escala ordinal ou nominal.
Regressão logística em spss
No pacote estatístico 11-12 foi introduzida uma nova versão de análise - ordinal. Este método é usado quando o fator dependente pertence à escala de mesmo nome (ordinal). Neste caso, as variáveis independentes são selecionadas de um tipo específico. Eles devem ser ordinais ou nominais. A classificação em várias categorias é considerada a maisuniversal. Esse método pode ser utilizado em todos os estudos que utilizam regressão logística. No entanto, a única maneira de melhorar a qualidade de um modelo é usar todas as três técnicas.
Classificação Ordinal
Deve-se dizer que anteriormente no pacote estatístico não havia a possibilidade típica de realizar análises especializadas para fatores dependentes com escala ordinal. Para todas as variáveis com mais de 2 grupos, foi utilizada a variante multinominal. A análise ordinal introduzida relativamente recentemente tem vários recursos. Eles levam em conta as especificidades da escala. Enquanto isso, em materiais didáticos, a regressão logística ordinal muitas vezes não é considerada uma técnica separada. Isso se deve ao seguinte: a análise ordinal não apresenta vantagens significativas sobre a multinomial. O pesquisador pode usar o último na presença de uma variável dependente ordinal e nominal. Ao mesmo tempo, os próprios processos de classificação quase não diferem uns dos outros. Isso significa que realizar a análise ordinal não causará nenhuma dificuldade.
Opção de análise
Vamos considerar um caso simples - regressão binária. Suponha que, no processo de pesquisa de marketing, seja avaliada a demanda por graduados de uma determinada universidade metropolitana. No questionário, foram feitas perguntas aos respondentes, incluindo:
- Você está empregado? (ql).
- Insira o ano de graduação (q 21).
- Qual é a médiapontuação de graduação (média).
- Gênero (q22).
A regressão logística avaliará o impacto dos fatores independentes aver, q 21 e q 22 na variável ql. Simplificando, o objetivo da análise será determinar o provável emprego de graduados com base em informações sobre o campo, ano de graduação e GPA.
Regressão Logística
Para definir parâmetros usando regressão binária, use o menu Analyze►Regression►Binary Logistic. Na janela Regressão Logística, selecione o fator dependente na lista de variáveis disponíveis à esquerda. é ql. Esta variável deve ser colocada no campo Dependente. Depois disso, é necessário introduzir fatores independentes no gráfico de Covariáveis - q 21, q 22, aver. Então você precisa escolher como incluí-los em sua análise. Se o número de fatores independentes for superior a 2, é usado o método de introdução simultânea de todas as variáveis, definido por padrão, mas passo a passo. A forma mais popular é Backward:LR. Usando o botão Selecionar, você pode incluir no estudo nem todos os entrevistados, mas apenas uma categoria de destino específica.
Definir Variáveis Categóricas
O botão Categórico deve ser usado quando uma das variáveis independentes for nominal com mais de 2 categorias. Nesta situação, na janela Definir Variáveis Categóricas, apenas esse parâmetro é colocado na seção Covariáveis Categóricas. Neste exemplo, não existe tal variável. Depois disso, na lista suspensa, o contraste segueselecione o item Desvio e pressione o botão Alterar. Como resultado, várias variáveis dependentes serão formadas a partir de cada fator nominal. Seu número corresponde ao número de categorias da condição inicial.
Salvar novas variáveis
Usando o botão Salvar na caixa de diálogo principal do estudo, é definida a criação de novos parâmetros. Eles conterão os indicadores calculados no processo de regressão. Em particular, você pode criar variáveis que definem:
- Pertencente a uma categoria de classificação específica (Grupo).
- Probabilidade de atribuir um respondente a cada grupo de estudo (Probabilidades).
Ao usar o botão Opções, o pesquisador não obtém nenhuma opção significativa. Assim, pode ser ignorado. Após clicar no botão "OK", os resultados da análise serão exibidos na janela principal.
Verificação de qualidade para adequação e regressão logística
Considere a tabela Testes Omnibus de Coeficientes Modelo. Apresenta os resultados da análise da qualidade da aproximação do modelo. Devido ao fato de que uma opção passo a passo foi definida, você precisa observar os resultados da última etapa (Etapa 2). Um resultado positivo será considerado se for encontrado um aumento no indicador Qui-quadrado ao passar para o próximo estágio em alto grau de significância (Sig. < 0,05). A qualidade do modelo é avaliada na linha Modelo. Se um valor negativo for obtido, mas não for considerado significativo com a alta materialidade geral do modelo, o últimopode ser considerado praticamente adequado.
Tabelas
Model Summary permite estimar o índice de variância total, que é descrito pelo modelo construído (índice R Square). Recomenda-se usar o valor de Nagelker. O parâmetro Nagelkerke R Square pode ser considerado um indicador positivo se estiver acima de 0,50. Em seguida, são avaliados os resultados da classificação, na qual os indicadores reais de pertencimento a uma ou outra categoria em estudo são comparados com os previstos com base no modelo de regressão. Para isso, é utilizada a Tabela de Classificação. Também nos permite tirar conclusões sobre a correção da diferenciação para cada grupo em consideração.
A tabela a seguir oferece uma oportunidade para descobrir a significância estatística dos fatores independentes inseridos na análise, bem como cada coeficiente de regressão logística não padronizado. Com base nesses indicadores, é possível prever o pertencimento de cada respondente da amostra a um determinado grupo. Usando o botão Salvar, você pode inserir novas variáveis. Eles conterão informações sobre pertencer a uma categoria de classificação específica (categoria prevista) e a probabilidade de ser incluído nesses grupos (pertencimento de probabilidades previstas). Após clicar em "OK", os resultados do cálculo aparecerão na janela principal da Regressão Logística Multinomial.
A primeira tabela, que contém indicadores importantes para o pesquisador, é o Model Fitting Information. Um alto nível de significância estatística indicaria alta qualidade eadequação do uso do modelo na resolução de problemas práticos. Outra tabela significativa é o Pseudo R-Quadrado. Ele permite estimar a proporção da variância total no fator dependente, que é determinada pelas variáveis independentes selecionadas para análise. De acordo com a tabela de Testes de Razão de Verossimilhança, podemos tirar conclusões sobre a significância estatística deste último. As estimativas de parâmetros refletem coeficientes não padronizados. Eles são usados na construção da equação. Além disso, para cada combinação de variáveis, foi determinada a significância estatística de seu impacto no fator dependente. Enquanto isso, na pesquisa de marketing, muitas vezes torna-se necessário diferenciar os entrevistados por categoria não individualmente, mas como parte do grupo-alvo. Para isso, é utilizada a tabela de Frequências Observadas e Previstas.
Aplicação prática
O método de análise considerado é amplamente utilizado no trabalho dos traders. Em 1991, foi desenvolvido o indicador de regressão logística sigmóide. É uma ferramenta fácil de usar e eficaz para prever preços prováveis antes que eles "superaqueçam". O indicador é mostrado no gráfico como um canal formado por duas linhas paralelas. Eles são igualmente espaçados da tendência. A largura do corredor dependerá exclusivamente do prazo. O indicador é usado ao trabalhar com quase todos os ativos - de pares de moedas a metais preciosos.
Na prática, foram desenvolvidas 2 estratégias principais para o uso do instrumento: para breakout epor uma volta. Neste último caso, o trader se concentrará na dinâmica das mudanças de preço dentro do canal. À medida que o valor se aproxima da linha de suporte ou resistência, é feita uma aposta na probabilidade de o movimento começar na direção oposta. Se o preço chegar perto da borda superior, você poderá se livrar do ativo. Se estiver no limite inferior, você deve pensar em comprar. A estratégia de breakout envolve o uso de ordens. Eles são instalados fora dos limites a uma distância relativamente pequena. Levando em conta que o preço em alguns casos os viola por um curto período de tempo, você deve jogar pelo seguro e definir as perdas de parada. Ao mesmo tempo, é claro, independentemente da estratégia escolhida, o trader precisa perceber e avaliar a situação que surgiu no mercado com a maior calma possível.
Conclusão
Assim, o uso da regressão logística permite classificar de forma rápida e fácil os respondentes em categorias de acordo com os parâmetros fornecidos. Ao analisar, você pode usar qualquer método específico. Em particular, a regressão multinomial é universal. No entanto, os especialistas recomendam o uso de todos os métodos descritos acima em combinação. Isso se deve ao fato de que, neste caso, a qualidade do modelo será significativamente maior. Isso, por sua vez, expandirá o alcance de sua aplicação.