Regressão logística: modelo e métodos

Índice:

Regressão logística: modelo e métodos
Regressão logística: modelo e métodos
Anonim

Métodos de regressão logística e análise discriminante são usados quando é necessário diferenciar claramente os respondentes por categorias-alvo. Nesse caso, os próprios grupos são representados por níveis de um parâmetro de variante única. Vamos dar uma olhada no modelo de regressão logística e descobrir por que ele é necessário.

regressão logística
regressão logística

Informações gerais

Um exemplo de problema em que se utiliza a regressão logística é a classificação dos entrevistados em grupos que compram e não compram mostarda. A diferenciação é feita de acordo com as características sociodemográficas. Estes incluem, nomeadamente, idade, sexo, número de familiares, rendimentos, etc. Nas operações, existem critérios de diferenciação e uma variável. Este último codifica as categorias-alvo em que, de fato, os respondentes devem ser divididos.

Nuances

Deve-se dizer que a gama de casos em que a regressão logística é aplicada é muito mais estreita do que para a análise discriminante. Nesse sentido, considera-se o uso deste último como método universal de diferenciação.mais preferido. Além disso, especialistas recomendam iniciar estudos de classificação com análise discriminante. E somente em caso de incerteza sobre os resultados, você pode usar a regressão logística. Essa necessidade se deve a vários fatores. A regressão logística é usada quando há uma compreensão clara do tipo de variáveis independentes e dependentes. Assim, um dos 3 procedimentos possíveis é selecionado. Na análise discriminante, o pesquisador sempre lida com uma operação estática. Envolve uma variável dependente e várias variáveis categóricas independentes com qualquer tipo de escala.

Visualizações

A tarefa de um estudo estatístico que usa regressão logística é determinar a probabilidade de um determinado entrevistado ser atribuído a um determinado grupo. A diferenciação é realizada de acordo com certos parâmetros. Na prática, de acordo com os valores de um ou mais fatores independentes, é possível classificar os respondentes em dois grupos. Nesse caso, ocorre a regressão logística binária. Além disso, os parâmetros especificados podem ser usados ao dividir em grupos de mais de dois. Em tal situação, ocorre a regressão logística multinomial. Os grupos resultantes são expressos em níveis de uma única variável.

regressão logística
regressão logística

Exemplo

Digamos que há respostas dos entrevistados para a pergunta se eles estão interessados na oferta de compra de um terreno nos subúrbios de Moscou. As opções são "não"e sim. É necessário descobrir quais fatores têm influência predominante na decisão dos potenciais compradores. Para isso, os respondentes são questionados sobre a infraestrutura do território, a distância até a capital, a área do local, a presença/ausência de um edifício residencial, etc. Usando regressão binária, é possível distribuir os entrevistados em dois grupos. O primeiro incluirá aqueles que estão interessados na aquisição - potenciais compradores, e o segundo, respectivamente, aqueles que não estão interessados em tal oferta. Para cada respondente, além disso, será calculada a probabilidade de ser atribuído a uma ou outra categoria.

Características comparativas

A diferença das duas opções acima é o número diferente de grupos e o tipo de variáveis dependentes e independentes. Na regressão binária, por exemplo, estuda-se a dependência de um fator dicotômico em uma ou mais condições independentes. Além disso, este último pode ter qualquer tipo de escala. A regressão multinomial é considerada uma variação desta opção de classificação. Nele, mais de 2 grupos pertencem à variável dependente. Os fatores independentes devem ter uma escala ordinal ou nominal.

Regressão logística em spss

No pacote estatístico 11-12 foi introduzida uma nova versão de análise - ordinal. Este método é usado quando o fator dependente pertence à escala de mesmo nome (ordinal). Neste caso, as variáveis independentes são selecionadas de um tipo específico. Eles devem ser ordinais ou nominais. A classificação em várias categorias é considerada a maisuniversal. Esse método pode ser utilizado em todos os estudos que utilizam regressão logística. No entanto, a única maneira de melhorar a qualidade de um modelo é usar todas as três técnicas.

verificação de qualidade de adequação e regressão logística
verificação de qualidade de adequação e regressão logística

Classificação Ordinal

Deve-se dizer que anteriormente no pacote estatístico não havia a possibilidade típica de realizar análises especializadas para fatores dependentes com escala ordinal. Para todas as variáveis com mais de 2 grupos, foi utilizada a variante multinominal. A análise ordinal introduzida relativamente recentemente tem vários recursos. Eles levam em conta as especificidades da escala. Enquanto isso, em materiais didáticos, a regressão logística ordinal muitas vezes não é considerada uma técnica separada. Isso se deve ao seguinte: a análise ordinal não apresenta vantagens significativas sobre a multinomial. O pesquisador pode usar o último na presença de uma variável dependente ordinal e nominal. Ao mesmo tempo, os próprios processos de classificação quase não diferem uns dos outros. Isso significa que realizar a análise ordinal não causará nenhuma dificuldade.

Opção de análise

Vamos considerar um caso simples - regressão binária. Suponha que, no processo de pesquisa de marketing, seja avaliada a demanda por graduados de uma determinada universidade metropolitana. No questionário, foram feitas perguntas aos respondentes, incluindo:

  1. Você está empregado? (ql).
  2. Insira o ano de graduação (q 21).
  3. Qual é a médiapontuação de graduação (média).
  4. Gênero (q22).

A regressão logística avaliará o impacto dos fatores independentes aver, q 21 e q 22 na variável ql. Simplificando, o objetivo da análise será determinar o provável emprego de graduados com base em informações sobre o campo, ano de graduação e GPA.

indicador de regressão logística sigmóide
indicador de regressão logística sigmóide

Regressão Logística

Para definir parâmetros usando regressão binária, use o menu Analyze►Regression►Binary Logistic. Na janela Regressão Logística, selecione o fator dependente na lista de variáveis disponíveis à esquerda. é ql. Esta variável deve ser colocada no campo Dependente. Depois disso, é necessário introduzir fatores independentes no gráfico de Covariáveis - q 21, q 22, aver. Então você precisa escolher como incluí-los em sua análise. Se o número de fatores independentes for superior a 2, é usado o método de introdução simultânea de todas as variáveis, definido por padrão, mas passo a passo. A forma mais popular é Backward:LR. Usando o botão Selecionar, você pode incluir no estudo nem todos os entrevistados, mas apenas uma categoria de destino específica.

Definir Variáveis Categóricas

O botão Categórico deve ser usado quando uma das variáveis independentes for nominal com mais de 2 categorias. Nesta situação, na janela Definir Variáveis Categóricas, apenas esse parâmetro é colocado na seção Covariáveis Categóricas. Neste exemplo, não existe tal variável. Depois disso, na lista suspensa, o contraste segueselecione o item Desvio e pressione o botão Alterar. Como resultado, várias variáveis dependentes serão formadas a partir de cada fator nominal. Seu número corresponde ao número de categorias da condição inicial.

Salvar novas variáveis

Usando o botão Salvar na caixa de diálogo principal do estudo, é definida a criação de novos parâmetros. Eles conterão os indicadores calculados no processo de regressão. Em particular, você pode criar variáveis que definem:

  1. Pertencente a uma categoria de classificação específica (Grupo).
  2. Probabilidade de atribuir um respondente a cada grupo de estudo (Probabilidades).

Ao usar o botão Opções, o pesquisador não obtém nenhuma opção significativa. Assim, pode ser ignorado. Após clicar no botão "OK", os resultados da análise serão exibidos na janela principal.

coeficiente de regressão logística
coeficiente de regressão logística

Verificação de qualidade para adequação e regressão logística

Considere a tabela Testes Omnibus de Coeficientes Modelo. Apresenta os resultados da análise da qualidade da aproximação do modelo. Devido ao fato de que uma opção passo a passo foi definida, você precisa observar os resultados da última etapa (Etapa 2). Um resultado positivo será considerado se for encontrado um aumento no indicador Qui-quadrado ao passar para o próximo estágio em alto grau de significância (Sig. < 0,05). A qualidade do modelo é avaliada na linha Modelo. Se um valor negativo for obtido, mas não for considerado significativo com a alta materialidade geral do modelo, o últimopode ser considerado praticamente adequado.

Tabelas

Model Summary permite estimar o índice de variância total, que é descrito pelo modelo construído (índice R Square). Recomenda-se usar o valor de Nagelker. O parâmetro Nagelkerke R Square pode ser considerado um indicador positivo se estiver acima de 0,50. Em seguida, são avaliados os resultados da classificação, na qual os indicadores reais de pertencimento a uma ou outra categoria em estudo são comparados com os previstos com base no modelo de regressão. Para isso, é utilizada a Tabela de Classificação. Também nos permite tirar conclusões sobre a correção da diferenciação para cada grupo em consideração.

modelo de regressão logística
modelo de regressão logística

A tabela a seguir oferece uma oportunidade para descobrir a significância estatística dos fatores independentes inseridos na análise, bem como cada coeficiente de regressão logística não padronizado. Com base nesses indicadores, é possível prever o pertencimento de cada respondente da amostra a um determinado grupo. Usando o botão Salvar, você pode inserir novas variáveis. Eles conterão informações sobre pertencer a uma categoria de classificação específica (categoria prevista) e a probabilidade de ser incluído nesses grupos (pertencimento de probabilidades previstas). Após clicar em "OK", os resultados do cálculo aparecerão na janela principal da Regressão Logística Multinomial.

A primeira tabela, que contém indicadores importantes para o pesquisador, é o Model Fitting Information. Um alto nível de significância estatística indicaria alta qualidade eadequação do uso do modelo na resolução de problemas práticos. Outra tabela significativa é o Pseudo R-Quadrado. Ele permite estimar a proporção da variância total no fator dependente, que é determinada pelas variáveis independentes selecionadas para análise. De acordo com a tabela de Testes de Razão de Verossimilhança, podemos tirar conclusões sobre a significância estatística deste último. As estimativas de parâmetros refletem coeficientes não padronizados. Eles são usados na construção da equação. Além disso, para cada combinação de variáveis, foi determinada a significância estatística de seu impacto no fator dependente. Enquanto isso, na pesquisa de marketing, muitas vezes torna-se necessário diferenciar os entrevistados por categoria não individualmente, mas como parte do grupo-alvo. Para isso, é utilizada a tabela de Frequências Observadas e Previstas.

Aplicação prática

O método de análise considerado é amplamente utilizado no trabalho dos traders. Em 1991, foi desenvolvido o indicador de regressão logística sigmóide. É uma ferramenta fácil de usar e eficaz para prever preços prováveis antes que eles "superaqueçam". O indicador é mostrado no gráfico como um canal formado por duas linhas paralelas. Eles são igualmente espaçados da tendência. A largura do corredor dependerá exclusivamente do prazo. O indicador é usado ao trabalhar com quase todos os ativos - de pares de moedas a metais preciosos.

regressão logística em spss
regressão logística em spss

Na prática, foram desenvolvidas 2 estratégias principais para o uso do instrumento: para breakout epor uma volta. Neste último caso, o trader se concentrará na dinâmica das mudanças de preço dentro do canal. À medida que o valor se aproxima da linha de suporte ou resistência, é feita uma aposta na probabilidade de o movimento começar na direção oposta. Se o preço chegar perto da borda superior, você poderá se livrar do ativo. Se estiver no limite inferior, você deve pensar em comprar. A estratégia de breakout envolve o uso de ordens. Eles são instalados fora dos limites a uma distância relativamente pequena. Levando em conta que o preço em alguns casos os viola por um curto período de tempo, você deve jogar pelo seguro e definir as perdas de parada. Ao mesmo tempo, é claro, independentemente da estratégia escolhida, o trader precisa perceber e avaliar a situação que surgiu no mercado com a maior calma possível.

Conclusão

Assim, o uso da regressão logística permite classificar de forma rápida e fácil os respondentes em categorias de acordo com os parâmetros fornecidos. Ao analisar, você pode usar qualquer método específico. Em particular, a regressão multinomial é universal. No entanto, os especialistas recomendam o uso de todos os métodos descritos acima em combinação. Isso se deve ao fato de que, neste caso, a qualidade do modelo será significativamente maior. Isso, por sua vez, expandirá o alcance de sua aplicação.

Recomendado: