Escala multidimensional: definição, metas, objetivos e exemplo

Índice:

Escala multidimensional: definição, metas, objetivos e exemplo
Escala multidimensional: definição, metas, objetivos e exemplo
Anonim

Multivariate scaling (MDS) é uma ferramenta para visualizar o nível de similaridade de casos individuais em um conjunto de dados. Refere-se a um conjunto de métodos de ordenação relacionados usados na visualização de informações, em particular para exibir as informações contidas em uma matriz de distâncias. Esta é uma forma de redução de dimensionalidade não linear. O algoritmo MDS visa colocar cada objeto em um espaço N-dimensional de tal forma que as distâncias entre os objetos sejam preservadas da melhor forma possível. Cada objeto recebe então coordenadas em cada uma das N dimensões.

O número de dimensões do gráfico MDS pode exceder 2 e é especificado a priori. Selecionar N=2 otimiza o posicionamento do objeto para o gráfico de dispersão 2D. Você pode ver exemplos de dimensionamento multidimensional nas imagens do artigo. Exemplos com símbolos em russo são especialmente ilustrativos.

Dimensionamento multidimensional
Dimensionamento multidimensional

Essência

Método de dimensionamento multidimensional (MMS,MDS) é um conjunto estendido de ferramentas clássicas que generaliza o procedimento de otimização para um conjunto de funções de perda e matrizes de entrada de distâncias conhecidas com pesos e assim por diante. Nesse contexto, uma função de perda útil é chamada de estresse, que geralmente é minimizada por um procedimento chamado de majoração de estresse.

Manual

Existem várias opções para dimensionamento multidimensional. Os programas MDS minimizam automaticamente a carga para obter uma solução. O núcleo do algoritmo MDS não métrico é um processo de otimização duplo. Primeiro, a transformação de proximidade monotônica ótima deve ser encontrada. Em segundo lugar, os pontos de configuração devem ser posicionados de forma ideal para que suas distâncias correspondam aos valores de proximidade escalonados o mais próximo possível.

Exemplo de dimensionamento multidimensional
Exemplo de dimensionamento multidimensional

Expansão

Uma extensão da escala multidimensional métrica em estatística onde o espaço alvo é um espaço arbitrário suave não-euclidiano. Onde as diferenças são distâncias em uma superfície e o espaço alvo é uma superfície diferente. Programas temáticos permitem que você encontre um anexo com distorção mínima de uma superfície em outra.

Passos

Existem várias etapas na condução de um estudo usando escala multivariada:

  1. Formulação do problema. Quais variáveis você deseja comparar? Quantas variáveis você quer comparar? Para que finalidade o estudo será usado?
  2. Obtendo dados de entrada. Os entrevistados recebem uma série de perguntas. Para cada par de produtos, eles são solicitados a avaliar a semelhança (geralmente em uma escala Likert de 7 pontos, de muito semelhante a muito diferente). A primeira pergunta pode ser para Coca-Cola/Pepsi, por exemplo, a próxima para cerveja, a próxima para Dr. Pepper etc. O número de perguntas depende do número de marcas.
Escala de distância
Escala de distância

Abordagens alternativas

Existem duas outras abordagens. Existe uma técnica chamada "Dados Perceptivos: Abordagem Derivada" na qual os produtos são decompostos em atributos e a avaliação é feita em uma escala diferencial semântica. Outro método é a “abordagem de dados de preferência”, na qual os entrevistados são questionados sobre preferências em vez de semelhanças.

Consiste nos seguintes passos:

  1. Lançamento do programa estatístico MDS. O software para realizar o procedimento está disponível em muitos pacotes de software estatístico. Muitas vezes há uma escolha entre MDS métrico (que lida com dados de nível de intervalo ou razão) e MDS não métrico (que lida com dados ordinais).
  2. Determinação do número de medições. O pesquisador deve determinar o número de medições que deseja criar no computador. Quanto mais medições, melhor o ajuste estatístico, mas mais difícil será interpretar os resultados.
  3. Exibir resultados e definir medições - o programa estatístico (ou módulo relacionado) exibirá os resultados. O mapa exibirá cada produto (geralmente em 2D).espaço). A proximidade dos produtos entre si indica sua similaridade ou preferência, dependendo de qual abordagem foi utilizada. No entanto, como as medições realmente correspondem às medições do comportamento do sistema nem sempre é clara. Um julgamento subjetivo de conformidade pode ser feito aqui.
  4. Verifique os resultados quanto à confiabilidade e validade - calcule o R-quadrado para determinar a proporção da variância dos dados em escala que pode ser contabilizada pelo procedimento MDS. Square R 0,6 é considerado o nível mínimo aceitável. R ao quadrado 0,8 é considerado bom para dimensionamento métrico, enquanto 0,9 é considerado bom para dimensionamento não métrico.
Resultados de escalonamento multivariável
Resultados de escalonamento multivariável

Vários testes

Outros testes possíveis são testes de estresse do tipo Kruskal, testes de dados divididos, testes de estabilidade de dados e testes de confiabilidade de reteste. Escreva em detalhes sobre os resultados do teste. Junto com o mapeamento, pelo menos uma medida de distância (por exemplo, índice de Sorenson, índice de Jaccard) e confiabilidade (por exemplo, valor de tensão) deve ser especificada.

Também é altamente desejável fornecer um algoritmo (por exemplo, Kruskal, Mather) que geralmente é determinado pelo programa usado (às vezes substituindo o relatório do algoritmo), se você deu uma configuração inicial ou teve uma escolha aleatória, número de execuções de dimensão, resultados de Monte Carlo, número de iterações, pontuação de estabilidade e variância proporcional de cada eixo (r-quadrado).

Informação visual e método de análise de dadosescala multidimensional

Visualização de informações é o estudo de representações interativas (visuais) de dados abstratos para aprimorar a cognição humana. Os dados abstratos incluem dados numéricos e não numéricos, como informações textuais e geográficas. No entanto, a visualização da informação difere da visualização científica: “é informativa (visualização da informação) quando uma representação espacial é escolhida, e scivis (visualização científica) quando uma representação espacial é dada.”

O campo da visualização da informação surgiu a partir de pesquisas em interação humano-computador, aplicações de ciência da computação, gráficos, design visual, psicologia e métodos de negócios. Ele está sendo cada vez mais usado como um componente essencial em pesquisas científicas, bibliotecas digitais, mineração de dados, dados financeiros, pesquisa de mercado, controle de produção e assim por diante.

Métodos e princípios

Visualização de informações sugere que os métodos de visualização e interação aproveitam a riqueza da percepção humana, permitindo que os usuários vejam, explorem e compreendam simultaneamente grandes quantidades de informações. A visualização da informação visa criar abordagens para comunicar dados abstratos, informações de forma intuitiva.

Escala multidimensional de cores
Escala multidimensional de cores

A análise de dados é parte integrante de toda pesquisa aplicada e solução de problemas na indústria. A maioriaAs abordagens fundamentais para a análise de dados são a visualização (histogramas, gráficos de dispersão, gráficos de superfície, mapas de árvores, gráficos de coordenadas paralelas, etc.), estatísticas (teste de hipóteses, regressão, PCA, etc.), análise de dados (matching, etc.)..d.) e métodos de aprendizado de máquina (agrupamento, classificação, árvores de decisão etc.).

Entre essas abordagens, a visualização de informações ou análise visual de dados é a mais dependente das habilidades cognitivas da equipe analítica e permite a descoberta de insights acionáveis não estruturados que são limitados apenas pela imaginação e criatividade humanas. Um analista não precisa aprender nenhuma técnica complexa para poder interpretar visualizações de dados. A visualização de informações também é um esquema de geração de hipóteses que pode e geralmente é acompanhado por análises mais analíticas ou formais, como testes estatísticos de hipóteses.

Estudar

O estudo moderno da visualização começou com a computação gráfica, que "desde o início foi usada para estudar problemas científicos. No entanto, nos primeiros anos, a f alta de poder gráfico muitas vezes limitava sua utilidade. A prioridade na visualização começou a desenvolver em 1987, com o lançamento de software especial para Computação Gráfica e Visualização em Computação Científica Desde então, foram várias conferências e workshops organizados conjuntamente pela IEEE Computer Society e ACM SIGGRAPH".

Eles abordaram os tópicos gerais de visualização de dados, visualização de informações e visualização científica,bem como áreas mais específicas, como renderização de volume.

Dimensionamento multidimensional da marca
Dimensionamento multidimensional da marca

Resumo

Generalized Multidimensional Scaling (GMDS) é uma extensão do dimensionamento multidimensional métrico no qual o espaço alvo não é euclidiano. Quando as diferenças são distâncias em uma superfície e o espaço alvo é outra superfície, o GMDS permite que você encontre o aninhamento de uma superfície em outra com distorção mínima.

GMDS é uma nova linha de pesquisa. Atualmente, as principais aplicações são o reconhecimento de objetos deformáveis (por exemplo, para reconhecimento facial 3D) e mapeamento de texturas.

O propósito do dimensionamento multidimensional é representar dados multidimensionais. Dados multidimensionais, ou seja, dados que requerem mais de duas ou três dimensões para serem representados, podem ser difíceis de interpretar. Uma abordagem para simplificação é assumir que os dados de interesse estão em uma variedade não linear embutida em um espaço de alta dimensão. Se o coletor tiver uma dimensão suficientemente baixa, os dados poderão ser visualizados em um espaço de baixa dimensão.

Muitos dos métodos de redução de dimensionalidade não linear estão relacionados a métodos lineares. Os métodos não lineares podem ser classificados em dois grupos: aqueles que fornecem mapeamento (de espaço de alta dimensão a incorporação de baixa dimensão, ou vice-versa) e aqueles que simplesmente fornecem visualização. No contexto do aprendizado de máquina, os métodos de mapeamento podem ser vistos comoum estágio preliminar de extração de características, após o qual os algoritmos de reconhecimento de padrões são aplicados. Normalmente, aqueles que apenas fornecem visualizações são baseados em dados de proximidade - ou seja, medições de distância. A escala multidimensional também é bastante comum em psicologia e outras humanidades.

Dimensionamento multidimensional diagonal
Dimensionamento multidimensional diagonal

Se o número de atributos for grande, então o espaço de possíveis strings únicas também será exponencialmente grande. Assim, quanto maior a dimensão, mais difícil se torna representar o espaço. Isso causa muitos problemas. Algoritmos que operam em dados de alta dimensão tendem a ter uma complexidade de tempo muito alta. Reduzir os dados para menos dimensões geralmente torna os algoritmos de análise mais eficientes e pode ajudar os algoritmos de aprendizado de máquina a fazer previsões mais precisas. É por isso que o dimensionamento de dados multidimensional é tão popular.

Recomendado: