O método de agrupamento é a tarefa de agrupar um conjunto de objetos de tal forma que eles no mesmo grupo sejam mais semelhantes entre si do que com objetos de outras indústrias. É a principal tarefa da mineração de dados e uma técnica geral de análise estatística usada em muitos campos, incluindo aprendizado de máquina, reconhecimento de padrões, reconhecimento de imagens, recuperação de informações, compactação de dados e computação gráfica.
Problema de otimização
O método de agrupamento em si não é um algoritmo específico, mas uma tarefa geral que precisa ser resolvida. Isso pode ser alcançado com vários algoritmos que diferem significativamente na compreensão do que constitui um grupo e como encontrá-lo de forma eficiente. A utilização do método de agrupamento para a formação de metassujeitos inclui o uso de um grupo compequenas distâncias entre membros, regiões densas do espaço, intervalos ou certas distribuições estatísticas. Portanto, o agrupamento pode ser formulado como um problema de otimização multiobjetivo.
O método apropriado e as configurações de parâmetros (incluindo itens como a função de distância a ser usada, o limite de densidade ou o número de clusters esperados) dependem do conjunto de dados individual e do uso pretendido dos resultados. A análise como tal não é uma tarefa automática, mas um processo iterativo de descoberta de conhecimento ou otimização interativa multiobjetivo. Esse método de agrupamento inclui tentativas de tentativa e erro. Muitas vezes é necessário modificar o pré-processamento de dados e os parâmetros do modelo até que o resultado atinja as propriedades desejadas.
Além do termo "clustering", há uma série de palavras com significados semelhantes, incluindo classificação automática, taxonomia numérica, botriologia e análise tipológica. Diferenças sutis geralmente estão no uso do método de agrupamento para formar relacionamentos de metassujeito. Enquanto na extração de dados os grupos resultantes são de interesse, na classificação automática já é o poder discriminatório que desempenha essas funções.
A análise de cluster foi baseada em vários trabalhos de Kroeber em 1932. Foi introduzido na psicologia por Zubin em 1938 e por Robert Tryon em 1939. E esses trabalhos têm sido usados por Cattell desde 1943 para indicar a classificação de métodos de agrupamento em teoria.
Termo
O conceito de "cluster" não pode ser definido com precisão. Esta é uma das razões pelas quais existem tantos métodos de agrupamento. Há um denominador comum: um grupo de objetos de dados. No entanto, diferentes pesquisadores usam modelos diferentes. E cada um desses usos de métodos de agrupamento envolve dados diferentes. O conceito encontrado por vários algoritmos difere significativamente em suas propriedades.
Usar o método de agrupamento é a chave para entender as diferenças entre as instruções. Os padrões de cluster típicos incluem:
- Centroid s. Isto é, por exemplo, quando o agrupamento k-means representa cada agrupamento com um vetor médio.
- Modelo de conectividade s. Isso é, por exemplo, clustering hierárquico, que constrói modelos baseados em conectividade à distância.
- Modelo de distribuição s. Nesse caso, os clusters são modelados usando o método de clustering para formar distribuições estatísticas de metassujeito. Como a separação normal multivariada, que é aplicável ao algoritmo de maximização da expectativa.
- Modelo de densidade s. Estes são, por exemplo, DBSCAN (Spatial Clustering Algorithm with Noise) e OPTICS (Order Points for Structure Detection), que definem clusters como regiões densas conectadas no espaço de dados.
- Modelo de subespaço c. No biclustering (também conhecido como co-clustering ou dois modos), os grupos são modelados com ambos os elementos e com os atributos apropriados.
- Modelo s. Alguns algoritmos nãorelacionamento refinado para seu método de agrupamento para gerar resultados de meta-assunto e simplesmente fornecer agrupamento de informações.
- Modelo baseado no gráfico s. Um clique, ou seja, um subconjunto de nós, tal que cada duas conexões na parte da borda podem ser consideradas como um protótipo da forma do cluster. O enfraquecimento da demanda total é conhecido como quase-panelinhas. Exatamente o mesmo nome é apresentado no algoritmo de agrupamento HCS.
- Modelos neurais s. A rede não supervisionada mais conhecida é o mapa auto-organizado. E são esses modelos que geralmente podem ser caracterizados como semelhantes a um ou mais dos métodos de agrupamento acima para a formação de resultados de meta-sujeitos. Inclui sistemas subespaciais quando as redes neurais implementam a forma necessária de análise de componentes principais ou independentes.
Este termo é, na verdade, um conjunto de tais grupos, que normalmente contém todos os objetos do conjunto de métodos de agrupamento de dados. Além disso, pode indicar o relacionamento dos clusters entre si, como uma hierarquia de sistemas integrados uns aos outros. O agrupamento pode ser dividido nos seguintes aspectos:
- Método de agrupamento de centroides rígidos. Aqui, cada objeto pertence a um grupo ou está fora dele.
- Sistema suave ou difuso. Neste ponto, cada objeto já pertence em certa medida a qualquer cluster. Também é chamado de método de agrupamento difuso c-means.
E diferenças mais sutis também são possíveis. Por exemplo:
- Agrupamento de particionamento estrito. Aquicada objeto pertence a exatamente um grupo.
- Agrupamento de particionamento estrito com outliers. Nesse caso, os objetos também podem não pertencer a nenhum cluster e ser considerados desnecessários.
- Agrupamento sobreposto (também alternativo, com várias visualizações). Aqui, os objetos podem pertencer a mais de uma ramificação. Normalmente envolvendo clusters sólidos.
- Métodos de agrupamento hierárquico. Objetos pertencentes a um grupo filho também pertencem ao subsistema pai.
- Formação de subespaço. Embora semelhante a clusters sobrepostos, dentro de um sistema definido exclusivamente, os grupos mútuos não devem se sobrepor.
Instruções
Como dito acima, os algoritmos de agrupamento podem ser classificados com base em seu modelo de agrupamento. A revisão a seguir listará apenas os exemplos mais proeminentes dessas instruções. Como pode haver mais de 100 algoritmos publicados, nem todos fornecem modelos para seus clusters e, portanto, não podem ser facilmente classificados.
Não existe um algoritmo de agrupamento objetivamente correto. Mas, como observado acima, a instrução está sempre no campo de visão do observador. O algoritmo de agrupamento mais adequado para um problema específico geralmente precisa ser escolhido experimentalmente, a menos que haja uma razão matemática para preferir um modelo a outro. Deve-se notar que um algoritmo projetado para um único tipo geralmente não funciona comum conjunto de dados que contém um assunto radicalmente diferente. Por exemplo, k-means não pode encontrar grupos não convexos.
Agrupamento baseado em conexão
Esta união também é conhecida pelo seu nome, o modelo hierárquico. Baseia-se na ideia típica de que os objetos estão mais conectados às partes vizinhas do que às que estão muito mais distantes. Esses algoritmos conectam objetos, formando diferentes clusters, dependendo de sua distância. Um grupo pode ser descrito principalmente pela distância máxima necessária para conectar as diferentes partes do cluster. Em todas as distâncias possíveis, outros grupos se formarão, que podem ser representados usando um dendrograma. Isso explica de onde vem o nome comum "agrupamento hierárquico". Ou seja, esses algoritmos não fornecem uma única partição do conjunto de dados, mas fornecem uma extensa ordem de autoridade. É graças a ele que há um dreno um com o outro a certas distâncias. Em um dendrograma, o eixo y denota a distância na qual os aglomerados se juntam. E os objetos são dispostos ao longo da linha X para que os grupos não se misturem.
Agrupamento baseado em conexão é uma família inteira de métodos que diferem na maneira como calculam distâncias. Além da escolha usual das funções de distância, o usuário também precisa decidir sobre o critério de conexão. Como um cluster consiste em vários objetos, há muitas opções para calculá-lo. Uma escolha popular é conhecida como agrupamento de alavanca única, este é o métodolink completo, que contém UPGMA ou WPGMA (conjunto não ponderado ou ponderado de pares com média aritmética, também conhecido como agrupamento de links médios). Além disso, o sistema hierárquico pode ser aglomerativo (começando com elementos individuais e combinando-os em grupos) ou dividido (começando com um conjunto de dados completo e dividindo-o em seções).
Agrupamento distribuído
Esses modelos estão mais intimamente relacionados às estatísticas baseadas em divisões. Os clusters podem ser facilmente definidos como objetos que provavelmente pertencem à mesma distribuição. Um recurso útil dessa abordagem é que ela é muito semelhante à maneira como os conjuntos de dados artificiais são criados. Ao amostrar objetos aleatórios de uma distribuição.
Embora a base teórica desses métodos seja excelente, eles sofrem de um problema-chave, conhecido como overfitting, a menos que sejam impostos limites à complexidade do modelo. Uma associação maior geralmente explicará melhor os dados, dificultando a escolha do método correto.
Modelo de mistura gaussiana
Este método usa todos os tipos de algoritmos de maximização de expectativas. Aqui, o conjunto de dados geralmente é modelado com um número fixo (para evitar substituição) de distribuições gaussianas que são inicializadas aleatoriamente e cujos parâmetros são otimizados iterativamente para melhor ajustar o conjunto de dados. Este sistema irá convergir para um ótimo local. É por isso que várias corridas podem darresultados diferentes. Para obter o agrupamento mais preciso, os recursos geralmente são atribuídos à distribuição gaussiana à qual eles provavelmente pertencem. E para grupos mais suaves, isso não é necessário.
O clustering baseado em distribuição cria modelos complexos que podem capturar a correlação e a dependência entre os atributos. No entanto, esses algoritmos impõem uma carga adicional ao usuário. Para muitos conjuntos de dados do mundo real, pode não haver um modelo matemático definido de forma concisa (por exemplo, assumindo que uma distribuição gaussiana é uma suposição bastante forte).
Agrupamento baseado em densidade
Neste exemplo, os grupos são basicamente definidos como áreas com maior impermeabilidade que o restante do conjunto de dados. Objetos nessas partes raras, que são necessários para separar todos os componentes, geralmente são considerados ruídos e pontos de borda.
O método de agrupamento baseado em densidade mais popular é o DBSCAN (Spatial Noise Clustering Algorithm). Ao contrário de muitos métodos mais recentes, ele possui um componente de cluster bem definido chamado "acessibilidade de densidade". Semelhante ao cluster baseado em link, ele é baseado em pontos de conexão dentro de certos limites de distância. No entanto, esse método coleta apenas os itens que atendem ao critério de densidade. Na versão original, definido como o número mínimo de outros objetos neste raio, o cluster é composto por todositens relacionados à densidade (que podem formar um grupo de forma livre, ao contrário de muitos outros métodos) e todos os objetos que estão dentro do intervalo permitido.
Outra propriedade interessante do DBSCAN é que sua complexidade é bastante baixa - requer um número linear de consultas de intervalo no banco de dados. E também incomum é que ele encontrará essencialmente os mesmos resultados (isso é determinístico para pontos centrais e de ruído, mas não para elementos de limite) em todas as corridas. Portanto, não há necessidade de executá-lo várias vezes.
A principal desvantagem do DBSCAN e do OPTICS é que eles esperam alguma queda na densidade para detectar os limites do cluster. Por exemplo, em conjuntos de dados com distribuições gaussianas sobrepostas - um caso de uso comum para objetos artificiais - os limites de cluster gerados por esses algoritmos geralmente parecem arbitrários. Isso acontece porque a densidade de grupos está diminuindo continuamente. E em um conjunto de dados de mistura gaussiana, esses algoritmos quase sempre superam métodos como agrupamento EM, que são capazes de modelar com precisão esses tipos de sistemas.
Deslocamento médio é uma abordagem de agrupamento em que cada objeto se move para a área mais densa da vizinhança com base em uma estimativa de todo o kernel. No final, os objetos convergem para máximos de impenetrabilidade local. Semelhante ao agrupamento k-means, esses "atratores de densidade" podem servir como representantes de um conjunto de dados. Mas a mudança médiapode detectar clusters de formato arbitrário semelhantes ao DBSCAN. Devido ao procedimento iterativo caro e estimativa de densidade, o deslocamento médio é geralmente mais lento que DBSCAN ou k-Means. Além disso, a aplicabilidade do algoritmo de deslocamento típico para dados de alta dimensão é difícil devido ao comportamento não uniforme da estimativa de densidade do kernel, o que leva à fragmentação excessiva das caudas do cluster.
Classificação
Verificar resultados de agrupamento é tão difícil quanto agrupar em si. Abordagens populares incluem pontuação "interna" (onde o sistema é reduzido a uma única medida de qualidade) e, é claro, pontuação "externa" (onde o agrupamento é comparado a uma classificação "verdadeira" existente). E a pontuação manual do especialista humano e a pontuação indireta são encontradas examinando a utilidade do agrupamento no aplicativo pretendido.
Medidas de sinalizadores internos sofrem do problema de representarem recursos que podem ser considerados alvos de clustering. Por exemplo, é possível agrupar dados fornecidos pelo coeficiente Silhouette, exceto que não há algoritmo eficiente conhecido para fazê-lo. Usando tal medida interna para avaliação, é melhor comparar a similaridade dos problemas de otimização.
A marca externa tem problemas semelhantes. Se houver esses rótulos de "verdade fundamental", não há necessidade de agrupar. E em aplicações práticas, geralmente não existem tais conceitos. Por outro lado, os rótulos refletem apenas uma partição possível do conjunto de dados, o que não significaque não há outro agrupamento (talvez até melhor).
Então, nenhuma dessas abordagens pode julgar a qualidade real. Mas isso requer avaliação humana, que é altamente subjetiva. No entanto, tais estatísticas podem ser informativas na identificação de clusters ruins. Mas não se deve descontar a avaliação subjetiva de uma pessoa.
Marca Interna
Quando o resultado de um agrupamento é avaliado com base em dados que foram agrupados, isso é referido como este termo. Esses métodos geralmente atribuem o melhor resultado a um algoritmo que cria grupos com alta similaridade dentro e baixa entre grupos. Uma das desvantagens do uso de critérios internos na avaliação de clusters é que pontuações altas não levam necessariamente a aplicativos eficazes de recuperação de informações. Além disso, essa pontuação é tendenciosa para algoritmos que usam o mesmo modelo. Por exemplo, o agrupamento k-means otimiza naturalmente as distâncias dos recursos, e um critério interno baseado nele provavelmente superestimará o agrupamento resultante.
Portanto, essas medidas de avaliação são mais adequadas para se ter uma ideia de situações em que um algoritmo tem um desempenho melhor que outro. Mas isso não significa que cada informação dê resultados mais confiáveis do que outras. O período de validade medido por tal índice depende da afirmação de que a estrutura existe no conjunto de dados. Um algoritmo desenvolvido para alguns tipos não tem chance se o conjunto contém radicalmentecomposição diferente ou se a avaliação medir critérios diferentes. Por exemplo, o agrupamento k-means só pode encontrar agrupamentos convexos e muitos índices de pontuação assumem o mesmo formato. Em um conjunto de dados com modelos não convexos, é inadequado usar k-médias e critérios de avaliação típicos.
Avaliação externa
Com esse tipo de agrupamento, os resultados de agrupamento são avaliados com base em dados que não foram usados para agrupamento. Ou seja, como rótulos de classe conhecidos e testes externos. Tais questões consistem em um conjunto de itens pré-classificados e muitas vezes são criadas por especialistas (humanos). Como tal, os kits de referência podem ser vistos como o padrão-ouro para avaliação. Esses tipos de métodos de pontuação medem o quão próximo o agrupamento está de determinadas classes de referência. No entanto, recentemente foi discutido se isso é adequado para dados reais ou apenas para conjuntos sintéticos com verdade real. Uma vez que as classes podem conter estrutura interna, e os atributos existentes podem não permitir a separação de clusters. Além disso, do ponto de vista da descoberta do conhecimento, a reprodução de fatos conhecidos pode não necessariamente produzir o resultado esperado. Em um cenário de agrupamento restrito especial onde meta-informações (como rótulos de classe) já são usadas no processo de agrupamento, não é trivial reter todas as informações para fins de avaliação.
Agora está claro o que não se aplica aos métodos de agrupamento e quais modelos são usados para esses propósitos.