Redes bayesianas: definição, exemplos e como funcionam

2026 Autor: Angel Austin | [email protected]. Última modificação: 2025-01-23 12:31:36

Uma crença, rede de decisão, modelo Bayesiano (ian) ou modelo de grafo acíclico conduzido probabilisticamente é um esquema variante (um tipo de modelo estatístico) que representa um conjunto de variáveis e suas dependências condicionais por meio de um grafo acíclico direcionado (DAG).

Por exemplo, uma rede Bayesiana pode representar relações probabilísticas entre doenças e sintomas. Dado este último, a rede pode ser usada para calcular a possibilidade de ter várias doenças. No vídeo abaixo você pode ver um exemplo de uma rede de crenças Bayesiana com cálculos.

Eficiência

Algoritmos eficientes podem realizar inferência e aprendizado em redes Bayesianas. Redes que modelam variáveis (como sinais de fala ou sequências de proteínas) são chamadas de redes dinâmicas. Generalizações de redes Bayesianas que podem representar e resolver problemas sob incerteza são chamadas de diagramas de influência.

Essência

FormalmenteRedes Bayesianas são DAGs cujos nós representam variáveis no sentido Bayesiano: podem ser valores observados, variáveis ocultas, parâmetros desconhecidos ou hipóteses. Porque é muito interessante.

Exemplo de rede bayesiana

Dois eventos podem fazer com que a grama fique molhada: um aspersor ativo ou chuva. A chuva tem um efeito direto no uso do aspersor (ou seja, quando chove, o aspersor geralmente fica inativo). Esta situação pode ser modelada usando uma rede Bayesiana.

Simulação

Como a rede Bayesiana é um modelo completo para suas variáveis e seus relacionamentos, ela pode ser usada para responder a consultas probabilísticas sobre elas. Por exemplo, pode ser usado para atualizar o conhecimento sobre o estado de um subconjunto de variáveis quando outros dados (variáveis de evidência) são observados. Esse processo interessante é chamado de inferência probabilística.

A posteriori fornece uma estatística universalmente suficiente para aplicações de descoberta ao escolher valores para um subconjunto de variáveis. Assim, este algoritmo pode ser considerado um mecanismo para aplicar automaticamente o teorema de Bayes a problemas complexos. Nas fotos do artigo você pode ver exemplos de redes de crenças bayesianas.

Métodos de Saída

Os métodos de inferência exata mais comuns são: eliminação de variáveis, que elimina (por integração ou soma) o não observávelparâmetros de não consulta um por um, alocando o valor ao produto.

Propagação de cliques de uma "árvore" que armazena em cache os cálculos para que muitas variáveis possam ser consultadas de uma só vez e novas provas possam ser propagadas rapidamente; e correspondência e/ou busca recursiva, que permitem compensações entre espaço e tempo e combinam a eficiência da eliminação de variáveis quando espaço suficiente é usado.

Todos esses métodos têm uma complexidade especial que depende exponencialmente do comprimento da rede. Os algoritmos de inferência aproximada mais comuns são eliminação de minisegmentos, propagação de crença cíclica, propagação de crença generalizada e métodos variacionais.

Rede

Para especificar completamente a rede Bayesiana e assim representar completamente a distribuição de probabilidade conjunta, é necessário especificar para cada nó X a distribuição de probabilidade para X devido aos pais de X.

A distribuição de X condicionalmente por seus pais pode ter qualquer forma. É comum trabalhar com distribuições discretas ou gaussianas, pois simplifica os cálculos. Às vezes, apenas as restrições de distribuição são conhecidas. Você pode então usar a entropia para determinar a distribuição única que tem a maior entropia dadas as restrições.

Da mesma forma, no contexto específico de uma rede Bayesiana dinâmica, a distribuição condicional para a evolução temporal do latenteO estado geralmente é definido para maximizar a taxa de entropia do processo aleatório implícito.

Maximizar diretamente a probabilidade (ou probabilidade posterior) é muitas vezes complicado devido à presença de variáveis não observadas. Isso é especialmente verdadeiro para uma rede de decisão bayesiana.

Abordagem clássica

A abordagem clássica para este problema é o algoritmo de maximização da expectativa, que alterna a computação dos valores esperados de variáveis não observadas dependentes dos dados observados com a maximização da probabilidade total (ou valor posterior), assumindo que o valor esperado anteriormente calculado os valores estão corretos. Em condições de regularidade moderada, esse processo converge nos valores máximos (ou máximos a posteriori) dos parâmetros.

Uma abordagem Bayesiana mais completa para parâmetros é tratá-los como variáveis não observadas adicionais e calcular a distribuição posterior completa sobre todos os nós dados os dados observados, e então integrar os parâmetros. Essa abordagem pode ser cara e resultar em modelos grandes, tornando as abordagens clássicas de ajuste de parâmetros mais acessíveis.

No caso mais simples, uma rede Bayesiana é definida por um especialista e então usada para realizar inferências. Em outras aplicações, a tarefa de determinar é muito difícil para um ser humano. Neste caso, a estrutura da rede neural Bayesiana e os parâmetros das distribuições locais devem ser aprendidos entre os dados.

Método alternativo

Um método alternativo de aprendizagem estruturada usa busca de otimização. Isso requer a aplicação de uma função de avaliação e uma estratégia de busca. Um algoritmo de pontuação comum é a probabilidade posterior de uma estrutura com dados de treinamento como BIC ou BDeu.

O tempo necessário para uma busca exaustiva retornando uma estrutura que maximize a pontuação é superexponencial no número de variáveis. A estratégia de busca local faz mudanças incrementais para melhorar a estimativa da estrutura. Friedman e seus colegas consideraram usar informações mútuas entre variáveis para encontrar a estrutura desejada. Eles restringem o conjunto de candidatos pais a k nós e os pesquisam minuciosamente.

Um método particularmente rápido para estudar BN exatamente é imaginar o problema como um problema de otimização e resolvê-lo usando programação inteira. Restrições de aciclicidade são adicionadas ao programa inteiro (IP) durante a solução na forma de planos de corte. Tal método pode lidar com problemas de até 100 variáveis.

Resolução de Problemas

Para resolver problemas com milhares de variáveis, é necessária uma abordagem diferente. Uma é primeiro escolher uma ordem e depois encontrar a estrutura BN ótima em relação a essa ordem. Isso implica trabalhar no espaço de busca de ordenação possível, o que é conveniente por ser menor que o espaço de estruturas de rede. Vários pedidos são então selecionados e avaliados. Este método resultoumelhor disponível na literatura quando o número de variáveis é grande.

Outro método é focar em uma subclasse de modelos decomponíveis para os quais MLEs são fechados. Então você pode encontrar uma estrutura consistente para centenas de variáveis.

Estudar redes bayesianas com uma largura limitada de três linhas é necessário para fornecer inferências precisas e interpretáveis, uma vez que a complexidade do pior caso desta última é exponencial em comprimento de árvore k (de acordo com a hipótese de tempo exponencial). No entanto, como propriedade global do gráfico, aumenta muito a complexidade do processo de aprendizagem. Nesse contexto, o K-tree pode ser usado para um aprendizado eficaz.

Desenvolvimento

O desenvolvimento de uma Web Bayesiana de Confiança geralmente começa com a criação de um DAG G tal que X satisfaça uma propriedade de Markov local em relação a G. Algumas vezes este é um DAG causal. As distribuições de probabilidade condicional de cada variável sobre seus pais em G são estimadas. Em muitos casos, em particular quando as variáveis são discretas, se a distribuição conjunta de X é o produto dessas distribuições condicionais, então X se torna uma rede Bayesiana em relação a G.

O "cobertor de nós" de Markov é um conjunto de nós. A colcha de Markov torna o nó independente do restante do espaço em branco do nó com o mesmo nome e é conhecimento suficiente para calcular sua distribuição. X é uma rede Bayesiana em relação a G se cada nó for condicionalmente independente de todos os outros nós, dado seu Markovianocobertor.