O conceito de entropia informacional implica o logaritmo negativo da função de massa de probabilidade para um valor. Assim, quando a fonte de dados possui um valor com menor probabilidade (ou seja, quando ocorre um evento com baixa probabilidade), o evento carrega mais “informações” (“surpresa”) do que quando o dado fonte possui um valor com maior probabilidade.
A quantidade de informação transmitida por cada evento definido desta forma torna-se uma variável aleatória cujo valor esperado é a entropia da informação. Geralmente, entropia se refere à desordem ou incerteza, e sua definição usada na teoria da informação é diretamente análoga à usada na termodinâmica estatística. O conceito de IE foi introduzido por Claude Shannon em seu artigo de 1948 "A Mathematical Theory of Communication". Foi daí que surgiu o termo "entropia informacional de Shannon".
Definição e sistema
O modelo básico de um sistema de transmissão de dados consiste em três elementos: uma fonte de dados, um canal de comunicação e um receptor,e, como diz Shannon, o "problema básico de comunicação" é que o receptor seja capaz de identificar quais dados foram gerados pela fonte com base no sinal que recebe pelo canal. O Entropy fornece uma restrição absoluta no menor comprimento médio de codificação sem perdas possível de dados de origem compactados. Se a entropia da fonte for menor que a largura de banda do canal de comunicação, os dados gerados podem ser transmitidos de forma confiável para o receptor (pelo menos em teoria, talvez negligenciando algumas considerações práticas, como a complexidade do sistema necessário para transmitir os dados). e a quantidade de tempo que pode levar para transmitir dados).
A entropia da informação é geralmente medida em bits (alternativamente chamados de "shannons") ou às vezes em "unidades naturais" (nats) ou casas decimais (chamadas "dits", "bans" ou "hartleys"). A unidade de medida depende da base do logaritmo, que é usada para determinar a entropia.
Propriedades e logaritmo
A distribuição de probabilidade logarítmica é útil como medida de entropia porque é aditiva para fontes independentes. Por exemplo, a entropia de uma aposta justa de uma moeda é de 1 bit, enquanto a entropia de m-volumes é de m bits. Em uma representação simples, log2(n) bits são necessários para representar uma variável que pode assumir um dos n valores se n for uma potência de 2. Se esses valores forem igualmente prováveis, a entropia (em bits) é igual a esse número. Se um dos valores for mais provável que os outros, a observação de que ésignificado ocorre, é menos informativo do que se algum resultado menos geral ocorresse. Por outro lado, eventos mais raros fornecem informações adicionais de rastreamento.
Como a observação de eventos menos prováveis é menos frequente, não há nada em comum que a entropia (considerada informação média) obtida de dados distribuídos desigualmente seja sempre menor ou igual a log2(n). A entropia é zero quando um resultado é definido.
A entropia de informação de Shannon quantifica essas considerações quando a distribuição de probabilidade dos dados subjacentes é conhecida. O significado dos eventos observados (o significado das mensagens) é irrelevante na definição de entropia. O último leva em conta apenas a probabilidade de ver um determinado evento, então a informação que ele encapsula são dados sobre a distribuição subjacente de possibilidades, não sobre o significado dos eventos em si. As propriedades da entropia da informação permanecem as mesmas descritas acima.
Teoria da Informação
A ideia básica da teoria da informação é que quanto mais se sabe sobre um tópico, menos informação se pode obter sobre ele. Se um evento é muito provável, não é surpreendente quando ocorre e, portanto, fornece poucas informações novas. Por outro lado, se o evento era improvável, era muito mais informativo que o evento aconteceu. Portanto, a carga útil é uma função crescente da probabilidade inversa do evento (1 / p).
Agora, se mais eventos acontecerem, entropiamede o conteúdo médio de informações que você pode esperar se um dos eventos ocorrer. Isso significa que lançar um dado tem mais entropia do que jogar uma moeda porque cada resultado de cristal tem uma probabilidade menor do que cada resultado de moeda.
Recursos
Assim, a entropia é uma medida da imprevisibilidade de um estado ou, o que é a mesma coisa, seu conteúdo médio de informação. Para obter uma compreensão intuitiva desses termos, considere o exemplo de uma pesquisa política. Normalmente essas pesquisas acontecem porque os resultados de, por exemplo, eleições ainda não são conhecidos.
Em outras palavras, os resultados da pesquisa são relativamente imprevisíveis e, de fato, conduzi-la e examinar os dados fornece algumas informações novas; são apenas maneiras diferentes de dizer que a entropia anterior dos resultados da pesquisa é grande.
Agora considere o caso em que a mesma pesquisa é realizada uma segunda vez logo após a primeira. Como o resultado da primeira pesquisa já é conhecido, os resultados da segunda pesquisa podem ser bem previstos e os resultados não devem conter muitas informações novas; neste caso, a entropia a priori do segundo resultado da enquete é pequena comparada ao primeiro.
Lançamento de moedas
Agora considere o exemplo do lançamento de uma moeda. Assumindo que a probabilidade de coroa é igual à probabilidade de cara, a entropia do lançamento de uma moeda é muito alta, pois é um exemplo peculiar da entropia informacional de um sistema.
Isso é porqueque é impossível prever que o resultado de uma moeda será lançado antes do tempo: se tivermos que escolher, o melhor que podemos fazer é prever que a moeda cairá com coroa, e essa previsão será correta com uma probabilidade de 1 / 2. Esse lançamento de moeda tem um bit de entropia, pois há dois resultados possíveis que acontecem com igual probabilidade, e estudar o resultado real contém um bit de informação.
Pelo contrário, lançar uma moeda usando os dois lados com coroa e sem cara tem entropia zero, pois a moeda sempre cairá nesse sinal e o resultado pode ser previsto perfeitamente.
Conclusão
Se o esquema de compactação for sem perdas, o que significa que você sempre poderá recuperar toda a mensagem original descompactando, então a mensagem compactada terá a mesma quantidade de informações que a original, mas será transmitida em menos caracteres. Ou seja, possui mais informações ou maior entropia por caractere. Isso significa que a mensagem compactada tem menos redundância.
A grosso modo, o teorema de codificação do código-fonte de Shannon afirma que um esquema de compressão sem perdas não pode reduzir mensagens em média para ter mais de um bit de informação por bit de mensagem, mas qualquer valor menor que um bit de informação por bit pode ser alcançado. mensagens usando o esquema de codificação apropriado. A entropia de uma mensagem em bits vezes seu comprimento é uma medida de quanta informação geral ela contém.