Você conheceu esse conceito mais de uma vez na vida se tivesse que trabalhar com textos. Em particular, você pode recorrer a calculadoras online que realizam exatamente a análise de frequência do texto. Essas ferramentas úteis mostram quantas vezes um determinado caractere ou letra ocorre em qualquer passagem de texto. Muitas vezes, uma porcentagem também é mostrada. Por que isso é necessário? Como a análise de frequência do texto contribui para a "quebra" de cifras simples? Qual é a sua essência, quem a inventou? Responderemos a essas e outras perguntas importantes sobre o tema no decorrer do artigo.
Definição
A análise de frequência é uma das variedades de criptoanálise. Baseia-se na suposição dos cientistas sobre a existência de uma distribuição estatística não trivial de caracteres individuais e suas sequências regulares em texto simples e cifrado.
Acredita-se que tal distribuição, até a substituição de caracteres individuais, também será preservada nos processos de criptografia/descriptografia.
Característica do processo
Agora vamos dar uma olhada na análise de frequência em termos simples. Isso implica que o número de ocorrências do mesmo caractere alfabético em textos de tamanho suficiente é o mesmo em diferentes textos escritos no mesmo idioma.
E agora, e a criptografia monoalfabética? Supõe-se que, se houver um caractere com probabilidade de ocorrência semelhante na seção com texto cifrado, é realista supor que seja essa letra cifrada.
Os seguidores da análise de texto de frequência aplicam o mesmo raciocínio aos digramas (sequências de duas letras). Trigramas - isto é para o caso de cifras já polialfabéticas.
Histórico do método
A análise da frequência das palavras não é um achado da modernidade. É conhecido do mundo científico desde o século IX. A sua criação está associada ao nome Al-Kindi.
Mas os casos conhecidos de aplicação do método de análise de frequência pertencem a um período muito posterior. O exemplo mais marcante aqui é a decifração dos hieróglifos egípcios, produzida em 1822 por J.-F. Champollion.
Se nos voltarmos para a ficção, podemos encontrar muitas referências interessantes a esse método de descriptografia:
- Conan Doyle - "Os Homens Dançarinos".
- Jules Verne - "Filhos do Capitão Grant".
- Edgar Poe - "Gold Bug".
No entanto, desde meados do século passado, a maioria dos algoritmos utilizados na criptografia foram desenvolvidos levando em consideração sua resistência a tal criptoanálise de frequência. Portanto,hoje eles são usados com mais frequência apenas para treinar futuros criptógrafos.
Método básico
Vamos agora apresentar a análise da resposta em frequência em detalhes. Esse tipo de análise baseia-se diretamente no fato de a prova ser composta por palavras e estas, por sua vez, por letras. O número de letras que preenchem os alfabetos nacionais é limitado. As letras podem simplesmente ser listadas aqui.
As características mais importantes de tal texto serão tanto a repetição de letras, vários bigramas, trigramas e n-gramas, quanto a compatibilidade de várias letras entre si, a alternância de consoantes/vogais e outras variedades desses símbolos.
A ideia principal dos métodos é contar ocorrências de possíveis n-gramas (denotados por nm) em textos claros longos o suficiente para análise (denotados por T=t1t2…tl) compostos por letras do alfabeto nacional (denotado por {a1, a2, …, an}). Todos os itens acima causam alguns m-gramas consecutivos do texto:
t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.
Se este é o número de ocorrências do m-gram ai1ai2…apontar em um determinado texto T, e L é o número total de m-grams analisados pelo pesquisador, então é possível estabelecer empiricamente que para L suficientemente grande, as frequências para tal m-gram serão um pouco diferentes umas das outras.
Letras frequentes do alfabeto russo
Mas a análise de tempo-frequência, apesar do nome semelhante, não tem nada a ver com o tema da nossa conversa. Esse tipo de análise é feito parasinais de estações de radar pouco observáveis usando uma transformada wavelet especial.
Agora vamos voltar ao tópico principal. Ao realizar uma análise de frequência, você pode descobrir quais letras do alfabeto russo são encontradas com mais frequência em textos bastante volumosos (porcentagem de 0,062 a 0,018):
- A.
- V.
- D.
- F.
- I.
- K.
- M.
- O.
- R.
- T.
- F.
- T.
- Sh.
- b.
- E.
- I.
Até mesmo uma regra mnemônica especial foi introduzida, o que ajuda a aprender as letras mais comuns do alfabeto russo. Para fazer isso, basta lembrar apenas uma palavra - "palheiro".
Em casos gerais, a frequência de uso de letras em termos percentuais é definida de forma simples: o especialista conta quantas vezes a letra ocorre no texto, depois divide o valor resultante pelo número total de caracteres no texto. E para expressar esse valor em porcentagem, basta multiplicá-lo por 100.
É importante considerar que a frequência dependerá não apenas do volume do texto, mas também de sua natureza. Por exemplo, em fontes técnicas, a letra "F" aparece com muito mais frequência do que na ficção. Portanto, para resultados objetivos, o especialista deve digitar textos de diversas naturezas e estilos para pesquisa.
Bi-, tri-, quatro gramas
Em textos significativos, você também pode encontrar os mais comuns (respectivamente, os maisrepetido) combinações de duas ou mais letras. Os especialistas também compilaram várias tabelas, que indicam as frequências de diagramas semelhantes de vários alfabetos.
Quanto ao russo, a análise de frequência de sistemas de volumosos textos significativos permitiu estabelecer os bigramas e trigramas mais comuns:
- EN.
- ST.
- MAS.
- NÃO.
- ON.
- RA.
- OV.
- KO.
- VO.
- STO.
- NOVO
- ENO.
- TOV.
- OVA.
- OVO.
Relações preferenciais de letras entre si
E essas não são todas as possibilidades que a análise de frequência pode oferecer aos pesquisadores de texto. Ao sistematizar informações de tabelas semelhantes de bigramas e trigramas, é possível extrair dados sobre as combinações de letras mais comuns. Ou, em outras palavras, seus relacionamentos preferidos entre si.
Um estudo tão extenso já foi realizado por especialistas. Seu resultado foi uma tabela onde, junto com cada letra do alfabeto, eram indicadas suas vizinhas. Além disso, os caracteres que são frequentemente encontrados imediatamente antes e depois dele. As letras na tabela não são escritas por acaso. Mais perto do símbolo, os vizinhos mais frequentes são indicados, além disso - os mais raros.
Considere os exemplos:
- Letra "A". As seguintes conexões preferidas são distinguidas aqui: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. A partir daqui, vemos que mais frequentemente antes de "A" nos textos há "H" ("NA"). E depois de "A" na maioria das vezes em textos em russo, podemos encontrar "L"("AL").
- Letra "M". Especialistas identificaram essas conexões preferidas: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
- Letra "b". As conexões preferidas são as seguintes: "n-s-t-l-b-n-k-v-p-s-e-o-i".
- Letra "Sh". Conexões preferidas: "e-b-a-i-u-Sch-e-i-a".
- Letra "P". Conexões preferidas com este símbolo do alfabeto russo: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
O que define a análise?
Os programas modernos de análise de texto de frequência ajudam a estudar grandes volumes de uma ampla variedade de artigos, ensaios, passagens e assim por diante. As seguintes informações são fornecidas ao pesquisador como padrão:
- Número total de caracteres no texto.
- Número de espaços utilizados pelo autor.
- Número de dígitos.
- Informações sobre sinais de pontuação usados - pontos, vírgulas, etc.
- O número de letras em cada um dos alfabetos disponíveis - cirílico, latim, etc.
- Informações sobre a frequência de uso de cada letra e símbolo no texto - número de menções e porcentagem em relação ao texto inteiro.
Luta contra a superotimização e a supersaturação
Por que a análise de frequência de texto é realizada? É apenas para fins de curiosidade - para estabelecer quais caracteres no texto escrito acabaram sendo encontrados com frequência? Não, a principal aplicação da análise é prática e está em outro lugar.
N-gramas incluem não apenas bigramas e trigramas estáveis. Para o mesmocategorias incluem palavras-chave (tags), colocações. Ou seja, combinações estáveis que consistem em duas ou mais palavras. Eles se distinguem pelo fato de que tais composições ocorrem juntas no texto e ao mesmo tempo carregam uma certa carga semântica.
Isso joga nas mãos de especialistas em SEO sem escrúpulos. Em seu trabalho, às vezes abusam da repetição de tags e palavras-chave no texto para aumentar artificialmente a relevância de uma determinada página da web. Eles estão tentando enganar o sistema com esse "truque": transformar uma combinação natural com a combinação usual de palavras, tradicional para o idioma russo ("compre um casaco de vison") em uma inconsistente. Ou seja, obtido reorganizando as palavras em um N-gram tão natural ("compre um casaco de vison").
Mas hoje, os algoritmos de busca aprenderam a detectar superotimização de forma tão eficaz quanto o overspam - supersaturação de texto com palavras-chave, tags que afetam a classificação dos resultados na página de busca. As páginas super otimizadas agora são, pelo contrário, classificadas mais abaixo pela consulta do usuário. E as próprias pessoas não tendem a ler sem sentido, saturados com texto de tags, preferindo informações úteis em outro recurso.
Ajudando a análise privada para especialistas em SEO
Assim, os filtros de texto dos motores de busca modernos dão preferência às páginas da Internet cujas informações não são apenas fáceis de ler, mas também úteis para os visitantes. Para otimizar seu trabalho para novos padrões, especialistas em SEOe volte-se para a análise de frequência do texto. Muitos serviços populares fornecem isso hoje.
A análise de frequência ajuda a revisar o texto que está sendo preparado para publicação para fins informativos. Elimine a redundância desnecessária de tags e frases-chave. Também permite chamar a atenção do autor para combinações não naturais de palavras que levantam suspeitas nos filtros de texto dos motores de busca.
A análise da frequência do texto ajuda a determinar a frequência de menção de um determinado personagem na fonte. O método é usado hoje para avaliar a sobrecarga de texto com tags, permutações não naturais de palavras.