O desenvolvimento da tecnologia da informação traz resultados práticos. Mas tarefas como encontrar, analisar e usar informações ainda não receberam uma ferramenta eficaz de alta qualidade. Existem ferramentas analíticas e quantitativas, elas realmente funcionam. Mas uma revolução qualitativa no uso da informação ainda não aconteceu.
Muito antes do advento da tecnologia de computador, uma pessoa precisava processar grandes quantidades de informações e lidava com isso da melhor maneira possível.
O desenvolvimento de conhecimentos e habilidades sempre atendeu às necessidades reais e correspondeu às tarefas atuais. Mineração de dados é um nome coletivo usado para se referir a um conjunto de métodos para descobrir conhecimento em dados até então desconhecido, não trivial, praticamente útil e acessível, necessário para a tomada de decisões em diversas áreas da atividade humana.
Humano, inteligência, programação
Uma pessoa sempre sabe como agir em qualquer situação. A ignorância ou uma situação desconhecida não o impede de tomar uma decisão. A objetividade e a razoabilidade de qualquer decisão humana podem ser questionadas, mas serão aceitas.
A inteligência é baseada em: "mecanismo" hereditário, conhecimento ativo adquirido. O conhecimento é aplicado para resolver problemas que surgem diante de uma pessoa.
- Inteligência é um conjunto único de conhecimentos e habilidades: oportunidades e fundamentos para a vida e o trabalho humanos.
- A inteligência está em constante evolução e as ações humanas têm impacto sobre outras pessoas.
Programação é a primeira tentativa de formalizar a representação de dados e o processo de criação de algoritmos.
A inteligência artificial (IA) é um desperdício de tempo e recursos, mas os resultados de tentativas malsucedidas do século passado no campo da IA permaneceram na memória, foram usados em vários sistemas especialistas (inteligentes) e foram transformados, em particular, em algoritmos (regras) e análise de dados matemáticos (lógicos) e Mineração de Dados.
Informação e a busca usual de uma solução
Uma biblioteca comum é um repositório de conhecimento, e a palavra impressa e os gráficos ainda não renderam a palma da mão à tecnologia do computador. Livros sobre física, química, mecânica teórica, design, história natural, filosofia, ciências naturais, botânica, livros didáticos, monografias, trabalhos de cientistas, materiais de conferências, relatórios sobre trabalho de desenvolvimento etc. são sempre relevantes e confiáveis.
Biblioteca é um monte de fontes diferentes que diferemforma de apresentação do material, origem, estrutura, conteúdo, estilo de apresentação, etc.
Externamente tudo é visível (legível, acessível) para compreensão e uso. Você pode resolver qualquer problema, definir corretamente a tarefa, justificar a solução, escrever um ensaio ou trabalho de conclusão de curso, selecionar material para um diploma, analisar fontes sobre o tema de uma dissertação ou um relatório científico e analítico.
Qualquer problema de informação pode ser resolvido. Com a devida perseverança e habilidade, um resultado preciso e confiável será obtido. Nesse contexto, Data Mining é uma abordagem completamente diferente.
Além do resultado, uma pessoa recebe "links ativos" para tudo que foi visualizado no processo de atingimento do objetivo. As fontes que ele usou para resolver o problema podem ser consultadas e ninguém contestará o fato da existência da fonte. Esta não é uma garantia de autenticidade, mas é um testemunho seguro para quem a responsabilidade pela autenticidade é "desinscrita". Deste ponto de vista, Data Mining significa grandes dúvidas sobre a confiabilidade e não links "ativos".
Resolvendo vários problemas, uma pessoa obtém resultados e expande seu potencial intelectual para muitos "links ativos". Se uma nova tarefa “ativar” um link já existente, a pessoa saberá como resolvê-lo: não há necessidade de procurar nada novamente.
"Link ativo" é uma associação fixa: como e o que fazer em um caso particular. O cérebro humano se lembra automaticamente de tudo o que lhe parece potencialmente interessante, útil.ou provavelmente serão necessários no futuro. De muitas maneiras, isso acontece em um nível subconsciente, mas assim que surge uma tarefa que pode ser associada a um “link ativo”, ela instantaneamente aparece na mente e uma solução será obtida sem busca adicional de informações. Data Mining é sempre uma repetição do algoritmo de busca e este algoritmo não muda.
Pesquisa regular: problemas "artísticos"
Biblioteca de matemática e buscar informações nela é uma tarefa relativamente fraca. Encontrar uma forma ou outra de resolver uma integral, construir uma matriz ou realizar a operação de somar dois números imaginários é trabalhoso, mas simples. Você precisa examinar vários livros, muitos dos quais são escritos em um idioma específico, encontrar o texto certo, estudá-lo e obter a solução necessária.
Com o tempo, a enumeração se tornará familiar e a experiência acumulada permitirá que você navegue pelas informações da biblioteca e outros problemas matemáticos. Este é um espaço de informação limitado de perguntas e respostas. Uma característica: essa busca por informações acumula conhecimento para resolver problemas semelhantes. A busca de informações de uma pessoa deixa rastros ("links ativos") em sua memória sobre possíveis soluções para outros problemas.
Na ficção, encontre a resposta para a pergunta: "Como as pessoas viviam em janeiro de 1248?" muito difícil. É ainda mais difícil responder à pergunta sobre o que havia nas prateleiras das lojas e como o comércio de alimentos era organizado. Mesmo que algum escritor tenha escrito clara e diretamente sobre isso em seu romance, se o nome desse escritor pudesse ser encontrado, então dúvidas sobrea confiabilidade dos dados recebidos permanecerá. A confiabilidade é uma característica crítica de qualquer quantidade de informação. A fonte, o autor e a evidência que exclui a falsidade do resultado são importantes.
Circunstâncias objetivas de uma situação particular
O homem vê, ouve, sente. Alguns especialistas são fluentes em um sentimento único - a intuição. A declaração do problema requer informações, o processo de resolução do problema é mais frequentemente acompanhado por um refinamento da declaração do problema. Este é o problema menor que vem com a movimentação de informações nas entranhas de um sistema de computador.
A biblioteca e os colegas de trabalho são participantes indiretos no processo de decisão. O design do livro (fonte), os gráficos no texto, os recursos de divisão de informações em títulos, notas de rodapé por frases, o índice de assuntos, a lista de fontes primárias - tudo evoca associações em uma pessoa que afetam indiretamente o processo de resolução o problema.
A hora e o local para resolver o problema são essenciais. Uma pessoa está tão organizada que involuntariamente presta atenção a tudo o que a cerca no processo de resolver um problema. Pode ser uma distração, ou pode ser estimulante. A mineração de dados nunca "entenderá".
Informações no espaço virtual
Uma pessoa sempre se interessou apenas por informações confiáveis sobre um evento, fenômeno, objeto, algoritmo para resolver um problema. O homem sempre imaginou exatamente como pode alcançar o objetivo desejado.
O surgimento de computadores e sistemas de informação deveria ter facilitado a vida de uma pessoa, mas tudo só se tornou mais complicado. A informação migrou para as entranhas dos sistemas de computador e desapareceu de vista. Para selecionar os dados necessários, você precisa criar um algoritmo correto ou formular uma consulta ao banco de dados.
A questão deve estar correta. Só então você pode obter uma resposta. Mas as dúvidas sobre a autenticidade permanecem. Nesse sentido, Data Mining é realmente “escavações”, é “extração de informação”. É assim que está na moda traduzir esta frase. A versão russa é mineração de dados ou tecnologia de mineração de dados.
Nos trabalhos de especialistas autorizados, as tarefas de Data Mining são indicadas da seguinte forma:
- classificação;
- agrupamento;
- associação;
- sequência;
- previsão.
Do ponto de vista da prática que orienta uma pessoa no processamento manual da informação, todas essas posições são discutíveis. De qualquer forma, uma pessoa processa a informação automaticamente e não pensa em classificar dados, compilar grupos temáticos de objetos (clustering), buscar padrões temporais (sequência) ou prever o resultado.
Todas essas posições na mente humana são representadas pelo conhecimento ativo, que abrange mais posições e utiliza dinamicamente a lógica de processamento dos dados iniciais. O subconsciente de uma pessoa desempenha um papel importante, especialmente quando ela é especialista em um determinado campo do conhecimento.
Exemplo: Comércio por grosso de equipamento informático
A tarefa é simples. Existem váriosdezenas de fornecedores de equipamentos de informática e periféricos. Cada um possui uma tabela de preços em formato xls (arquivo Excel), que pode ser baixada no site oficial do fornecedor. É necessário criar um recurso da web que leia arquivos do Excel, os converta em tabelas de banco de dados e permita que os clientes selecionem os produtos desejados pelos preços mais baixos.
Problemas surgem imediatamente. Cada fornecedor oferece sua própria versão da estrutura e conteúdo do arquivo xls. Você pode obter o arquivo baixando-o do site do fornecedor, solicitando-o por e-mail ou obtendo um link para download através de sua conta pessoal, ou seja, registrando-se oficialmente no fornecedor.
A solução do problema (no início) é tecnologicamente simples. Carregando arquivos (dados iniciais), um algoritmo de reconhecimento de arquivo é escrito para cada fornecedor e os dados são colocados em uma grande tabela de dados iniciais. Após a recepção de todos os dados, após o estabelecimento do mecanismo de troca contínua (diária, semanal ou mediante alteração) de novos dados:
- alterar sortimento;
- alterações de preço;
- esclarecimento da quantidade em estoque;
- ajuste dos termos de garantia, especificações, etc.
É aqui que começam os verdadeiros problemas. A questão é que o fornecedor pode escrever:
- notebook Acer;
- notebook Asus;
- Laptop Dell.
Estamos falando do mesmo produto, mas de fabricantes diferentes. Como combinar notebook=laptop ou como remover Acer, Asus e Dell de uma linha de produtos?
Parahumano não é um problema, mas como o algoritmo "entenderá" que Acer, Asus, Dell, Samsung, LG, HP, Sony são marcas ou fornecedores? Como combinar "impressora" e impressora, "scanner" e "MFP", "copiadora" e "MFP", "fones de ouvido" com "fone de ouvido", "acessórios" com "acessórios"?
Construir uma árvore de categorias com base nos dados de origem (arquivos de origem) já é um problema quando você precisa definir tudo para automático.
Amostragem de dados: escavações do "recém derramado"
A tarefa de criar um banco de dados de fornecedores de equipamentos de informática foi resolvida. Uma árvore de categorias foi construída, uma tabela comum com ofertas de todos os fornecedores está funcionando.
Tarefas típicas de mineração de dados no contexto deste exemplo:
- encontre um produto pelo menor preço;
- selecione o item com o menor custo de envio e preço;
- análise de produtos: características e preços por critérios.
No trabalho real de um gerente usando dados de várias dezenas de fornecedores, haverá muitas variações dessas tarefas e situações ainda mais reais.
Por exemplo, há um fornecedor "A" que vende ASUS VivoBook S15: pré-pagamento, entrega 5 dias após o recebimento do dinheiro. Existe um fornecedor "B" do mesmo produto do mesmo modelo: pagamento no recebimento, entrega após a celebração do contrato em um dia, o preço é uma vez e meia maior.
Início da mineração de dados - "escavações". Expressões figurativas: "escavações" ou "mineração de dados" são sinônimos. É sobre como obter uma razão para tomar uma decisão.
Os fornecedores "A" e "B" possuem histórico de entregas. Graupré-pagamento no primeiro caso contra pagamento no recebimento no segundo caso, tendo em conta que a falha de entrega no segundo caso é 65% maior. O risco de penalidades do cliente é maior/menor. Como e o que determinar e que decisão tomar?
Por outro lado: o banco de dados foi criado por um programador e um gerente. Se o programador e o gerente mudaram, como determinar o estado atual do banco de dados e aprender a usá-lo corretamente? Você também terá que fazer mineração de dados. A Mineração de Dados oferece uma variedade de métodos matemáticos e lógicos que não se importam com o tipo de dado que está sendo pesquisado. Isso fornece a solução correta em alguns casos, mas não em todos.
Movendo para a virtualidade e encontrando significado
Os métodos de mineração de dados tornam-se significativos assim que a informação é escrita no banco de dados e desaparece do “campo de visão”. A comercialização de equipamentos de informática é uma tarefa interessante, mas é apenas um negócio. O quão bem ele está organizado na empresa depende de seu sucesso.
As mudanças climáticas no planeta e o clima em uma determinada cidade são de interesse de todos, não apenas dos especialistas em clima profissional. Milhares de sensores fazem leituras de vento, umidade, pressão, dados de satélites artificiais da Terra e há um histórico de dados de anos e séculos.
Dados meteorológicos não se tratam apenas de decidir se deve ou não levar um guarda-chuva para o trabalho. As tecnologias de mineração de dados são o voo seguro de um avião, a operação estável de uma rodovia e o fornecimento confiável de derivados de petróleo por via marítima.
Dados "brutos" são enviados para as informaçõessistema. As tarefas do Data Mining são transformá-los em um sistema sistematizado de tabelas, estabelecer links, destacar grupos de dados homogêneos e detectar padrões.
Métodos matemáticos e lógicos desde os dias da análise quantitativa OLAP (On-line Analytical Processing) mostraram sua praticidade. Aqui, a tecnologia permite encontrar significado, e não perdê-lo, como no exemplo da venda de equipamentos de informática.
Além disso, em tarefas globais:
- negócios transnacionais;
- gestão de transporte aéreo;
- estudo das entranhas da terra ou problemas sociais (em nível estadual);
- estudo do efeito de drogas em um organismo vivo;
- prever as consequências da construção de um empreendimento industrial, etc.
Tecnologias de mineração de dados e transformar dados “sem sentido” em dados reais que permitem que você tome decisões objetivas é a única opção.
As possibilidades humanas terminam onde há uma grande quantidade de informação bruta. Os sistemas de mineração de dados perdem sua utilidade onde é necessário ver, entender e sentir informações.
Distribuição razoável de funções e objetividade
Homem e computador devem se complementar - isso é um axioma. Escrever uma dissertação é uma prioridade para uma pessoa, e um sistema de informação é uma ajuda. Aqui, os dados que a tecnologia de Data Mining possui são heurísticas, regras, algoritmos.
Preparar uma previsão do tempo semanal é a prioridade do sistema de informação. O homem gerencia os dados, mas baseia suas decisões nos resultados dos cálculos do sistema. Combina métodos de Data Mining, classificação de dados especializados, controle manual da aplicação de algoritmos, comparação automática de dados passados, previsão matemática e muito conhecimento e habilidades de pessoas reais envolvidas na aplicação do sistema de informação.
Teoria das probabilidades e estatística matemática não são as áreas de conhecimento mais "favoritas" e compreensíveis. Muitos especialistas estão muito longe deles, mas os métodos desenvolvidos nestas áreas dão resultados quase 100% corretos. Aplicando sistemas baseados nas ideias, métodos e algoritmos de Data Mining, as soluções podem ser obtidas de forma objetiva e confiável. Caso contrário, é simplesmente impossível obter uma solução.
Faraós e mistérios dos séculos passados
A história foi reescrita periodicamente:
- estados - por causa de seus interesses estratégicos;
- cientistas autorizados - por causa de suas crenças subjetivas.
É difícil dizer o que é verdade e o que é falso. A utilização de Data Mining permite-nos resolver este problema. Por exemplo, a tecnologia de construção de pirâmides foi descrita por cronistas e estudada por cientistas em diferentes séculos. Nem todos os materiais chegaram à Internet, nem tudo é único aqui, e muitos dados podem não ter:
- ponto no tempo descrito;
- hora de escrever a descrição;
- datas nas quais a descrição se baseia;
- autor(es), opiniões (links) levadas em consideração;
- confirmação de objetividade.
Bbibliotecas, templos e "lugares inesperados" você pode encontrar manuscritos de diferentes séculos e evidências materiais do passado.
Meta interessante: juntar tudo e desenterrar a "verdade". Característica do problema: as informações podem ser obtidas desde a primeira descrição por um cronista, durante a vida dos faraós, até o século atual, em que esse problema é resolvido por métodos modernos por muitos cientistas.
Racional para usar Data Mining: trabalho manual não é possível. Demasiadas quantidades:
- fontes de informação;
- idiomas de representação;
- pesquisadores descrevendo a mesma coisa de maneiras diferentes;
- datas, eventos e termos;
- problemas de correlação de termos;
- análise de estatísticas por grupos de dados ao longo do tempo pode diferir, etc.
No final do século passado, quando outro fiasco da ideia de inteligência artificial se tornou óbvio não só para o leigo, mas também para um especialista sofisticado, surgiu a ideia: “recriar a personalidade”.
Por exemplo, de acordo com os trabalhos de Pushkin, Gogol, Chekhov, um certo sistema de regras, lógicas de comportamento é formado e um sistema de informação é criado que pode responder a certas perguntas como uma pessoa: Pushkin, Gogol ou Tchekhov. Teoricamente, tal tarefa é interessante, mas na prática é extremamente difícil de implementar.
No entanto, a ideia de tal tarefa sugere uma ideia muito prática: “como criar uma busca inteligente de informações”. A Internet é um monte de recursos em desenvolvimento, um enorme banco de dados e esta é uma grande oportunidade para aplicar Mineração de Dados em combinação com humanoslógica no formato de desenvolvimento conjunto.
Uma máquina e um homem emparelhados é uma excelente tarefa e um sucesso indiscutível no campo da "arqueologia da informação", escavações de alta qualidade em dados e resultados que colocarão algo em dúvida, mas sem dúvida permitirão para adquirir novos conhecimentos e será procurado na sociedade.