Opinião.14 Fev 2013

Web Mining - Prospeção de Conteúdos, Estrutura e Navegação

De há uns anos para cá foi iniciado um novo capítulo na história recente da world wide web, o da computação em núvem. Esta foi a designação atribuída ao uso da grande rede por parte de serviços online partilhados, a nível empresarial, académico e social, além de todo o armazenamento de dados pessoais que está inerente a esses serviços e que ascendem a vários zettabytes.

É admirável a maneira como vários serviços e programas comunicam entre si por meio de inúmeros automatismos, como uma grande máquina, de maneira muito célere à semelhança do cérebro humano. Muito possivelmente é essa semelhança que confere à web uma espécie de inteligência artificial e armazenamento imenso, pois tal como em nós seres humanos existe também uma eficiência obtida através do uso de padrões lógicos, estabelecidos para resolver desafios e assimilar informação.

Graças a esses padrões associativos que existem tanto nas máquinas como nos seres humanos é possível extrair conhecimento sobre tendências sociais ou inclinações de mercado. Para tal é cruzada informação de bases de dados correlacionadas que contenham registos de compras, pesquisas, navegação entre outros. A esse processo de analisar dados partindo de diferentes perspetivas com o fim de gerar informação útil dá-se o nome de data mining, ou em português, prospeção de dados.

O data mining começou a ser usado por instituições e empresas para fins de gestão interna. Um exemplo perfeito é o das cadeias de hipermercados, cujas bases de dados contendo registos de compras são já bastante antigas e no entanto ainda hoje são utilizadas para traçar perfis de cliente, pois as técnicas de averiguação dos mesmos dados vão evoluindo e ficando mais robustas.

Com a propagação do e-commerce, lojas e serviços online mais do que nunca fez sentido aplicar o data mining à web, isto é, web mining. A possibilidade de direcionar campanhas e serviços ao público correto são indubitavelmente um atrativo, embora a complexidade seja incrementada uma vez que a quantidade de informação é muito maior e relativamente mal estruturada (no caso das pesquisas do utilizador por exemplo).

A prospeção de informação da web divide-se em 3 áreas principais:

CONTEÚDOS
Trata-se de cruzar informação não estruturada: imagens, sons, vídeo, hiperlinks, em especial textos. Esta é a maior fatia de informação presente na web, que por sua vez é correlacionada com dados semi-estruturados (tais como documentos HTML ou XML) e dados estruturados ou seja, informação contida em bases de dados que sustentam páginas e portais de navegação. Um exemplo prático que resulta da aplicação deste tipo de análise é a amostragem de sugestões automáticas quando se insere texto nos campos de pesquisa de um motor de busca.

ESTRUTURA
Consiste em analisar ligações e comunicações existentes entre diversas páginas. É o que faz o Google PageRank para fins de atribuição de créditos de autoria, isto é, o quão relevante e original é a informação proveniente de determinado site. Um site que contém várias ligações recebidas (backlinks) é à partida um site de autoria que dispõe informação para uma vasta comunidade de utilizadores.

UTILIZAÇÃO/NAVEGAÇÃO
Enquanto que os dois tipos de prospeção acima referidos aproveitam dados provenientes de documentos da Internet (a maioria acessível ao público), a prospeção de dados baseada na utilização/navegação consiste na análise de dados obtidos a partir da interação dos utilizadores. A análise a históricos de pesquisa, navegação, transações possibilitam atribuir aos utilizadores padrões de navegação e comportamento. Este tipo de análise é sobretudo útil para analisar tendências e fazer uma gestão de contéudos que vá de encontro aos interesses do utilizador.

Embora seja possível distinguir estas três principais categorias, convém sublinhar que todas elas podem ser interligadas entre si para efeitos de estudo e análise relativa ao comportamento dos cibernautas. Por exemplo direcionar a um determinado utilizador conteúdos publicitários de acordo com pesquisas efetuadas pelo próprio em diferentes ocasiões.

É normal que esta seja uma área sensível no que diz respeito à privacidade dos utilizadores, sobretudo quando os mesmos fornecem dados passíveis de serem analisados sem o seu consentimento. Existem inclusivamente empresas que vendem informação relativa a comportamentos de utilizadores que se registam nos seus sites. Além disso certos algoritmos fazem uso de dados controversos tais como género, religião ou orientação sexual, pondo em causa certas leis de anti-discriminação.

Contudo a prospeção de dados da web é sem dúvida uma área imensamente atrativa e de enorme potencial. É sobretudo no ramo empresarial que tal se constata pois ao fornecer ao utilizador exatamente aquilo que ele procura promove-se uma melhor relação entre empresas e clientes.

Tony Oliveira