Web Semântica (parte I): introdução às linguagens de marcas 1
Há meses tenho deixado este blog meio abandonado, e meus três fiéis leitores andaram reclamando um monte por conta disso. As razões são muitas, todas válidas, mas no fim das contas são desculpas esfarrapadas: andei superocupado finalizando meu trabalho de conclusão de curso na Ciência da Informação e cuidando do meu filhote (que fica cada dia mais lindo). Mas, nem tudo está perdido: voltei com carga total, em uma série super-hiper-mega-empolgante sobre Web Semântica, um assunto que há tempos me interessa e que agora tenho estudado seriamente.
Enfim, o que vêm a ser essa tal de Web Semântica? É de comer ou de passar no cabelo? Ela morde? Significa que agora eu terei de atualizar todos os códigos que já produzi para a Web? Calma, que o tio Alê vai explicar tudinho: a Web Semântica nada mais é do que uma extensão da Web atual, onde “a informação é dada com um significado bem definido, permitindo melhor interação entre os computadores e as pessoas” (BERNERS-LEE et al, 2001).
O crescimento descentralizado e anárquico da Web, e a ausência de estratégias abrangentes e satisfatórias para a indexação de documentos neste ambiente, trouxeram diversos problemas na recuperação de informações. Neste contexto conturbado e caótico, a recuperação se dá somente através de motores de busca, que utilizam palavras-chave extraídas do conteúdo dos documentos – estratégia de recuperação pouco eficaz, principalmente pela dificuldade de contextualização da informação e pelo foco na apresentação (leia-se: layout) desta, fazendo com que seja pobremente descrita e pouco passível de ser consumida por máquinas e seres humanos (SOUZA et al, 2004).
Surge assim, neste contexto, o projeto da Web Semântica, onde as informações possuem significado bem definido, permitindo então uma melhor interação entre máquinas e usuários. É um projeto liderado pelo World Wide Web Consortium (W3C), que pretende extender a Web atual através de associações dos documentos a seus significados por meio dos metadados descritivos embutidos no código destes documentos. A Web Semântica, em essência, descreve a criação e implementação de padrões de desenvolvimento a fim de permitir que agentes (softwares especializados e personalizados) possam trocar informações com os documentos na Web, automatizando tarefas rotineiras dos usuários e compartilhando dados de maneira automática e não ambígua com máquinas e seres humanos (SOUZA et al, 2004).
Mas, o que são exatamente esses metadados descritivos? Nada mais são do que as velhas linguagens de marcas, em um contexto especializado.
Um documento na Web é composto por uma mistura de dados e metadados. “Meta” é um prefixo de auto-referência, de forma que “metadados” sejam “dados sobre dados”. Os metadados em documentos na Web têm a função de especificar características dos dados que descrevem, a forma com que serão utilizados, exibidos, ou mesmo seu significado em um contexto (SOUZA et al, 2004).
Linguagens de marcas: uma introdução
No princípio das Ciências da Computação, os computadores eram utilizados essencialmente para a realização de cálculos e processamento de dados. Com a evolução da microinformática e o surgimento do computador pessoal, houve uma mudança radical na utilização destes pela sociedade, e atualmente são utilizados principalmente como ferramenta de comunicação, disseminação e compartilhamento de informações.
Assim, a diversidade de tecnologias, padrões e dispositivos capazes de se conectar a redes de comunicação de dados à distância, e a dificuldade de intercâmbio entre estes é um dos grandes entraves no desenvolvimento de sistemas de recuperação e disseminação de dados. A gama de aparelhos que se interconectam e compartilham dados é enorme e crescente, assim como a quantidade de tecnologias envolvidas no processo.
A questão que se faz pertinente atualmente no desenvolvimento de Sistemas de Recuperação de Informação é o aprimoramento do intercâmbio dos dados, através da separação entre conteúdo, estrutura e formatação nos documentos. Somente com essa separação é possível criar mecanismos que controlem a integridade dos dados, possibilitem conferir sentido a estes e especifiquem suas regras de formatação em cada dispositivo (computadores pessoais, celulares, palmtops etc).
Desde os primórdios das Ciências da Computação são utilizadas para esse fim as linguagens de marcação, que codificam e padronizam dados a serem transferidos entre diferentes sistemas. Codificar um texto para processamento por computadores é um processo de explicitação do que é conjectural – indica como o conteúdo deve ser interpretado pela máquina (ALMEIDA, 2002).
Uma das linguagens mais conhecidas para marcação é a SGML (Standard Generalized Markup Language). Desenvolvida em meados da década de 80 e padrão ISO desde 1986, é amplamente utilizada em grandes projetos de documentação. É uma meta-linguagem, ou seja, um sistema para a definição de linguagens de representação.
Com o surgimento da Internet, uma simplificação da SGML conhecida como HTML (Hyper Text Markup Language) ganhou espaço e praticamente moldou o perfil dos documentos da World Wide Web, pela sua facilidade de codificação e interpretação por diversos softwares. Sua estrutura de elaboração consiste em instruções no conteúdo do documento, através de marcas de início e fim (tags) definindo trechos do conteúdo, mediante as quais se determina a formatação do texto, imagens e demais elementos que o compõem. A HTML se esgotou justamente por conta da confusão que faz na elaboração de seus documentos, não distinguindo os dados de marcação da própria informação contida no documento.
Em 1996, preocupado com o crescimento explosivo de documentos na Internet e a falta de padronização dos mesmos, o W3C (World Wide Web Consortium) propôs uma linguagem padrão de representação de dados para atender às necessidades de comunicação entre sistemas – a XML (eXtensible Markup Language). Assim como a HTML, tem sua origem na SGML. Seu propósito é separar o conteúdo do documento da própria forma de visualização e permitir identificações flexíveis para qualquer tipo de informação, além de especificar hierarquias para os dados, incluindo detalhes como limites e importância destes.
Enquanto a HTML indica o que cada marcador e atributo significam, e simultaneamente a forma que seu conteúdo será representado, a XML utiliza os marcadores apenas para delimitar os trechos de dados, deixando sua interpretação e formatação unicamente a cargo da aplicação que irá recebê-los.
O segredo da XML está na sua própria sintaxe: o produtor do documento escolhe suas próprias marcações e define como eles irão ser nomeados. “Um documento escrito com a sintaxe XML é, na verdade, uma aplicação XML, com um conjunto de marcas escolhidas por seus criadores para aquele documento em particular” (TOLENTINO, 2004). São elementos que também se intercalam entre trechos do texto, mas ao contrário da HTML, são estruturados através de hierarquias que definem sua relevância, além atribuírem valores e relacionamentos contextuais no documento.
Dessa forma, podemos então apontar como os principais benefícios no uso do XML em aplicações Web o acesso facilitado à informação através de atribuição semântica aos dados, o desenvolvimento de aplicações flexíveis, a integração de dados de diferentes origens e a completa separação entre conteúdo, estrutura e formatação dos documentos.
Mas, não basta apenas possuir uma linguagem flexível como o XML para construir metadados (SOUZA et al, 2004). No próximo artigo, farei uma introdução a padrões mais expressivos e adequados para aplicações na Web Semântica, como Dublin Core, RDF, RDFS, OIL, DAML+OIL e OWL.
Referências Bibliográficas:
ALMEIDA, Maurício Barcellos. Uma introdução ao XML, sua utilização na Internet e alguns conceitos complementares. Ciência da Informação, Brasília, v. 31, n. 2, mai./ago. 2002. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19652002000200001&lng=en&nrm=iso. Acesso em: 31 ago. 2009.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American Magazine, New York, mai. 2001. Disponível em: http://www.scientificamerican.com/article.cfm?id=the-semantic-web. Acesso em: 31 ago. 2009.
SOUZA, Renato Rocha; ALVARENGA, Lídia. A Web Semântica e suas contribuições para a ciência da informação. Ciência da Informação, Brasília, v. 33, n. 1, abr. 2004. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19652004000100016&lng=en&nrm=iso. Acesso em: 31 ago. 2009.
TOLENTINO, Ricardo José Vaz. Aplicações Web em XML: estágio atual e tendências futuras. Belo Horizonte: FACE-FUMEC; C/Arte, 2004.
Para saber mais:
- Simple semi-structured data entry (snee.com)
- RIF is a W3C Candidate Recommendation (w3.org)
- W3C Cheatsheet for developers (w3.org)
- Concept Brushup : XML Explained ! (techpluto.com)
- The Basics Of Website Programming (slideshare.net)
- Will the Namespace Traffic Jam Kill RDFa in HTML5? (groups.csail.mit.edu)


















Sensacional! Gostei de ver mais uma faceta de suas mil e uma habilidades… Abraços!