O que são dados?

Siga os Números | Descomplicando os dados | O que são dados?

Diz Philip Meyer que compromisso com a verdade, energia e talento para escrever já foram as habilidades necessárias para fazer bom jornalismo. Mas o crescimento vertiginoso da quantidade de informações disponíveis passou a exigir que, para além disso, os jornalistas atuem como gestores, processadores e analistas de dados.(1) O alerta do jornalista americano – professor emérito da Universidade da Carolina do Norte e pai do jornalismo de precisão – não é novo. Mesmo assim, ainda é encarado com ojeriza por uma parte dos profissionais da comunicação. “Sou de humanas, detesto números!”, você já deve ter ouvido por aí. Ou: “Escolhi jornalismo justamente para escapar da matemática!”. E ainda: “Isso é coisa para engenheiros!”.

Um jornalista talvez consiga fugir dos números durante toda a carreira. É até possível que nunca perca o emprego por isso – mas certamente deixará de explorar um mundo de pautas interessantes, apurações incríveis e inúmeras oportunidades  de fazer algo diferente e inovador. Jornalistas já não são mais o único meio possível de distribuição de informações. E é por isso que o jornalismo de dados importa: porque é uma ferramenta que permite juntar informações, filtrá-las e visualizá-las além do básico – e isso tem valor, argumenta Mirko Lorenz, da Deutsche Welle. “A linguagem desta rede são os dados: pequenos pontos de informação que muitas vezes não são relevantes em uma primeira instância, mas que são extraordinariamente importantes quando vistos do ângulo certo”.(2)

Se isso foi suficiente para convencê-lo de que o assunto é relevante e você decidiu seguir em frente com a leitura, deve estar se perguntando: mas o que, afinal de contas, são dados? Natural. A definição não é trivial. Existem profundas diferenças entre termos que costumamos usar indistintamente. Dados são uma coisa, informação é outra coisa e conhecimento, uma terceira coisa. Uma representação gráfica da hierarquia existente entre as três variáveis se popularizou nas últimas décadas. Veja o que diz o modelo DIK, sigla importada para data, information, knowledge: (3)(4)

e-book-piramide-dik
Clique na imagem para abri-la e ver as informações em detalhes (Fontes: Adaptado de The problem with the data-information-knowledge-wisdom hierarchy e Data, information, knowledge and wisdom)

Não que isso seja uma unanimidade entre os estudiosos. Para alguns, é preciso acrescentar pelo menos mais um nível à escala – que deveria ser chamada de DIKW, incluindo wisdom, ou sabedoria. Para outros, usar uma pirâmide é um erro desde o princípio. Como, ora bolas, é possível afirmar que há menos conhecimento do que dados no mundo, como fazem crer as fatias de tamanhos diferentes da imagem? Uma visualização mais sofisticada dessa hierarquia foi testada por Nick Diakopoulos, professor de jornalismo de dados na Universidade de Maryland, para quem: “Dados são entidades numéricas ou fatos verídicos. Informação é sobre adicionar relações entre esses elementos de dados, ou criar agrupamentos ou categorizações de dados. Conhecimento surge quando humanos interpretam, analisam e julgam as informações, como um mecanismo para a tomada de decisão”. Diz ele que “esse processo é cíclico ou recursivo, com aquilo que foi produzido por alguém – seja um artigo, um tweet ou um comentário – potencialmente alimentando o processo da próxima produção”.(5)

e-book-piramide-dik-2
Clique na imagem para abri-la e ver as informações em detalhes. (Fonte: Adaptado de Cultivating the Landscape of Innovation in Computational Journalism, de Nick Diakopoulos

Um exemplo ajuda a compreender a diferença entre os conceitos. Veja:(6)

O conteúdo dessa quadro foi reproduzido e adaptado, com permissão, de material desenvolvido pela Escola de Dados e originalmente publicado aqui.

Imagine uma cesta repleta de bolas de golfe. O que se pode dizer sobre elas? Primeiro, que são bolas de golfe – e daí se deduz que são usadas para jogar golfe, um esporte. Isso permite classificá-las numa taxonomia. É possível dizer qual é sua cor (branca) e também sua condição (novas ou usadas). Elas têm um tamanho, um valor monetário, há um número determinado delas na cesta, entre outros… dados.

Cada um desses dados diz pouco sozinho. Para extrair informação, é preciso interpretá-los. Saber que cada bola tem 43 mm de diâmetro, por exemplo, é algo vazio por si – mas ganha significado quando sabemos que o tamanho mínimo de uma bola de golfe para uma competição é de 42,67 mm. Afirmaríamos, nesse caso, que as bolas da cesta poderiam ser usadas em campeonatos oficiais. Isso é informação. Quando informações como essa são apreendidas, aplicadas e entendidas, gera-se conhecimento.

Os dados podem ser classificados de várias maneiras. Há dados qualitativos e quantitativos, dados categóricos, discretos ou contínuos (veja aqui o que significa cada um desses termos). Para os propósitos do jornalismo de dados, é importante se debruçar sobre uma caracterização em especial: dados estruturados e não estruturados.

Uma frase como “temos cinco bolas de golfe brancas e usadas, com diâmetro de 43 mm a R$ 1 cada uma” contém dados não estruturados. Eles não possuem uma estrutura fixa básica e, por isso, dificilmente podem ser “lidos” por um computador. Arquivos em PDF e imagens escaneadas também podem conter informações acessíveis ao olho humano, mas não às máquinas. Se o objetivo for usar um computador para processar e analisar dados, é preciso garantir que ele consiga “lê-los”. Isso é possível com dados estruturados. Seria o caso se a frase sobre as bolas de golfe estivesse escrita em formato CSV, por exemplo, sigla em inglês para “valores separados por vírgula”, um dos mais usados para analisar dados em programas de planilhas. Assim:

“quantidade”, “cor”, “condicao”, “item”, “categoria”, “diametro (mm)”, “preco”
5,”branco”,”usada”,”bola”,”golfe”,43,0.5
Todo o conteúdo produzido pela Escola de Dados está disponível sob a licença Creative Commons Attribution-ShareAlike v3.0.

O exemplo das bolas de golfe demonstra as potencialidades – e os desafios – de trabalhar com dados ao se fazer jornalismo. Como argumenta Paul Bradshaw, é comum pensar em dados como grupos de números reunidos em uma planilha. “Há 20 anos, este era praticamente o único tipo de dado com o qual os jornalistas lidavam. Mas nós vivemos num mundo digital agora, um mundo em que quase tudo pode ser (e quase tudo é) descrito com números”, afirma. “A sua carreira, 300 mil documentos confidenciais, todos dentro do seu círculo de amizades; tudo isso pode ser (e é) descrito com apenas dois números: zeros e uns”.(7) O mesmo se pode dizer de fotos, vídeos, áudios, assassinatos, doenças, votos, corrupção, mentiras… enfim. Se estiverem estruturados, podem ser mais facilmente analisados em larga escala – e deles emergir grandes histórias.


Siga adiante:
E jornalismo de dados?

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s