ED: Guia de limpeza de dados

Siga os Números | Descomplicando os dados | Como encontrar dados? | Criando seu conjunto de dados | ED: Guia de limpeza de dados

O conteúdo dessa seção foi reproduzido e adaptado, com permissão, de material desenvolvido pela Escola de Dados e originalmente publicado aqui.

Como repórter, seu mundo está cheio de dados. E esses dados costumam estar cheios de problemas. O Guia Quartz para limpeza de dados traz descrições completas e sugestões de soluções para muitos desafios que você pode encontrar quando trabalha com dados.

A maioria deles pode ser resolvida. Mas alguns, não – e isso significa que você não deve usar os dados. Outros problemas não podem ser resolvidos, mas tomando precauções é possível continuar a utilizá-los. Para dar conta dessas ambiguidades, o guia é organizado segundo quem está melhor equipado para ajudá-lo: você mesmo, sua fonte ou um especialista.

Você não pode rever todos os detalhes de cada conjunto de dados que encontrar. Se tentar fazer isso, acabará nunca publicando nada. Mas estando familiarizado com os tipos de questões que podem aparecer, terá mais chances de identificar um problema antes que ele o faça cometer um erro.

O Guia Quartz para limpeza de dados foi desenvolvido por Christopher Groskopf, repórter do Quartz, site de notícias de economia e negócios fortemente engajado com ferramentas de jornalismo de dados. O Quartz pertente à Atlantic Media, a mesma empresa que edita a revista The Atlantic. Batizado Quartz Guide to Bad Data, o guia foi disponibilizado sob a licença Creative Commons Attribution-NonCommercial 4.0 International License. O material foi traduzido para português pela Escola de Dados e está integralmente disponível aqui.


x
x
Problemas que sua fonte deve resolver


x

x

Problemas que você deve resolver

x

x

Problemas que um especialista deve ajudá-lo a resolver

 

x


Problemas que sua fonte deve resolver


x
x
x
Faltam valores

Cuidado com valores em branco ou “null” (nulos) em qualquer conjunto de dados, a menos que você esteja certo de que sabe o que eles significam. Se os dados são anuais, o valor para aquele ano nunca foi coletado? Se é uma pesquisa, um entrevistado se recusou a responder a uma pergunta?

Toda vez que você estiver trabalhando com dados que tenham valores ausentes, você deve se perguntar: “Eu sei o que a ausência deste valor significa?” Se a resposta for não, você deve questionar sua fonte.

Voltar para o índice
x
x
x
Zeros substituem os valores que faltam

Pior do que um valor faltando é quando um valor arbitrário é usado em vez disso. Isso pode ser o resultado de um ser humano não pensar nas implicações ou pode acontecer como resultado de processos automatizados, que simplesmente não sabem o que fazer com valores nulos. Em qualquer caso, se você vir zeros em uma série de números, você deve se perguntar se esses valores são realmente o número 0 ou se significam “nada”. Se você não tiver certeza, pergunte para sua fonte. (Às vezes, o  -1 também é usado assim).

Voltar para o índice
x
x
x
Faltam dados que você sabe que deveriam estar ali

Às vezes estão faltando dados. Se você tem um conjunto de dados que abrange, por exemplo, todos os estados dos Estados Unidos, deve verificar se há mesmo dados para 50 estados. (A propósito, não esqueça que os 50 estados incluem os territórios, como Porto Rico). Confie na sua intuição se parecer que está faltando algo e verifique isso com sua fonte. O universo de seus dados pode ser menor do que pensa.

Voltar para o índice
x
x
x
Linhas ou valores estão duplicados

Se a mesma linha aparece em seu conjunto de dados mais de uma vez, você deve descobrir a razão. Às vezes, não é uma linha inteira. Alguns dados financeiros de campanha, por exemplo, podem incluir “alterações” identificados pelos mesmos códigos da transação original. Se você não souber disso, todos os cálculos que fizer com os dados serão errados. Se algo indicar que um item deve ser único, verifique se é. Se descobrir que não é, questione sua fonte.

Voltar para o índice
x
x
x
Ortografia está inconsistente

Ortografia é uma das maneiras mais óbvias de verificar se os dados foram compilados à mão. Veja se há nomes de cidades ou estados que não estão consistentes (Los Angelos, por exemplo, é um erro comum). Se você encontrar coisas do tipo, pode saber que os dados foram compilados ou editados à mão, e isso é uma razão para ser cético em relação a eles. Dados editados à mão são mais propensos a conter erros. Isso não significa que você não deve usá-los, mas que pode precisar corrigir os erros manualmente ou explicá-los em sua reportagem.

A ferramenta do OpenRefine para agrupar textos pode ajudar a agilizar o processo de correção ortográfica, sugerindo correspondências entre valores inconsistentes dentro de uma mesma coluna (por exemplo, trocando Los Angelos por Los Angeles). Certifique-se, no entanto, de documentar as mudanças que fez.

Voltar para o índice
x
x
x
Ordem dos nomes está inconsistente

Seus dados possuem nomes do Oriente Médio ou do Leste Asiático? Tem certeza de que os sobrenomes estão sempre no mesmo lugar? É possível que alguém em seu conjunto de dados use um “monônimo”? Estes são erros comuns. Se você está trabalhando com uma lista de nomes etnicamente diversos, deve fazer pelo menos uma análise superficial antes de presumir que juntar as colunas de nome e sobrenome vai funcionar.

Voltar para o índice
x
x
x

Formatos de datas estão inconsistentes

Qual data é em setembro? 10/9/15 ou 9/10/15?

Se a primeira foi escrita por um europeu e a segunda por um americano, então ambas são. Mas sem saber a história dos dados, você não tem como ter certeza disso. Saiba de onde seus dados vêm e certifique-se de que foram todos criados por pessoas do mesmo continente.

Voltar para o índice
x
x
x

Unidades não estão especificadas

As palavras “peso” ou “custo” não especificam a unidade de medida. Não presuma que dados produzidos nos Estados Unidos estarão em libras e dólares. A dotação científica pode ser a referência. Preços externos podem ser especificados em moedas locais. Se os dados não enunciarem as unidades, volte para sua fonte e descubra quais são.

Voltar para o índice
x
x
x

Nomes de campos estão ambíguos

O que é residência? É onde alguém vive ou onde paga impostos? É uma cidade ou um condado? Os nomes dos campos de dados podem não ser tão específicos quanto gostaríamos – e atenção adicional deve ser direcionada àqueles que podem significar mais de uma coisa. Até mesmo se você inferir corretamente o que os valores significam, a ambiguidade pode ter confundido a pessoa que coletou os dados. Algum valor pode estar errado.

Voltar para o índice
x
x
x

Origem não está documentada

Dados são criados por diferentes indivíduos e organizações, incluindo empresários, governos, ONGs, enfim. Dados são coletados de diferentes formas, incluindo pesquisas, sensores e satélites. Podem ser digitados ou inseridos numa planilha por tecnologia touch screen. Saber de onde vêm seus dados pode ajudar a entender suas limitações.

Dados de pesquisas, por exemplo, raramente são exaustivos. Sensores variam em precisão. Governos podem dar informações enviesadas. Dados de uma zona de guerra podem ter influência geográfica, por causa do perigo de cruzar linhas de batalha. Fora o fato de que analistas frequentemente redistribuem dados que conseguiram do governo. Dados escritos por um médico podem ter sido inseridos numa planilha por uma enfermeira. Cada item desses representa uma chance de erro.

Voltar para o índice
x
x
x

Dados estão muito brutos

Você obtém estados, mas precisa de municípios. Você obtém empregadores, mas precisa de funcionários. Você obtém anos, mas quer meses. Em muitos casos, conseguimos dados agregados demais para nossos propósitos.

Os dados geralmente não podem ser desagregados, uma vez que foram fundidos. Se recebeu dados muito brutos, você precisa pedir para a sua fonte algo mais específico. Talvez ela não tenha, ou, se tiver, pode não estar disposta a compartilhá-los. Há muitos conjuntos de dados federais que não podem ser acessados no nível local para proteger a privacidade de pessoas que poderiam ser identificadas. Tudo o que você pode fazer é pedir.

Algo que não deve ser feito, de imediato, é dividir um valor anual por 12 e chamar isso de “média por mês”. Sem conhecer a distribuição dos valores, esse número não tem sentido. Talvez todos os casos tenham ocorrido em um só mês. Talvez os dados sigam uma tendência exponencial, e não linear.

Voltar para o índice
x
x
x

Totais diferem dos agregados publicados

Imagine que, depois de pedido via Lei de Acesso à Informação, você recebe uma lista supostamente completa de casos de uso de força policial. Você abre o material e descobre que a planilha tem 2.467 linhas. Ótimo – mas antes de publicar qualquer coisa, procure saber qual foi a última vez que o delegado falou publicamente sobre o assunto. Você pode descobrir que em uma entrevista, algumas semanas antes, ele mencionou “menos de 2 mil casos”, o que não corresponde às informações do seu conjunto de dados.

Esse tipo de discrepância entre estatísticas publicadas e dados em estado bruto podem ser uma ótima fonte de lides jornalísticos. Muitas vezes, a resposta será simples. Por exemplo, os dados que você recebeu podem não cobrir o mesmo período de tempo ao qual o delegado se referia. Mas às vezes, você pode perceber que alguém está mentindo. De qualquer maneira, é importante checar.

Voltar para o índice
x
x
x

Planilha tem 65.536 linhas

O número máximo de linhas que uma planilha antiga de Excel podia ter era 65.536. Se você receber um conjunto de dados com esse número de linhas, provavelmente os dados estão incompletos. Peça o restante. Versões mais recentes do Excel permitem 1.048.576 linhas.

Voltar para o índice
x
x
x

Planilha tem datas em 1900 ou 1904

Por motivos para lá de obscuros, a data padrão a partir da qual do Excel conta todas as outras datas é 1º de janeiro de 1900 (ou 1º de janeiro de 1904, no Macintosh). Dados introduzidos ou calculados de maneira incorreta podem fazer aparecer essas datas em uma planilha. Se você encontrá-las nos dados, provavelmente há um problema.

Voltar para o índice
x
x
x

Texto foi convertido em números

O Excel e outras planilhas muitas vezes “presumem” que numerais são números e eliminam os zeros à esquerda. Mas um numeral, em certo conjunto de dados, pode representar um código – em que um zero à esquerda faz falta.

Voltar para o índice
x
x
x

Números foram guardados como texto

Os números de uma planilha podem ser armazenados com uma formatação indesejada – como texto, por exemplo. Em vez de representar um milhão de dólares com o número “1000000”, uma célula pode conter “1.000.000” ou “1 000 000” ou “USD 1.000.000”, sendo que os pontos, espaços e letras foram inseridos manualmente, como caracteres. Muitas vezes você precisará usar fórmulas para retirar esses caracteres até que as células estejam limpas o suficiente para serem reconhecidas como números. A melhor prática é armazenar números sem formatação e incluir informações de suporte nos títulos das colunas.

Voltar para o índice


Problemas que você deve resolver

x

x

Finais de linhas estão truncados

Todos os textos e arquivos de dados tipo “CSV” usam caracteres invisíveis para representar as extremidades de uma linha. Mas sistemas operacionais diferentes (Windows e Linux, por exemplo) podem usar caracteres diferentes. Por isso, a tentativa de abrir um arquivo salvo em um sistema operacional em um computador que use outro sistema operacional pode impedir que o Excel identifique corretamente as quebras de linhas.

Normalmente, isso é fácil de resolver: basta abrir o arquivo em qualquer editor de texto e salvá-lo novamente. Se o arquivo for excepcionalmente grande, pode ser necessário considerar o uso de ferramentas mais sofisticadas.

Voltar para o índice
x
x
x

Dados estão num PDF

Muitos dados, especialmente os governamentais, só estão disponíveis em formato PDF. Se forem dados reais – como um texto – convertidos em PDF, há como extraí-los. Uma excelente ferramenta gratuita é o Tabula. Se você tiver o Adobe Creative Cloud, também tem acesso ao Acrobat Pro, que possui um excelente recurso para exportar tabelas de PDF para Excel.

Voltar para o índice
x
x
x

Dados estão muito granulares

Lembra do que falamos sobre dados muito brutos? O problema agora é o contrário. Você obtém municípios, mas quer estados. Obtém meses, mas quer anos. Em geral, isso é simples. Os dados podem ser agregados usando o recurso de tabela dinâmica do Excel ou do Google Spreadsheets. Tabelas dinâmicas são uma ferramenta fabulosa que todo repórter deve aprender a usar, mas elas têm limites. Para grandes conjuntos de dados ou para agregar grupos incomuns, peça ajuda a um programador.

Voltar para o índice
x
x
x

Dados estão mesclados com formatação e anotações

Um problema comum com os dados fornecidos em planilhas é que as primeiras linhas costumam ser descrições ou notas sobre os dados, em vez de títulos de colunas ou dados em si. Uma chave ou um glossário de dados também podem ser colocados no meio da planilha. Linhas de cabeçalho podem estar repetidas. Ou a planilha pode incluir várias tabelas uma abaixo da outra, em vez de separadas em páginas.

Tentar executar qualquer análise em uma planilha com esse tipo de problema não vai funcionar. Ao olhar para novos dados pela primeira vez, é sempre bom verificar se não existem linhas de cabeçalho extras ou outros caracteres de formatação inseridos no meio deles.

Voltar para o índice
x
x
x

Agregados foram calculados com valores que faltam

Imagine um conjunto de dados com 100 linhas, em que uma coluna se chama “custo”. Em 50 linhas, “custo” está em branco. Como calcular a média: soma de “custo” dividia por 50 ou soma de “custo” dividida por 100? Não há uma resposta definitiva. Em geral, fazer cálculos em colunas em que faltam dados exige filtrar as linhas ausentes. Mas em alguns casos, os valores em falta podem ser interpretados como “zero”. Este é um erro que você pode cometer. Mas também é um erro que outras pessoas podem cometer – e então passar os dados para você. Fique atento quando os dados chegarem você com agregados já calculados.

Voltar para o índice
x
x
x

Amostra não é aleatória

Um erro de amostragem não aleatória ocorre quando uma pesquisa ou outro conjunto de dados amostrais, intencionalmente ou acidentalmente, deixam de cobrir toda a população. Isso pode acontecer por uma variedade de razões e é uma fonte comum de erro na pesquisa sociológica. A única coisa que se pode fazer para corrigir uma amostra não aleatória é evitar o uso desses dados.

Voltar para o índice
x
x

Margem de erro é muito grande

A margem de erro é uma medida da gama de possíveis valores verdadeiros de uma pesquisa. Pode ser expresso como um número (400 +/- 80) ou como uma percentagem do total (400 +/- 20%). Quanto menor for a população relevante, maior será a margem de erro. Por exemplo, de acordo com as estimativas de 2014, o número de asiáticos que vivem em Nova York é de 1.106.989 +/- 3.526 (0,3%). O número de filipinos é de 71.969 +/- 3.088 (4,3%). O número de samoanos é de 203 +/- 144 (71%). Os dois primeiros números são seguros para reportar, mas o terceiro não deve ser usado. Não é uma regra, mas, de maneira geral, seja cauteloso com números que tenham margem de erro acima de 10%.

Voltar para o índice
x
x
x

Margem de erro é desconhecida

Às vezes, o problema não é a margem de erro ser grande – mas sim, não ser conhecida. Este é um problema das pesquisas não científicas. Sem computar a margem de erro, é impossível saber quão precisos são os resultados. Como regra geral, pergunte qual é a margem de erro de uma pesquisa – e se sua fonte não souber, provavelmente não vale a pena usar os dados.

Voltar para o índice
x
x
x

Amostra é enviesada

Uma amostra tendenciosa resulta da falta de cuidado quando é selecionada ou da deturpação voluntária da amostra. Uma amostra pode ser tendenciosa por ter sido conduzida pela internet (pessoas mais pobres, que não usam a internet tão frequentemente quanto as mais ricas, provavelmente ficaram de fora). É preciso ponderar cuidadosamente as pesquisas, para assegurar que cubram segmentos proporcionais de uma população e não distorcer os resultados.

Voltar para o índice
x
x
x

Dados foram editados manualmente

Os problemas aparecem quando a pessoa que faz a edição manual não tem conhecimento completo dos dados originais. Alguém que “corrija” espontaneamente um nome em um conjunto de dados – de Smit para Smith, por exemplo – fez o certo? O nome era realmente Smith? Sem registrar essa mudança, é impossível saber. Problemas com edição manual são uma razão pela qual é preciso ter a proveniência dos dados bem documentada. A falta disso indica que alguém pode ter mexido nos dados. Acadêmicos e analistas muitas vezes obtêm dados do governo, mexem neles e, em seguida, os redistribuem aos jornalistas. Sem haver registro das mudanças que foram feitas, é impossível saber se elas eram justificadas. Sempre que possível, tente obter os dados da fonte primária para, então, fazer sua própria análise.

Voltar para o índice
x
x
x

Inflação distorce os dados

Inflação significa que, ao longo do tempo, o dinheiro muda de valor. Não há como saber, só olhando, se os números de uma planilha foram corrigidos pela inflação. Se você receber dados e não tiver certeza de que eles estão ajustados, verifique com sua fonte. Se não foram, é provável que você tenha de fazer a correção.

Voltar para o índice
x
x
x

Variação natural/sazonal distorce os dados

Muitos dados flutuam naturalmente devido a fatores subjacentes. O exemplo mais conhecido é o nível de emprego, que varia com as estações. Economistas desenvolveram uma variedade de métodos para compensar esta variação. Você não precisa conhecer os detalhes desses métodos, mas é importante que saiba se os dados sofreram “ajustes sazonais” ou não. Se não tiverem sido, e você precisar comparar o emprego de um mês para o outro, provavelmente terá de buscar os dados ajustados com sua fonte.

Voltar para o índice
x
x
x

Escala de tempo foi manipulada

Uma fonte pode acidentalmente (ou intencionalmente) deturpar o mundo ao fornecer dados que começam ou terminam numa janela de tempo específica. Muitas vezes, analisando um período maior, a interpretação dos dados pode mudar.

Voltar para o índice
x
x
x

Quadro de referências foi manipulado

Estatísticas criminais muitas vezes são manipuladas para fins políticos, ao se comparar os dados com os de anos em que a criminalidade foi muito elevada. Isso pode estar expresso em uma variação – a criminalidade caiu 60% em relação a 2004, por exemplo. Mas 2004 pode ter sido um ano em que os índices foram excepcionalmente altos. Isso também acontece quando se comparam dois lugares. Para fazer um país parecer ruim, basta comparar os seus dados com os de qualquer país que esteja melhor. Sempre que possível, tente fazer comparações a partir de vários pontos diferentes, para observar como os números mudam. E não use esse artifício para tentar provar algo que você considera importante, isso é indesculpável.

Voltar para o índice
x
x
x

Problemas que um especialista deve ajudá-lo a resolver

Autor não é confiável

Às vezes, os únicos dados que temos são de uma fonte em quem você preferiria não confiar. Em algumas situações, tudo bem. As únicas pessoas que sabem quantas armas são feitas os são fabricantes de armas. No entanto, se você tiver dados de uma fonte questionável, é sempre bom verificá-los com outro especialista. Melhor ainda, com dois ou três. Não publique dados de uma fonte tendenciosa se não tiver provas que os corroborem.

Voltar para o índice
x
x
x

Processo de coleta é opaco

É muito fácil que suposições falsas ou erros sejam ocorrem em coletas de dados. Por isso, é importante que os métodos sejam transparentes. É raro saber exatamente como um conjunto de dados foi coletado, mas números que sugerem uma precisão irrealista, por exemplo, podem indicar problemas. Será que tal acadêmico realmente entrevistou tantas pessoas na sua pesquisa? Se a forma como os dados foram coletados soa questionável, verifique com outro perito a chance de os dados realmente terem sido coletados daquele jeito.

Voltar para o índice
x
x
x

Dados reivindicam uma precisão irreal

Fora das ciências exatas, poucos números são expressos com mais de duas casas decimais. Se os dados sobre as emissões de uma fábrica, por exemplo, surgem com algarismos até a sétima casa decimal, talvez eles tenham sido estimados a partir de outros dados. Isso por si só talvez não seja um problema, mas é importante ser transparente a respeito de estimativas, porque elas podem estar erradas.

Voltar para o índice
x
x
x

Existem valores atípicos inexplicáveis

Valores discrepantes podem estragar estatísticas, especialmente se você estiver usando médias (talvez devesse usar medianas). Sempre que tiver um novo conjunto de dados, dê uma olhada em valores muito maiores ou menores, para garantir seu conjunto esteja em uma faixa razoável. Se os dados justificarem uma preocupação extra, talvez seja o caso de fazer análises estatísticas mais rigorosa, com desvio padrão ou desvio médio. A vantagem de atentar para isso é que identificar valores discrepantes é, muitas vezes, uma ótima maneira de encontrar furos de reportagens.

Voltar para o índice
x
x
x

Um índice mascara variações subjacentes

O Índice de Desigualdade de Gênero da Organização das Nações Unidas (ONU) combina várias medidas relacionadas com o progresso das mulheres em direção à igualdade para comparar países. Uma das medidas utilizadas no IDG é a representação de mulheres no parlamento. Dois países no mundo têm leis que obrigam a representação de gênero nos seus parlamentos: a China e o Paquistão. Como resultado, estes dois países têm um desempenho muito melhor no índice do que os países que são semelhantes a eles em todos os outros indicadores. Isso é justo? Índices como o IDG devem ser sempre usados de maneira cuidadosa, para garantir que suas variáveis subjacentes não desequilibrem os resultados.

Voltar para o índice
x
x
x

Muito bom para ser verdade

Não há conjunto de dados globais de opinião pública. Ninguém sabe o número exato de pessoas que vivem na Sibéria. Estatísticas criminais não são comparáveis através das fronteiras. O governo dos Estados Unidos não vai dizer a quantidade de material fóssil que mantém. Cuidado com todos os dados que pretendam representar algo impossível de saber. Não são dados. São estimativas de alguém e podem estar erradas.

Voltar para o índice
x
x
x


Todo o conteúdo produzido pela Escola de Dados está disponível sob a licença Creative Commons Attribution-ShareAlike v3.0.
Siga adiante:
Como encontrar pautas nos dados?

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s