O conteúdo dessa seção foi reproduzido e adaptado, com permissão, de material desenvolvido pela Escola de Dados e originalmente publicado aqui.
A ferramenta mais comum para lidar com dados são planilhas eletrônicas. Dados contidos em uma planilha são estruturados, legíveis por máquina e, consequentemente, podem ser facilmente organizados e filtrados. Nessa seção, você vai aprender a baixar dados, importá-los em planilhas, limpá-los e interpretá-los usando as funções “Ordenar” e “Filtrar”.
As planilhas eletrônicas são amplamente disseminadas, então muita gente sabe como funcionam. Há uma variedade de programas para criá-las. O pacote do Microsoft Office tem o Excel. O pacote do OpenOffice inclui o Calc. Não surpreende que Google tenha decidido incluir uma ferramenta de planilhas – o Google Spreadsheets – no pacote do Google Docs. Como as planilhas do Google são de uso livre, nossas explicações serão baseadas nelas. Veja uma comparação entre as principais alternativas:
Bônus:Nós não estaríamos aqui, falando sobre Excel ou Google Spreadsheets, se a genialidade de Dan Bricklin estivesse adormecida. O americano foi um dos criadores do conceito de planilhas eletrônicas – com seu amigo Bob Frankston, desenvolveu o VisiCalc, primeiro programa do gênero, na década de 1970. Conheça mais sobre esse gênio nesse vídeo de 12 minutos:
Agora, vamos ver como usar o Google Spreadsheets para a limpar e qualificar dados. A vantagem é poder usá-lo sem precisar instalar nada. Como os dados com que trabalhamos são públicos, também não precisamos nos preocupar em salvá-los no disco rígido.
Crie uma nova planilha clicando no botão “Criar”, no lado esquerdo, e selecionando a opção “Planilha”. Com isso, será criada uma planilha para você.
Clique na imagem para abri-la e ver as informações em detalhes
Para importar os dados, você precisa tê-los. Para continuar essa seção, você pode usar este material baixado do site do Banco Mundial.
Em sua planilha, acesse o menu “Arquivo” e selecione a opção “Importar”. Será aberta uma caixa de diálogo.
Encontre o material do Banco Mundial onde você o tiver salvo e o selecione.
Selecione a opção “Inserir novas páginas” e clique em “Importar”.
Clique na imagem para abri-la e ver as informações em detalhes
Uma planilha é uma tabela composta por “células” nas quais pode-se armazenar dados. As células são organizadas em “linhas” e “colunas”. Tipicamente, as linhas são organizadas por números e as colunas, por letras. Assim, você pode se referir a uma célula por suas coordenadas “coluna” e “linha”. A célula A1 está na primeira coluna da primeira linha. A A2 é a célula na primeira coluna da segunda linha e a célula B1 é a célula na segunda coluna da primeira linha.
Para alterar o valor de uma célula, clique nela e comece a escrever. Ao dar Enter ou clicar nas setas você inserirá um novo valor. Pode-se navegar na planilha usando o mouse ou o teclado. Veja uma relação dos principais atalhos no teclado:
A planilha com a qual estamos trabalhando é muito grande. Ao descer com o scroll, os títulos das colunas e linhas podem sumir, dificultando a orientação. Para evitar isso, é preciso “congelar” a planilha
Passo-a-passo: Congelar a primeira linha
Na planilha com os dados do Banco Mundial, vá para a primeira linha.
Na parte superior à esquerda, você verá uma pequena área listrada.
Ao passar o mouse por cima da parte cinzenta com a numeração das colunas, aparecerá um cursor no formato de mão. Clique e arraste uma linha para baixo.
Seu resultado deve ser assim:
Agora use o scroll novamente e observe o resultado. A primeira linha ficou congelada.
A primeira coisa a fazer com um novo conjunto de dados é tentar se orientar. Isso envolve apurar os valores mínimo e máximo, ou organizar os dados em ordem. Veja as colunas dessa planilha. Temos dados sobre PIB, gastos com saúde e expectativa de vida em cada país. Vamos explorar esses dados simplesmente colocando tudo em ordem.
Passo a passo: Ordene um conjunto de dados
Selecione toda a planilha que quer ordenar. Para isso, clique no canto superior esquerdo da planilha (no campo que fica entre os nomes das linhas e colunas).
Acesse o menu “Dados” e selecione a opção “Ordenar Intervalo”. Uma caixa de diálogo vai abrir.
Clique na opção “Os dados têm linha de cabeçalho”.
Clique na imagem para abri-la e ver as informações em detalhes
Selecione a coluna segundo a qual que você deseja ordenar os valores. Tente organizar os dados pelo PIB (que país da lista tem o menor PIB?). Depois, tente ordená-los novamente, segundo uma outra coluna.
Preste atenção! Um erro comum é não selecionar a planilha inteira antes de organizar os dados. Se você ordená-los sem ter selecionado toda a planilha, as linhas não vão mais bater depois.
A próxima coisa que pode ser feita com conjuntos de dados é filtrar os valores que não interessam para sua análise. Na planilha que estamos usando, você percebeu que alguns nomes de países, na verdade, não são países? Você pode encontrar coisas como “World”, “North America” e “Arab World”. Para excluí-los, vamos filtrá-los.
Passo a passo: Filtrar Dados
Selecione a planilha inteira.
Acesse o menu “Dados” e selecione a opção “Filtros”.
Aparecerão pequenas setas do lado dos nomes das colunas na primeira linha.
Clique na seta do lado de “Country name” (coluna A).
Uma lista longa com nomes de países aparecerá na caixa.
Clique na imagem para abri-la e ver as informações em detalhes
Procure por palavras que não são nomes de países e clique neles (o seletor verde deve desaparecer). Ao terminar, clique em “OK”. Você acaba de aplicar um filtro ao seu conjunto de dados. Os dados não foram apagados, eles simplesmente não estão visíveis porque foram filtrados.