Recebi o seguinte link que me chamou a atenção por desenvolver uma notícia utilizando informações da base de dados abertos da prefeitura de Curitiba.
Isto é muito empolgante porque podemos ver como é importante a divulgação de dados abertos para que possamos entender melhor a situação de nossas cidades.
Ou será que não? Bem… mais ou menos.
Se você ler o artigo do link com cuidado vai perceber que os dados não agregam nenhuma informação!
O artigo do link foi escrito na poeira da recente polêmica entre a Primeira-dama e presidente da Fundação de Assistência Social (FAS) e a Associação de Bares e Casas Noturnas (Abrabar) que pediram para que moradores de rua fossem retirados das calçadas à força (link aqui).
Sem querer tomar partido da polêmica porque não é o objetivo deste blog, nem do projeto Datatiba. Queremos aproveitar a oportunidade para analisar a questão da leitura de dados abertos. Nossa posição é: não basta os dados serem disponibilizados, precisamos aprender a lê-los. Para isto criamos o projeto Datatiba que se propõe a divulgar práticas e técnicas para leitura de dados abertos. O projeto Datatiba não é um portal, nem aplicação. O projeto trabalha com o conceito de Base de Conhecimento: como criar, divulgar e propagar conhecimento na sua área tema.
Vamos aproveitar o exemplo do artigo para analisar como a leitura dos dados poderia ser feita de maneira diferente.
1) Sobre o que é o dado?
O primeiro ponto é justamente sabermos o que estamos lendo. Os dados utilizados dizem respeito ao registro de atendimentos da central 156 da prefeitura, que incluem uma grande variedade de assuntos, desde trânsito, animais, lixo, e também moradores de rua. A base pode ser obtida neste link.
Esta questão salta aos olhos no artigo mencionado porque há muitas contradições no texto. Em determinado momento os autores escrevem:
“Atenção: Não se trata de afirmar quantas pessoas vivem, de fato, nas ruas de Curitiba”
Porém, o próprio título do artigo é:
“Os pontos vermelhos no mapa são pessoas vivendo nas ruas de Curitiba”
É, ou, não é?
Não é! Os pontos vermelhos no mapa representam uma coordenada passada por uma chamada telefônica (não é nem a localidade de onde saiu a chamada telefônica). Neste ponto o artigo mais atrapalha do que contribui.
2) Como agrupar?
O artigo começa com a seguinte informação:
“Em apenas três meses, a central telefônica do 156 recebeu 3.967 ligações”
Por que 3 meses? Por que não analisar os dados por mês ou por ano? Como a prefeitura divulga as informações trimestralmente, os autores utilizaram os dados que tinham sem cuidado de avaliar se a forma é adequada.
Neste caso, ponto negativo para o artigo e também para a prefeitura, por não divulgar os dados de forma mais adequada.
Aparentemente, analisar esta informação mensalmente em um período “longo” parece mais adequado. É o que estamos fazendo nos gráficos 1 e 2 a seguir. O gráfico 1, mostra o total de chamados registrados em 2015 a cada mês.

Salta aos olhos uma pequena diminuição da quantidade de chamados durante o ano. Como a base envolve assuntos muito diferentes, fica difícil analisar os motivos que levaram à diminuição do número de chamados registrados.
Já o gráfico 2 acrescenta (as barrinhas pequenas em amarelo) o número total de chamados cuja classificação é “Abordagem social de rua”, que foi utilizada pelo artigo mencionado como parâmetro de análise.
A linha azul mostra a variação pecentual (escala da direita) dos chamados “Abordagem social de rua” em relação ao total. Em seu maior mês: 5%.

Duas informações saltam aos olhos.
- “Abordagem social de rua” não é dos principais motivos pelos quais a população utiliza o 156.
- Apartir de maio de 2015 houve um aumento significativo na quantidade de pessoas que utilizaram o 156 para registrar alguma solicitação que resultou em “Abordagem social de rua”.
Lembre que as quantidades não estão medindo os moradores de ruas, mas o número de chamados realizados sobre o tema. Ou seja, os dados mostram mais a sensibilidade da população com o tema do que a ocorrência do tema em si. Como o 156 agrega assuntos muito diferentes, o percentual não parece ser significativo. Porém seu aumento sim, deve ser analisado.
Algumas dúvidas surgem:
- Será que existe sazonalidade neste tema? Por exemplo, todo ano há um aumento do número de chamados sobre este tema no segundo semestre?
- A variação observada pode ser vinculada a algum outro dado? Qual?
Não temos os dados dos anos anteriores para tentar responder à pegunta 1. Mas podemos nos aprofundar na pergunta 2, o que vou fazer no próximo post.