Os Dados estão Abertos – Mas é preciso saber ler

Recebi o seguinte link que me chamou a atenção por desenvolver uma notícia utilizando informações da base de dados abertos da prefeitura de Curitiba.

Isto é muito empolgante porque podemos ver como é importante a divulgação de dados abertos para que possamos entender melhor a situação de nossas cidades.

Ou será que não? Bem… mais ou menos.

Se você ler o artigo do link com cuidado vai perceber que os dados não agregam nenhuma informação!

O artigo do link foi escrito na poeira da recente polêmica entre a Primeira-dama e presidente da Fundação de Assistência Social (FAS) e a Associação de Bares e Casas Noturnas (Abrabar) que pediram para que moradores de rua fossem retirados das calçadas à força (link aqui).

Sem querer tomar partido da polêmica porque não é o objetivo deste blog, nem do projeto Datatiba. Queremos aproveitar a oportunidade para analisar a questão da leitura de dados abertos. Nossa posição é: não basta os dados serem disponibilizados, precisamos aprender a lê-los. Para isto criamos o projeto Datatiba que se propõe a divulgar práticas e técnicas para leitura de dados abertos. O projeto Datatiba não é um portal, nem aplicação. O projeto trabalha com o conceito de Base de Conhecimento: como criar, divulgar e propagar conhecimento na sua área tema.

Vamos aproveitar o exemplo do artigo para analisar como a leitura dos dados poderia ser feita de maneira diferente.

1) Sobre o que é o dado?

O primeiro ponto é justamente sabermos o que estamos lendo. Os dados utilizados dizem respeito ao registro de atendimentos da central 156 da prefeitura, que incluem uma grande variedade de assuntos, desde trânsito, animais, lixo, e também moradores de rua. A base pode ser obtida neste link.

Esta questão salta aos olhos no artigo mencionado porque há muitas contradições no texto. Em determinado momento os autores escrevem:

“Atenção: Não se trata de afirmar quantas pessoas vivem, de fato, nas ruas de Curitiba”

Porém, o próprio título do artigo é:

“Os pontos vermelhos no mapa são pessoas vivendo nas ruas de Curitiba”

É, ou, não é?

Não é! Os pontos vermelhos no mapa representam uma coordenada passada por uma chamada telefônica (não é nem a localidade de onde saiu a chamada telefônica). Neste ponto o artigo mais atrapalha do que contribui.

2) Como agrupar?

O artigo começa com a seguinte informação:

“Em apenas três meses, a central telefônica do 156 recebeu 3.967 ligações”

Por que 3 meses? Por que não analisar os dados por mês ou por ano? Como a prefeitura divulga as informações trimestralmente, os autores utilizaram os dados que tinham sem cuidado de avaliar se a forma é adequada.

Neste caso, ponto negativo para o artigo e também para a prefeitura, por não divulgar os dados de forma mais adequada.

Aparentemente, analisar esta informação mensalmente em um período “longo” parece mais adequado. É o que estamos fazendo nos gráficos 1 e 2 a seguir. O gráfico 1, mostra o total de chamados registrados em 2015 a cada mês.

2015_base156
Gráfico 1: Base de chamadas do 156 em 2015

 

Salta aos olhos uma pequena diminuição da quantidade de chamados durante o ano. Como a base envolve assuntos muito diferentes, fica difícil analisar os motivos que levaram à diminuição do número de chamados registrados.

Já o gráfico 2 acrescenta (as barrinhas pequenas em amarelo) o número total de chamados cuja classificação é “Abordagem social de rua”, que foi utilizada pelo artigo mencionado como parâmetro de análise.

A linha azul mostra a variação pecentual (escala da direita) dos chamados “Abordagem social de rua” em relação ao total. Em seu maior mês: 5%.

2015-abordagens
Gráfico 2: Registros envolvendo “Abordagem social de rua” em comparação com o total de registros.

Duas informações saltam aos olhos.

  1. “Abordagem social de rua” não é dos principais motivos pelos quais a população utiliza o 156.
  2. Apartir de maio de 2015 houve um aumento significativo na quantidade de pessoas que utilizaram o 156 para registrar alguma solicitação que resultou em “Abordagem social de rua”.

Lembre que as quantidades não estão medindo os moradores de ruas, mas o número de chamados realizados sobre o tema. Ou seja, os dados mostram mais a sensibilidade da população com o tema do que a ocorrência do tema em si. Como o 156 agrega assuntos muito diferentes, o percentual não parece ser significativo. Porém seu aumento sim, deve ser analisado.

Algumas dúvidas surgem:

  1. Será que existe sazonalidade neste tema? Por exemplo, todo ano há um aumento do número de chamados sobre este tema no segundo semestre?
  2. A variação observada pode ser vinculada a algum outro dado? Qual?

Não temos os dados dos anos anteriores para tentar responder à pegunta 1. Mas podemos nos aprofundar na pergunta 2, o que vou fazer no próximo post.

 

 

 

 

Os Dados estão Abertos – Mas é preciso saber ler

Gráfico em árvore

A solução SpagoBI disponibiliza vários tipos de gráficos através de diferentes soluções tecnológicas.

Aqui está o gráfico em árvore (Tree-graphic).

Para este gráfico fiz uma pesquisa de dados considerando a quantidade de solicitações realizadas em um período. As solicitações foram classificadas por macro-bairro e em seguida por bairro.

A pesquisa para gerar um gráfico deste tipo é algo como (fontes no github do projeto):

O modelo documental do documento analítico é muito simples e deve indicar apenas os campos da pesquisa que serão utilizados como indexadores dos registros e se o registro possui um registro pai (zero se é um registro de primeiro nível).

 

 

Gráfico em árvore

Dados Abertos – Curitiba

Dia 5 de março de 2016 será o Dia Internacional dos Dados Abertos. Estão previstos muitos eventos em todo o mundo, e também no Brasil (opendataday.org).

Este post traz minha pequena colaboração para comemorar este dia.

A intenção não é analisar especificamente os dados que vou utilizar como exemplo, mas mostrar como é fácil montar uma solução de BI (Business Intelligence) sobre os dados disponibilizados pelos governos.

Para que as políticas públicas de dados abertos sejam vitoriosas, é preciso não apenas que os governos façam a parte deles, disponibilizando os dados, mas também que nós façamos nossa parte lendo, analisando e contribuindo com idéias.

Vou utilizar os dados do sistema de atendimento ao cidadão do município de Curitiba para construir um Datamart. Para a solução de BI vou utilizar o SpagoBI (spagobi.org) em um servidor Ubuntu com base de dados em PostgreSQL.

Em um post anterior eu mostrei como montar um servidor de BI utilizando SpagoBI e um banco de dados PostgreSQL ( veja aqui ). Desta vez, vou simplificar, manter a solução SpagoBI em seu banco HyperSQL original (isto não é recomendado para um sistema em produção). Vou criar o Datamart em uma instalação do PostgreSQL para que quem quiser reproduzir a solução proposta tenha soluções de interface mais agradáveis como o PgAdmin (www.pgadmin.org).

Em particular também estou interessado em mostrar que importar dados da Internet tem seus desafios: em geral é preciso algum procedimento para limpar (“sanitizar” – para usar um termo na moda) antes de usar os dados.

Os fontes utilizados aqui também estão disponíveis através do github neste repositório.

Mãos a obra…

Continuar lendo “Dados Abertos – Curitiba”

Dados Abertos – Curitiba

Instalação do SpagoBI com PostgreSQL

O SpagoBI pode ser facilmente instalado através dos pacotes disponíveis para download. Na versão disponível para download o sistema vem configurado para um banco HyperSQL in-memory. Existe uma boa quantidade de material mostrando como instalar utilizando MySQL. Porém, pouca informação de como fazê-lo para PostgreSQL.

Neste post vou mostrar como fazer a instalação com um banco PostgreSQL.

(Este post havia sido escrito anteriormente para a versão 4.2 do SpagoBI – estou atualizando os procedimentos para usar com a versão 5.1)

Continuar lendo “Instalação do SpagoBI com PostgreSQL”

Instalação do SpagoBI com PostgreSQL

Introdução ao CMIS

Content Management Interoperability Services (CMIS) é um padrão da OASIS. E o que há de mais interessante neste padrão é que ele oferece uma padronização para acessar diferentes Gestores Corporativos de Conteúdo.

Neste post vou apresentar os principais conceitos e links para informações relevantes sobre CMIS. Continuar lendo “Introdução ao CMIS”

Introdução ao CMIS