20 de outubro de 2014

Semana International do Acesso Aberto, Braga, 20-26 Outubro

A Universidade do Minho (UMinho) associa-se às instituições que a nível mundial promovem a Semana Internacional do Acesso Aberto (Open Access Week) entre os dias 20 e 26 de Outubro. No conjunto de iniciativas previstas na UMinho, destaque para a participação de membros da equipa de projetos Open Access dos Serviços de Documentação da UMinho (SDUM) em vários webinars sob a égide do projeto OpenAIRE – Infraestrutura de Acesso Aberto para a Investigação na Europa.
Mais informações na página do evento.

10 de outubro de 2014

Connect and Help Build the Global Open Data Index

A malta da Open Knowledge Foundation está a organizar uns sprints para empurrar o indice de open data global. Fica aqui o link do evento e das páginas das cidades Portuguesas e global. Podendo é ajudar. Dia 13 de Outubro há live stream.

8 de outubro de 2014

RAW Open Data, Coimbra, 16-17 Outubro



Organizado pelo IPN em Coimbra numa cooperação entre dois projectos Europeus complementares: CITEK e Transcreativa, o RAW Open Data que vai decorrer dias 16 e 17 de Outubro pretende dar mais atenção ao Open Data em Portugal. Conta com speakers do Reino Unido, Espanha, Grécia, França, Itália e Portugal. Mais informações no website do evento:
http://rawopendata.ipn.pt/

7 de outubro de 2014

Entrevista a Helder Guerreiro do dre.tretas.org

Viva Helder, antes de mais obrigado por aceitares a algumas perguntas sobre o teu projecto dre.tretas.org

Citando o dre.tretas.org "Este site disponibiliza uma cópia tão fiel quanto possível do Diário da República Electrónico. (…) O motivo que nos levou a fazer este trabalho foi a extremamente baixa qualidade do site oficial. A qualidade é tão baixa que chega ao extremo de não nos permitir partilhar ligações para os documentos nele contidos."

Quais os motivos práticos que te levaram a desenvolver este projecto? 

O principal motivo foi exactamente proporcionar às pessoas as funcionalidades básicas que, em nossa opinião, estão em falta no site oficial.

Outro motivo foi o desejo de facilitar o acesso à informação da forma mais simples possível. Sem usarmos barreiras artificiais.

Finalmente, o simples acto de produzir qualquer coisa que é usado pelo resto dos cidadãos dá-me algum prazer.

Se o dre.pt fosse qualquer coisa de parecido ao Boletín Oficial Espanhol, não teríamos certamente iniciado este projecto.

Exemplos práticos:
  • Procura em texto livre:
As funcionalidades de procura do site antigo e, ao que parece do site actual, apenas permitem ao "utilizador grátis" (ou seja o normal cidadão) procurar por um documento específico ou então obter uma colecção de documentos segundo uma série de parâmetros rígidos (data, tipo do documento, etc). A menos que se saiba exactamente o que queremos o site oficial não serve para muito.

O que se construiu no dre.tretas.org foi um sistema de busca em texto livre, usando uma interface que as pessoas conhecem e utilizam há décadas, em todos os motores de busca.

Notar que não se perde por isso precisão nos resultados, se quisermos procurar por um determinado documento basta indicar o respectivo tipo e número. Temos normalmente muito bons resultados. Há outras opções de busca, ver a página de ajuda.

Há um exercício que podemos fazer, encontrar o documento que determina a criação do dre.pt...

No dre.tretas.org é simples, basta fazer a busca óbvia, procurar por "diário da republica electrónico", sem as aspas:

http://dre.tretas.org/?q=di%C3%A1rio+da+rep%C3%BAblica+electr%C3%B3nico

No dre.pt não sei como o fazer.
  • Proporcionar ligações simples para os documentos
Todos os documentos estão disponíveis em URLs do género:

http://dre.tretas.org/dre/<número de ordem>/

Naturalmente, estes links são imutáveis. Funcionam como uma coordenada para o documento. No site oficial não é bem assim, ou damos o link para um PDF ou então vamos deparar-nos com várias dificuldades sendo que a pior dessas dificuldades é a expiração de links para o sumários do sistema DIGESTO.
  • Disponibilizar os documentos noutros formatos para além do PDF
O formato PDF é óptimo para impressão, não é tão adequado para outros fins. Nós disponibilizamos os documentos integrados numa página html, ou os metadados em JSON:

http://dre.tretas.org/dre/92528/
http://dre.tretas.org/dre/92528/.json/

Para além disso disponibilizamos também um dump completo da base de dados para quem a quiser utilizar (na página "Acerca" - esta funcionalidade esteve sem funcionar algum tempo, agora já está de novo em linha).
  • Ligações entre documentos
Se um documento faz menção de outro documento o óbvio, na nossa opinião, é que, sendo o conteúdo apresentado numa página web, se faça a ligação para esse outro documento, dentro das nossas possibilidades.

Além disso apresentamos um "tooltip" com o sumário do documento de destino. Isto é uma utilização básica das páginas web, é assim há décadas.

O dre.pt não tem esta funcionalidade.
  • Finalmente, tendo os documentos numa base de dados foi trivial acrescentar um sistema de bookmarks e anotações. Este sistema pode ser melhorado de várias formas.
Quando digo trivial não estou a usar uma figura de estilo, tanto o sistema de bookmarks, como o sistema de etiquetagem dos bookmarks (que permite organizar colecções de legislação), como o próprio sistema de anotações foram implementados em não mais de uma semana de trabalho. O sistema para os "user settings" talvez mais dois dias, são coisas muito simples. É certo, usei componentes que já tinha utilizado noutros projectos, aperfeiçoando uma ou outra funcionalidade, mas poderia, com igual facilidade, ter usado componentes obtidos na web.

Há quanto tempo existe o dre.tretas.org? Quantas pessoas são responsáveis pelo seu desenvolvimento e manutenção? 

O projecto foi colocado em linha em Agosto de 2012, ao mesmo tempo que ia sendo desenvolvido. Em fins de 2012 tinha o conjunto de funcionalidades que tem hoje, a menos de um ou outro pormenor.

Este projecto foi feito apenas por mim, em termos de programação e desenho do site. Contei sempre com a ajuda do José Lopes para troca de ideias ao longo de todo esse tempo e é responsável por 2 commits. O José Lopes criou, comigo, o tretas.org.

O site em si não exige grande manutenção, para além de fazer os backups. Eu diria que gasto uma hora por mês com este site (a maior parte da qual a olhar para as queries que os utilizadores vão fazendo!).

Tens alguma informação de estatisticas de utilização do dre.tretas.org que possas partilhar connosco? 

Para 2014:
Daily AvgMonthly Totals
PagesVisitsVisitsPages
Oct 20145261947568231567
Sep 2014473784125239142113
Aug 2014547055817300169594
Jul 2014782465120202242573
Jun 2014566862418738170058
May 2014522168421226161867
Apr 201432315301590296931
Mar 2014405775723492125791
Feb 2014630550714201176563
Jan 2014619548915160192071

Penso que o mês de Outubro irá aumentar o número de visitas dado que, apesar do evidente cuidado em preservar os links por parte do pessoal do dre.pt, ainda falharam alguns, isto faz com que tenha tráfego acrescido via motores de busca.

Já agora, o cuidado a que me refiro não tinha acontecido da primeira vez que tentaram colocar o novo site no ar, em Dezembro de 2013. (Tenho uma colecção de recortes de jornal sobre o caso em: http://busca.tretas.org/perfil/helder/?order=2&invert=on&tags=721)

O site oficial dre.pt foi recentemente actualizado (18 de Setembro). Certamente que sendo um site de serviço público fizeram um levantamento de requisitos sobre os aspectos que poderiam melhorar para melhor servir o público. Estando tu mais por dentro do site e da sua fraca usabilidade, sentes que a nova versão é uma melhoria em relação à anterior? 

O novo site está, sem dúvida, muito mais agradável em termos visuais.

Em termos de funcionalidades propriamente ditas parece não haver muitas mudanças:
  • O sistema de procura de documentos é igual, agora com uma interface mais moderna mas com a mesma funcionalidade;
  • Tem um novo sistema de anotações;
  • Tem um sistema para "guardar documentos": ainda não tive tempo de explorar o sistema de modo a ter uma opinião definitiva, ainda não descobri como se usa esta funcionalidade;
  • O RSS que no site antigo estava muito escondido, é agora evidente, pena apontar para PDFs...
Consegues dar-nos uma apreciação de quais os pontos que foram melhorados, piorados ou que se mantiveram iguais apesar de serem criticos na tua opinião? 

Pontos que foram melhorados:
  • Aspecto visual;
  • A navegação no site está melhor;
  • Velocidade do site (está excelente!);
  • RSS mais acessível;
Pontos que ficaram iguais:
  • Sistema de busca idêntico - este é um dos pontos críticos, não encontro motivos para isto ser assim. Notar que o dre.pt tem uma funcionalidade de busca por texto livre, apenas para os assinantes do serviço (serviço pago).
Notar, que esta funcionalidade continua a existir para o serviço pago.
  • Não detecto melhorias significativas nas anotações, posso estar a ser injusto.
Pontos que ficaram piores:
  • É disponibilizada *menos* informação. O texto integral dos documentos era disponibilizado no sistema DIGESTO, exemplo que ainda funciona:
http://digestoconvidados.dre.pt/digesto//pdf/LEX/386/166879.PDF

Isto permitiu-me extrair o texto de cada documento para indexação. Deixaram de disponibilizar os documentos neste formato. Agora temos apenas páginas do DR, em formato PDF, a duas colunas, frequentemente com mais de um documento por página.

Notar, mais uma vez, que esta funcionalidade continua a existir para o serviço pago.

Fugindo completamente à pergunta, permite-me fazer uma nota sobre os serviços pagos:

As vendas, em 2013, do DRE foram de 960000EUR (consultar o relatório de gestão). Tenho a sensação que um valor já de si tão pequeno, ao qual ainda devemos subtrair as receitas provenientes do próprio estado (muitas assinaturas deverão ser de órgãos públicos a avaliar pela lista disponível no BASE), não justifica que se prive o cidadão do acesso *fácil* à informação. Notar que o custo de manutenção do site tem de ser baixo e que a Casa da Moeda teve lucro líquido de 14 milhões de euros.

O DRE pago tem vários serviços muito interessantes, para além daqueles que já mencionei, tais como:
  • Legislação Consolidada, ie, redacção dos documentos que incorporam todas as modificações acrescentadas em documentos mais recentes. Muitas vezes os documentos são apenas listas de modificações (coisas como: alterar alínea a, número 7 do artigo 20º da Lei ABC para o seguinte, tirar ou acrescentar uma virgula, etc), chegam a ser páginas e páginas deste tipo de legislação. Se se nega o acesso ao cidadão a esta redacção consolidada, está-se efectivamente a negar o acesso à legislação, porque a maior parte das pessoas não tem tempo, não tem disposição e não tem formação para fazer tal coisa.
https://dre.pt/web/guest/acerca-consolidacao-legislativa
  • Tradutor Jurídico: é um glossário jurídico
https://dre.pt/web/guest/sobre-tradutor
  • Resumo em linguagem clara: no site antigo, apenas para assinantes, encontrei alguns exemplos, não sei se existe no site novo. Tratam-se de documentos sem valor legal onde se explicava em temos simples, como funcionava uma dada legislação. Tenho um exemplo no link seguinte:
http://blog.tretas.org/2014/01/28/resumos-de-legislacao/
  • Tradução de legislação: encontrei traduções de alguma legislação, no site antigo, pouca coisa, não sei se existe no site novo.
Penso que o país teria muito mais a ganhar do que os 960000€ de receitas derivados do DRE, se estas funcionalidades estivessem disponíveis para todos.

É claro que nós, no dre.tretas.org, não temos recursos para prestar este tipo de serviços.

O site dre.pt tem uma página de contactos para dar feedback. Já alguma vez os contactaste no passado sobre estas questões? 

Não, nunca o fiz. Em retrospectiva, talvez tenha sido um erro.

Quais seriam as mais valias para a sociedade se o dre.pt por exemplo facilitasse mais a indexação e partilha dos dados? 

A partir do momento em que o acesso à informação é livre as potencialidades de uso são infindáveis.

Desde a simples resolução de dúvidas por parte do cidadão comum, à busca de informação por motivos profissionais, todos seriam beneficiados pelo livre acesso, com qualidade, à nossa legislação. Poupava-se tempo, eliminavam-se equívocos.

Depois, em termos de data mining da legislação há imenso trabalho que pode ser feito. Quem sabe o que se poderá revelar com este tipo de análises? Desde simples estatísticas a grafos da legislação, passando pelo cruzamento de informação com outras bases de dados, as possibilidades, como já disse, são infinitas.

Conhecendo o sistema e base de dados usado pelo dre.pt e tendo trabalhado no dre.tretas.org consegues estimar o custo de desenvolvimento (em horas) da adaptação da plataforma para permitir estas mais valias mencionadas? 

Não posso fazer essa avaliação porque o que fiz no dre.tretas.org não tem o mesmo nível de exigência de um site institucional. Suponho que para um site deste tipo se tenha gasto bastante tempo em planeamento, concepção de testes, construção de mockups, reuniões infindáveis para estabelecer requisitos, etc. Tudo isso são custos difíceis para mim de quantificar.

O que posso dizer é que, para desenvolvimento do dre.tretas.org, não gastei, no total e até agora, mais de dois meses, talvez umas 200 horas. É claro que, no meu caso, limitei-me a fazer uma lista de objectivos, escolhi ferramentas "off-the-shelf" e usei um framework com que tenho bastante experiência.

Quais são os teus planos para o dre.tretas.org? 

Tendo em conta a mudança no dre.pt, a minha preocupação é ter o site a actualizar a legislação o mais rápido possível. Dado impedimentos de ordem profissional não sei quando isso vai ser, mas vou-me esforçar para ser bem cedo.

Outros pontos no to-do list são:
  • Interface para utilizadores móveis;
  • API para acesso aos dados (a disponibilização dos metadados em JSON, que refiro mais acima, já faz parte desta ideia, falta definir os métodos para procura dos documentos);
  • Melhorar o parsing dos documentos por forma a identificar os capítulos, secções, artigos, etc. Assim poderíamos fazer links para um artigo em concreto, isso seria útil em documentos grandes;
  • Melhor anotação dos documentos. Se tivermos os documentos divididos por artigos, então podemos pensar em fazer as anotações por artigos;
  • Melhorar a busca: penso que se pode melhorar muito a busca se incluirmos na ponderação da relevância dos resultados o número de ligações que temos para cada documento. Um documento que tenha muitas citações nos outros documentos deve ser importante. Também será interessante avaliar o inverso, isto é, o número de ligações que saem de um dado documento. Uma espécie de PageRank ( http://en.wikipedia.org/wiki/PageRank ) para a legislação!
Tens alguma mensagem para quem estiver interessado em contribuir no dre.tretas.org ou projectos similares e não saiba muito bem por onde começar ou como investir o seu tempo?

Quem quiser participar no dre.tretas.org só tem de fazer o fork no github e apresentar-me os patches. Convém discutir, em primeiro lugar, a ideia comigo, e, claro, não vou aceitar patches com milhares de linhas... Fora isso estou disponível para ajudar, com as advertências normais acerca de falta de tempo. Costumo responder aos mails com velocidade razoável.

Também aceito ajuda em termos de melhoria da interface, código a funcionar é o ideal, mas mockups em HTML também servem. Enfim, não sou exigente...

Para projectos em geral sem nenhuma ordem em particular:
  • Seguir sempre o principio KISS (Keep It Simple Stupid);
  • Definir um conjunto de objectivos e não os alterar;
  • Colocar o projecto no ar rapidamente - os projectos se não estão no ar, morrem muito depressa, tenho uma boa colecção de projectos por acabar. Um bocado de feedback funciona muito bem como incentivo;
  • Um projecto destes tem dois momentos bem distintos, o momento em que o desenvolvimento é preponderante e um segundo momento em que a manutenção é preponderante (incluo a especificação e planeamento no desenvolvimento). O desenvolvimento é a parte que dá mais prazer a fazer. Não é agradável termos tarefas repetitivas, logo devemos automatizar o máximo possível - com o dre.tretas.org e outros projecto quase que não perco tempo com a respectiva manutenção.