O volume de dados sem precedentes acumulado pelos levantamentos SDSS, DES e futuramente DESI e LSST exige uma infraestrutura computacional capaz de analisar grandes volumes de dados e distribuir os resultados dessas análises de forma eficiente. Para isto, ao longo dos últimos anos, o LIneA vem atuando em duas frentes. A primeira montando um centro de dados cuja arquitetura visa atender as necessidades específicas destes projetos. A segunda desenvolvendo um portal científico que oferece os seguintes serviços:
Os algoritmos desenvolvidos pelos diferentes grupos de trabalho são mantidos em repositórios de código onde as mudanças são versionadas, permitindo a contribuição de diferentes desenvolvedores de forma organizada e garantindo que algoritmos desenvolvidos por alunos e pós-doutorandos sejam preservados. Esse aspecto é de fundamental importância para programas de longo prazo.
A Figura 1 ilustra os principais conceitos do Portal Científico:
Nesse modelo, a instalação e a etapa de preparação dos dados, que representam uma fração substancial do tempo gasto na análise de dados convencional, é realizada de forma estruturada e eficiente. A base de dados centralizada e a integração dos algoritmos científicos ao portal é crucial para minimizar a movimentação de grandes volumes de dados. Os algoritmos científicos integrados ao portal se beneficiam da infra estrutura de processamento e acesso aos dados disponíveis.
Além dos algoritmos científicos, o sistema de gerenciamento de workflows e a camada de orquestração são os principais componentes de software do portal. Associados a esses componentes estão o banco de dados administrativo, o banco de dados de catálogos, o cluster de processamento e o sistema de armazenamento, como mostrado na Figura 2.
O desenvolvimento do Portal Científico tem sido avaliado ao longo dos últimos anos por um painel internacional. O resultado dessa avaliação pode ser visto aqui.
O desenvolvimento de software no LIneA segue alguns conceitos das metodologias ágeis com reuniões diárias no formato stand up onde os membros dos times técnico e científico fazem um breve relato sobre as atividades e identificam interdependências nas suas tarefas. A partir de reuniões semanais por projeto, as tarefas são identificadas e planejadas ao longo de sprints. O detalhamento e acompanhamento das tarefas é feito através do software Trello e o planejamento a médio e longo prazo através da ferramenta SmartSheet. Para melhorar a comunicação entre os membros do time é utilizada a ferramenta Slack que permite canais de conversação permanentes, mensagens instantâneas, e integração com os demais softwares utilizados.
As principais áreas de desenvolvimento de software no LIneA incluem desenvolvimento web, visualização de dados, gerenciamento de dados em banco de dados relacionais e em sistema de arquivos distribuídos, processamento de dados em paralelo e desenvolvimento de workflows científicos, alem de atividades de correção de erros, testes e operação. O Vídeo 1 ilustra o desenvolvimento do portal científico no LIneA.