Figura 1 – Equipamentos do centro de dados do LIneA
O LIneA mantém atualmente um centro de dados multi-usuário dedicado as atividades associadas aos levantamentos DES e SDSS que incluem transferência, armazenamento, processamento e distribuição de dados, desenvolvimento de software, operação do Portal Científico e serviço de Helpdesk.
Atualmente o centro de dados do LIneA conta com cerca de 90 equipamentos (incluindo servidores, racks, switches, nobreaks) e 22 serviços necessários para a operação do laboratório.
A Figura 1 mostra a infraestrutura disponível no centro de dados do LIneA de onde destacamos:
arquitetura DMZ para transferência de dados com taxa de transferência média de ~250 Mbps entre os principais parceiros internacionais desenvolvida em conjunto com a RNP;
banco de dados do SDSS-III disponibilizando os releases DR8, DR9 e DR10 para o público geral através dos serviços Skyserver e CASJobs. Este é um importante acervo, cujos dados tem sido usados em pesquisas nas mais diversas áreas da astronomia;
banco de dados do DES PostreSQL + PGpoolII com replicação da base de dados para balanceamento de carga em dois servidores;
sistema de armazenamento (500 TB);
cluster SGI (1000 núcleos) dedicado ao processamento do Portal Científico;
cluster para alto desempenho de I/O durante o processamento (LustreFS);
servidor de desenvolvimento e repositório de códigos;
cluster de VMs para hospedagem dos serviços.
Em 2015 a infraestrutura sofreu algumas importantes modificações, entre as quais:
Para último conjunto de dados do SDSS-III liberado em 07/2015 foi montado um novo esquema (vernotícia) baseado na aquisição de um servidor de grande capacidade de armazenamento interno evitando desta forma a dependência da rede na solução adotada anteriormente. Esta mudança teve um impacto importante no desempenho. O objetivo final é emular a infraestrutura disponível em Johns Hopkins University onde são usados quatro servidores para cada conjunto de dados.
A solução PGpool utlizada apara armazenar o banco de dados de catálogos do projeto DES também foi substituída por apenas um servidor;
Ao lustre foi adicionado mais um servidor;
Um novo servidor foi disponibilizado para uso na transferência de dados;
Até Julho de 2015 estes equipamentos estavam localizados no PoP-RJ quando foram transferidos par o CPD do LNCC com o qual firmamos um acordo específico para este fim. O vídeo acima ilustra o eficiente trabalho de desmontagem e montagem realizado pela firma SLACAM responsável pela infraestrutura computacional do LIneA que minimizou o tempo de paralisação do sistema.
Plano de Crescimento
Com base nos testes de desempenho do portal científico realizados com dados do primeiro ano do DES identificamos as seguintes necessidades:
ampliar a capacidade de processamento aumentando o número de núcleos e desta forma a paralelização de processos;
aumentar a capacidade de armazenamento e redundância, para evitar sérias paralisações que podem comprometer as atividades de pesquisa;
melhorar o desempenho do banco de dados;
Além disso devemos atender as crescentes demandas de processamento e armazenamento devido:
A entrada de novos usuários e de novos projetos.
Ao fato que o levantamento DES, já se encontrar no seu terceiro ano de observações, cobrindo a área total prevista de 5.000 graus quadrados, e o SDSS-IV em seu segundo ano.
Ao início da participação brasileira no projeto LSST envolvendo análise de simulações cobrindo 20.000 graus quadrados, e redução de dados com algoritmos desenvolvidos pelo LSST.
A necessidade de se criar um Centro Regional de Dados para o projeto LSST até 2020, o que será feito com o apoio do LNA, LNCC e RNP, fundamental para permitir a eficiente participação brasileira na exploração científica dos dados do LSST.
Aos compromisso internacionais assumidos.
O LIneA, em consulta com seus colaboradores e fornecedores, desenvolveu um plano de crescimento para os próximos cinco anos. Em linhas gerais este plano prevê:
A aquisição de um cluster de processamento com uma interface infiniband.
A reutilização do cluster atual para a implementação de um banco de dados distribuído, um trabalho que será feito em colaboração com tecnologistas do SLAC envolvidos no projeto LSST.
Um aumento da capacidade de armazenamento da ordem de 1 PB por ano, de forma a atingir 5 PB no início de comissionamento do LSST previsto para 2020.
A expansão do número de servidores usados para a distribuição de dados do projeto SDSS visando aprimorar o desempenho do serviço.
A renovação periódica das estações de trabalho sendo utilizadas pela equipe de TI.
O custo total e o perfil de gastos ao longo dos próximos anos é apresentado na tabela abaixo.
Equipamentos
I
II
III
IV
V
Espelho SDSS
60
60
60
Cluster
65
490
490
Armazenamento
65
520
520
520
520
Estação de trabalho
6
6
6
Total em 1000 US$
196
1070
586
520
1016
Além destes investimentos a equipe técnica do LIneA em colaboração com a RNP, UFCG e separadamente com o NCSA começa a explorar tecnologias para o processamento em nuvem . O domínio desta tecnologia é fundamental para viabilizar a migração do portal científico para o NCSA como previsto. Em paralelo, com o LNCC se estuda o possível uso do supercomputador Santos Dumont recentemente adquirido e sua possível integração ao modelo de operação do Centro de dados do LSST.