Arquivo de etiquetas: servidor

Serviço de email restabelecido

O serviço de email encontra-se restabelecido. Durante o dia foi restabelecido o acesso ao webmail, a recepção e o envio através de cliente de email (Outlook, Thenderbird, etc). Todos os dados (99.99%) foram recuperados, mas devido a várias incompatibilidades de bibliotecas de software foi necessário efectuar a respectiva compilação e reinstalação de todo o software. Devido a esse facto, demorou um pouco mais do que o previsto a reposição do serviço.

Deixamos uma nota para vários contactos que ficaram sem resposta ou com resposta bastante abreviada. A partir do momento em que a situação está identificada e declarada estamos totalmente focados na mais rápida resolução e por vezes é impossível atender a vários contactos.

As boas notícias: todos os emails que se encontravam no servidor foram recuperados e os emails enviados durante a falha de sistema deverão entrar nas próximas horas. O serviço de email foi migrado para um sistema com redundância de discos (tal como o serviço web que foi migrado há uns meses atrás) e tal facto deverá evitar este tipo de falha inesperada tão cedo.

As medidas anti-spam e anti-vírus ainda não estão a 100%, estão a ser configuradas e testadas e serão instaladas durante os próximos dias. O painel de controlo do sistema de email (para a configuração das contas de emails, forwards, etc) também ainda não se encontra disponível, entretanto qualquer configuração deverá ser solicitada para email.

Serviço de Email em baixo

O servidor de email sofreu uma falha de hardware (disco rígido) pelo que durante o dia de hoje o serviço de email (envio e recepção de emails e webmail) esteve indisponível. Além dos backups, foi possível recuperar 99,99% da informação do disco e estamos neste momento a aprovisionar o novo serviço que irá passar a funcionar em hardware redundante com dois discos (como o serviço web desde há uns meses).

Próximo update nas próximas horas, em que prevemos o serviço se encontre restabelecido.

Novo servidor

Dia 31 tivemos vários problemas com o servidor. Por volta da hora de almoço, recebemos uma notificação de reboot automático e deixámos de conseguir aceder a qualquer serviço. Nem o próprio ping nem trace obtiam resposta. Contactado o datacenter, foram despistados problemas de rede e efectuado novo reboot. Recebemos a informação que não haveria nenhum problema de rede, no entanto tivemos por momentos dificuldades em aceder ao painel de gestão remota. Confirmado que não haveria nenhum problema de rede nem de hardware foi efectuado um arranque com um Live CD que permite aceder aos discos e efectuar a verificação e correcção de erros. Foi efectuado novo reboot sem serviços com sucesso, e a partir daqui fomos levantando vários serviços, excepto as quotas em disco e o anti-spam/anti-virus do email que mantemos em baixo, visto não se tratarem de processos fundamentais e consumirem bastante CPU e IO.

Durante o processo verificámos também a integridade do backup que corre diariamente de madrugada, e que em caso de falha grave a nivel de hardware e de impossibilidade de recuperação dos dados em tempo útil seria utilizado para restaurar num novo servidor.

Esta é uma situação “normal” para um provedor de alojamentos e VPS. O que não foi normal foi o tempo necessário por parte do nosso provedor – a EasySpeedy – a responder às nossas solicitações. De forma que uma questão que podia ter sido resolvida em 20 minutos demorou praticamente 3 horas até ficar resolvida.

No nosso planeamento estava previsto um upgrade de servidor para alturas de Agosto, visto o actual já se apresentar frequentemente no limite de carga e o próprio hardware também já contar com 3 anos (que no mundo actual da informática é uma eternidade). No entanto e derivado desta situação somos forçados a antecipar os nossos planos e já estamos a trabalhar na instalação de um novo servidor.

Iremos trocar de provedor para a OVH, visto em termos de servidores e datacenter apresentar um nivel muito bom, a nivel europeu provavelmente do melhor mesmo. Em termos de rede, gostariamos de voltar a estar com uma ligação directa no Gigapix (embora a PT/Sapo/Meo insistir em não fazer ligação), temos informações que está em negociação, mas no entanto temos uma latência muito razoável.

Servidor actual:  76ms
Novo:  44ms

Em termos de especificações de hardware:
Intel i5 @ 2.66Ghz
16 Gb Ram
2T HDD
GigaEthernet

Estamos a proceder à instalação de todo o software necessário e testes de carga e manutenção. Logo que esteja pronto iremos iniciar a migração das contas. Brevemente mais informações.

Estado de serviço – Update

Na semana passada verificaram-se vários periodos de lentidão e mesmo pontualmente interrupções no serviço, que forum prontamente mitigadas.

http://twitter.com/kolorbit

Foi efectuada uma extensa auditoria ao servidor e foi concluido que num dos VPS (Servidor Virtual Privado) estava a correr um servidor Apache com proxy activado, com falhas de configuração que permitia acessos proxy de qualquer IP. Inclusive o IP do VPS já se encontrava em algumas listas de proxys abertos/inseguros. Os constantes acessos com um volume considerável foram passando despercebidos visto que tiveram um aumento progressivo e serem confundiveis com tráfego HTTP legitimo. No processo de auditoria aproveitámos para efectuar vários upgrades conforme as últimas notícias aqui no blog, e também para reforçar os processos de monitorização da utilização de recursos e rede.

Quando esta situação foi mitigada (através da correcta configuração do mod_proxy) a utilização de recursos do servidor diminuiu bastante, e neste momento, passados vários dias desde a intervenção, verifica-se uma utilização de recursos perfeitamente adequada ao hardware instalado. No entanto, conforme previsto, em meados dos próximos meses será efectuado um upgrade no hardware por forma a acautelar necessidades futuras.

Relembramos mais uma vez que qualquer falha ou situação anómala deverá ser comunicada por email para suporte@kolorbit.com ou por telefone para o 91 745 57 31 (em casos urgentes de interrupção de serviço) após verificação no twitter – http://twitter.com/kolorbit – se já se encontra reportada ou em resolução.

Lembramos também, os utilizadores de VPS, que a instalação de software adicional deverá ser efectuada de uma forma responsável e que em caso de dúvida deverão sempre contactar o suporte que prestará o auxilio técnico necessário.

Upgrade PostgreSQL

Foi efectuado o upgrade do PostgreSQL para a última versão stable da série 8.4. Além das vantagens em termos de segurança e funcionalidade de ter a versão stable, verificou-se que a versão que estava instalada, embora recente, apresentava um consumo de recursos anormal especialmente em situações de carga já de si elevada.

Este upgrade, mantendo a mesma série não implica nenhum tipo de actualização ou revisão aos sites alojados que recorrem a esta base de dados relacional.