Broad Institute do MIT e Harvard, pioneiros centros de pesquisas biomédicas de genomas, vem utilizando o Google Cloud Platform com o intuito de reduzir os custos de pesquisas científicas.
Em média, um genoma humano entra em um sequênciador a cada 10 minutos. Até a data, o instituto processou mais de 76 mil genomas, gerando 24 TB de dados por dia e armazenando mais de 36PB de dados na plataforma de nuvem do Google.
Uma vez que os dados genômicos são gerados, o processamento e a análise são feitas em etapas ligadas a um projeto automatizado, chamado de GATK Best Practices.
Em 2015, quando o projeto GATK Best Practices foi trazido para o Google, o custo para executá-lo era de US $ 45. Desde então, a redução chegou a 90%, mantendo a qualidade do resultado.
Entre os benefícios alcançados até hoje estão o aumento da eficiência e a redução dos custos em aproximadamente 30%, já que no passado o armazenamento local dos dados consumia a maior parte do orçamento de computação do instituto, e a otimização da transmissão das informações, com os algoritmos lendo os dados diretamente do Google Cloud Storage, o que requer menos espaço em disco.
“Tem sido um privilégio apoiar o Broad em sua missão de avançar na pesquisa biológica e no tratamento de doenças, além de estabelecer as bases para uma nova geração de terapias. Fazemos parte de um marco importante para a comunidade científica, já que no GCP o custo de executar o projeto foi reduzido para pouco mais de US $ 5 por genoma”, afirma Jonathan Sheffi, Gerente de Produto de Genômica e Ciências de Vida, Google Cloud.
O Instituto Broad lançou recentemente a versão open-source 4.0 do GATK, que permite que pesquisadores, até mesmo os sem treinamento computacional, tenham acesso ao projeto GATK Best Practices no portal de análise baseado na nuvem do FireCloud.