POST DO BLOG:

Domar big data com um notebook de laboratório eletrônico (ELN)

A tecnologia de gerenciamento de 
dados de laboratório mudou consideravelmente, desde anotações escritas à mão e fotos de gel de eletroforese até servidores digitais alimentados por instrumentos conectados. Não é mais uma questão de saber se seu laboratório se transformará digitalmente, mas em quanto tempo isso vai acontecer.Capturar e armazenar dados brutos é a primeira etapa crítica em qualquer processo de pesquisa.

O papel é coisa do passado

A tecnologia de gerenciamento de dados de laboratório mudou consideravelmente, desde anotações escritas à mão e fotos de gel de eletroforese até servidores digitais alimentados por instrumentos conectados. Não é mais uma questão de saberse seu laboratório se transformará digitalmente, mas em quanto tempo isso vai acontecer.

O conceito básico de gerenciamento de dados, no entanto, permaneceu essencialmente inalterado. Tudo, desde dados e imagens originais até observações e anotações de pesquisadores, vai para alguma forma de "caderno" de laboratório, que serve como um repositório central único de fatos, estatísticas, resultados e outras informações do projeto. Este é um registro de trabalhos e resultados experimentais; muitas vezes ele contém métodos experimentais, dados originais e até metadados necessários para contextualizar os resultados.

Metadados formais, parâmetros de teste experimentais ou condições de controle, são frequentemente complementados por observações e anotações de pesquisadores, o que facilita a análise e interpretação de dados únicos. Esses dados combinados e de várias fontes geralmente levam à gênese de novas ideias e descobertas.

Captar e catalogar efetivamente essas informações é fundamental para que o pesquisador e outros tentem replicar o trabalho e extrair conhecimento dos resultados.

O futuro do caderno eletrônico

Os pesquisadores de hoje confiam nos cadernos eletrônicos de laboratório (ELNs) em vez de folhas de papel encadernadas em espiral. Na verdade, as práticas digitais são agora tão comuns na indústria que muitos instrumentos são mais propensos a ter cabos de fibra óptica, portas USB e gráficos complexos do que impressoras ou leituras numéricas simples. Os ELNs tornaram-se essenciais apenas para acompanhar as grandes quantidades de dados gerados e coletados pelos laboratórios modernos. Esses conjuntos de dados são exponencialmente maiores do que no passado, se movem mais rapidamente e são trocados entre redes globais.

Como resultado, são necessários recursos de computação avançados, muitas vezes automatizados, para gerenciar, analisar e transformar as descobertas em insights práticos, produtos muito menos comercializáveis. Este processo é muitas vezes comparado a encontrar uma agulha em um palheiro - só que o "palheiro" poderia ser potencialmente do tamanho de uma ou mais galáxias.

Novas ideias e descobertas geralmente surgem quando dados de diferentes fontes são capturados e comparados. Mas nem todas as fontes lidam com dados da mesma maneira, e diferentes tipos de dados exigem diferentes estratégias de catalogação e digitalização antes que possam ser analisados pelas ferramentas mais sofisticadas de hoje.

Os desafios dos dados de várias fontes

Novas ideias e descobertas geralmente surgem quando dados de diferentes fontes são capturados e comparados. Mas nem todas as fontes lidam com dados da mesma maneira, e diferentes tipos de dados exigem diferentes estratégias de catalogação e digitalização antes que possam ser analisados pelas ferramentas mais sofisticadas de hoje.

Um ELN típico combina interfaces de usuário com um banco de dados centralizado e armazenamento de arquivos. Feito corretamente, esse sistema permite o armazenamento contínuo de observações de laboratório, resultados de experimentos, fluxos de trabalho de execução, metadados e muito mais em um formato digital simplificado. O objetivo é tornar a análise dos dados em seu ELN o mais simples possível, idealmente a partir do momento em que são capturados pela primeira vez no sistema.

Um dos maiores desafios para essa meta é que os dados atualmente são fornecidos em mais formas do que nunca. Dependendo de sua fonte, nem todos os dados podem ser imediatamente utilizáveis em um mecanismo de análise... ou, ainda, legível por um olho humano.

Interpretar esses dados para poderem ser capturados e retidos com sucesso pode exigir uma ou ambas as seguintes estratégias:

  • Transformação de dados - digitalizar os dados, ou convertê-los em um formato digital diferente, para torná-los compreensíveis para quaisquer pessoas, software ou outros sistemas que estejam trabalhando com eles.
  • Limpeza de dados -editar ou remover alguns dos dados para refiná-los até os pontos relevantes necessários para análise.

Outra complicação que vem com o Big Data é, é claro, seu grande volume, o que torna a entrada de dados humanos impraticável para muitas tarefas. A necessidade de processar grandes quantidades de dados, muitas vezes provenientes de fontes fora das condições controladas do seu laboratório, normalmente torna essencial alguma forma de automação, tanto para lidar com a quantidade de informações quanto para minimizar as oportunidades de erro humano quando os dados são inseridos no ELN.

Três tipos de dados

As fontes de dados do ELN são classificadas em três categorias com base em sua estrutura:

· Dados estruturados

Essa categoria refere-se a dados já configurados em formatos padronizados e legíveis por máquina, como planilhas ou bancos de dados. Os dados estruturados são a forma mais fácil para um ELN entender e trabalhar. Algumas limpezas de dados podem ser desejáveis dependendo da fonte, mas, em geral, requer pouco ou nenhum processamento para se tornar utilizável quando inserido no sistema.

· Dados não estruturados

No outro extremo do espectro está o tipo de dados mais difícil para um ambiente ELN. Os dados não estruturados vêm em formatos que exigem alguma forma de conversão ou processamento antes de poderem ser usados.

Exemplos comuns incluem fotografias e outras imagens, mapas, gráficos e dados ao nível de sequência. Quaisquer dados que ainda não estejam em formato digital, como relatórios impressos ou anotações manuscritas, também se enquadram nessa categoria.

· Dados semiestruturados

Essa classificação combina elementos de dados estruturados e não estruturados. Em muitos casos, trata-se de alguma forma de dados não estruturados com metadados, como observações de pesquisadores ou dados de instrumentos, anexados a eles. Embora os dados semiestruturados possam ser usados por conta própria, seu valor pode ser significativamente melhorado usando software analítico para processar as partes não estruturadas dos dados quando eles são inseridos no ELN.

As fontes de dados do ELN são classificadas em três categorias com base em sua estrutura:

Como obter a colheita de dados

Seja qual for a categoria de dados com a qual você está trabalhando, eles precisarão passar por um processo chamado extrair, transformar, carregar (ETL) antes de serem analisados. Usando ETL, os dados são coletados, formatados para serem legíveis por um aplicativo e, em seguida, armazenados para uso.

Um ELN de ponta deve ter a capacidade de transformar dados não estruturados resultantes de experimentos em dados semiestruturados. Tal transformação permite que métodos analíticos, análises inferenciais e até mesmo tendências preditivas ocorram em tempo real.

Embora os dados totalmente estruturados possam ser adicionados diretamente a qualquer banco de dados LIMS, o ELN da LabVantage oferece flexibilidade robusta ao lidar com dados semiestruturados ou não estruturados.

O ELN da LabVantage é único porque tem o suporte básico de uma aplicação LIMS corporativa. Os metadados semiestruturados e dados estruturados são capturados direta e perfeitamente de fontes de instrumentos usando o próprio sistema de gerenciamento de dados científicos (SDMS) da LabVantage.

Uma vez que os dados estejam em uma forma utilizável dentro do ELN da LabVantage, o usuário pode optar por manipular ainda mais os dados ou alimentá-los diretamente em um mecanismo de análise, como o LabVantage Analytics. Isso ajuda não apenas a agilizar as atividades diárias do laboratório, mas também fornece uma única fonte unificada de verdade para patentes, publicações e aplicações de novos medicamentos investigacionais para a FDA.

Por exemplo, a LabVantage não só permite que você adicione anexos relacionados a uma planilha específica para referência dentro do ELN, mas (dependendo do tipo de dados) você pode abrir e capturar informações de anexos diretamente dentro da própria planilha, tornando as informações do anexo muito mais acessíveis do que na maioria dos outros ELNs.

Trabalhar com big data é difícil.

As empresas são confrontadas com a tentativa de combinar e integrar com sucesso vários tipos de dados e extrapolar resultados significativos. Um ELN, como parte de uma solução de informática mais ampla, deve ser eficiente e fornecer extração de informações simplificada. É fundamental que, no complexo ambiente de dados atual, ele esteja disponível para armazenar, acessar e analisar grandes quantidades de dados de uma só vez, a fim de reduzir custos e acelerar a tomada de decisões.

Saiba mais sobre a LabVantage ELN, ou entre em contato conosco hoje mesmo.