O DNA muitas vezes é comparado a uma linguagem escrita. A metáfora salta aos olhos: assim como as letras do alfabeto, as moléculas (as bases nucleotídicas A, T, C e G, iniciais de adenina, timina, citosina e guanina) se organizam em sequências – palavras, parágrafos, capítulos, talvez – em todos os organismos, de bactérias a humanos. Assim como em uma linguagem, elas codificam informações. Mas, para os seres humanos, não é fácil ler ou interpretar essas instruções para a vida. Não conseguimos, de relance, dizer a diferença entre uma sequência de DNA que funciona em um organismo e uma sequência aleatória de A, T, C e G.
“Os seres humanos têm muita dificuldade de entender a sequência biológica”, disse o cientista da computação Brian Hie, que dirige o Laboratório de Design Evolutivo da Universidade de Stanford, com sede no Arc Institute, uma organização sem fins lucrativos. Este foi o ímpeto por trás de sua nova invenção, chamada Evo: um modelo de linguagem de grande escala (LLM, na sigla em inglês), que ele descreve como um ChatGPT para DNA.
O ChatGPT foi treinado com grandes volumes de textos escritos em inglês, a partir dos quais o algoritmo aprendeu padrões que lhe permitiram ler e escrever frases originais. Da mesma forma, o Evo foi treinado com grandes volumes de DNA – 300 bilhões de pares de bases de 2,7 milhões de genomas bacterianos, arqueanos e virais – para extrair informações funcionais de trechos de DNA que o usuário insere como instrução. Uma compreensão mais completa do código da vida, disse Hie, poderá acelerar o design biológico: a criação de ferramentas biológicas melhores para aprimorar a medicina e o meio ambiente.
Hie se interessou pelo uso de modelos de linguagem na biologia durante a pós-graduação, quando começou a criar LLMs de proteínas – que conseguem prever como as proteínas se dobram e, com isso, ajudar a projetar novas proteínas. As proteínas são máquinas moleculares codificadas pelo DNA nos segmentos que chamamos de genes. Mas o genoma de um organismo – toda a extensão de seu DNA – representa mais informações do que uma lista de proteínas, assim como uma frase contém mais informações do que uma lista de palavras. Os biólogos ainda estão tentando entender a gramática do DNA. Além disso, os genomas têm muitas regiões que não codificam proteínas. Ele se perguntou: e se o aprendizado de máquina pudesse nos ajudar a compreender a biblioteca genética?
A partir de sua imersão na linguagem dos nucleotídeos, o Evo capta padrões que os humanos não conseguem ver. Ele usa esses padrões para prever como as alterações no DNA afetam a função de seus produtos, o RNA e as proteínas. O LLM também escreveu novas sequências para versões alternativas de moléculas; em alguns casos, esses complexos criados pelo Evo cumpriram sua tarefa tão bem ou melhor do que as versões da natureza.
“Essas variações são como caminhos alternativos que poderiam ter sido tomados pela evolução, mas que não foram”, disse Hie. “Agora temos um modelo que nos permite explorar esses universos evolucionários alternativos”.
A fórmula para o sucesso do Evo é básica. O modelo é imenso, dotado de 7 bilhões de variáveis, conhecidas na ciência da computação como parâmetros, e treinado com uma enorme quantidade de dados. Seu objetivo é simples: prever o próximo par de bases na sequência de DNA. A partir de um modelo grande e de um objetivo simples, surgem propriedades complexas. “É um paradigma muito poderoso que apareceu no aprendizado de máquina nos últimos anos”, disse Hie. Sob esse paradigma, o Evo adquire uma habilidade extraordinária para adivinhar quais sequências são compatíveis com a vida e para criar variações úteis das moléculas da natureza. O Evo chegou a escrever um genoma inteiro, embora nenhum que pudesse funcionar em um organismo, disse ele – ainda não, pelo menos.
“Por enquanto, o design biológico é muito artesanal. É muito aleatório e tem uma taxa de sucesso muito baixa”, disse Hie. “Esperamos melhorar todos esses aspectos com o aprendizado de máquina”.
A Quanta conversou com Hie sobre os paralelos entre o DNA e a linguagem humana, o que o Evo consegue e não consegue fazer e a poesia na programação. A entrevista foi condensada e editada para maior clareza.
Em que você se interessou primeiro: computadores, biologia ou linguagem?
Tenho interesses muito vastos e explorei muitos caminhos de carreira. Em determinado momento da vida, quis fazer um doutorado em literatura inglesa. No ensino médio e na faculdade, aprendi a gostar de poesia. O tipo de poesia de que eu realmente gostava tinha versos com muita estrutura e conceitos grandiosos e usava a linguagem de maneiras muito novas e interessantes.
A afinidade com a análise de um soneto ou a identificação da estrutura de um poema em língua inglesa tem algo a ver com o desejo de desenvolver modelos que tornem as sequências genômicas ou de proteínas mais interpretáveis e revelem sua estrutura oculta. É quase como uma crítica literária sobre sequências biológicas. Então, nesse sentido, também estou fazendo crítica literária.
O que fez você pensar que o DNA poderia ser tratado como uma linguagem?
O DNA é sequencial como a linguagem natural humana. É uma sequência de “tokens”, ou blocos de construção. Nós transformamos a linguagem natural em palavras, letras do alfabeto ou caracteres chineses. Na biologia, um token pode corresponder a um par de bases de DNA ou a um aminoácido [os blocos de construção molecular das proteínas].
E, assim como a linguagem humana, o DNA tem uma estrutura natural. As sequências não são aleatórias. Grande parte da estrutura da linguagem natural também é informal: pode ser ambígua e fica mudando o tempo todo. Da mesma forma, as sequências de DNA têm alguma ambiguidade. A mesma sequência pode significar coisas diferentes em contextos diferentes.
Como você se interessou em aplicar modelos de linguagem em grande escala ao DNA?
Foi logo no início do meu atual emprego, no outono de 2023. As mudanças de trabalho nos fazem reconsiderar algumas coisas. Eu estava de férias com amigos em Tóquio. Estava com jet-lag, então acordei cedo. Como todos os outros estavam dormindo, fiz uma longa caminhada sozinho. Fiquei pensando na modelagem da linguagem do DNA.
O dogma central da biologia molecular é uma coisa muito bonita. Afirma que o DNA codifica o RNA, que codifica a proteína. Então, se você treinar um modelo com DNA, e for um bom modelo, você também vai ter uma modelagem de linguagem de RNA e proteína, porque existe uma correspondência direta entre o DNA e a sequência de proteínas.
Você também pode treinar o modelo com genomas: os genes como são, um ao lado do outro no genoma. Quando você treina um modelo de linguagem de proteína, basicamente pega um genoma inteiro e corta todas as partes que codificam as proteínas e o treina com todas essas partes, separadamente. Mas você ignora o vasto contexto genético em que as proteínas estão inseridas. Nos genomas microbianos, as proteínas com funções relacionadas ficam bem próximas umas das outras no genoma, de modo que a ordem dessas regiões codificadoras de proteínas é importante. Você perde essas informações nos modelos de linguagem de proteínas.
Percebi que treinar um modelo no nível mais básico – indo da proteína até o DNA – poderia expandir os recursos do modelo.
Como você treinou o Evo para “ler” o DNA?
Uma diferença importante entre os modelos de linguagem de proteínas e os de DNA é o comprimento da sequência que o modelo usa para fazer suas previsões do próximo par de bases, algo que chamamos de “comprimento do contexto”. O comprimento do contexto é como se fosse uma ou duas páginas de um romance que você consegue ver de uma vez só. O Evo foi treinado em um “romance” que consiste em muitos genomas – só o genoma da E. coli tem de 2 milhões a 4 milhões de pares de bases – mas com um comprimento de contexto máximo de 131 mil tokens. Em comparação, os modelos originais de linguagem de proteínas foram treinados com um comprimento de contexto de mil aminoácidos.
Isso exigiu um certo desenvolvimento tecnológico, porque os comprimentos de contexto longos consomem muita energia computacional. Essa demanda de energia, que quadriplicava com o comprimento de contexto, limitou as versões originais do ChatGPT. Mas, quando estávamos pensando no Evo, os pesquisadores – entre eles, auspiciosamente, uma equipe de Stanford – encontraram uma maneira de reduzir a computação necessária para comprimentos de contexto mais longos. Um aluno desse laboratório de Stanford nos ajudou a aplicar esses avanços ao nosso modelo de DNA.
O conjunto de dados de treinamento do Evo também foi importante: sua exposição a 2,7 milhões de genomas de bactérias, arqueas e vírus. Com minha modelagem de linguagem de proteínas, aprendi que a diversidade de sequências faz muita diferença. Ela mostra ao modelo alternativas evolutivas para a vida – maneiras diferentes de expressar a mesma ideia – que o modelo pode usar para aprender regras gerais e, por exemplo, criar proteínas que tenham uma função específica.
Começamos a treinar o Evo em dezembro de 2023, algumas semanas antes de eu começar meu laboratório. Demos a ele diferentes instruções de DNA e pedimos que ele previsse o próximo token (nesse caso, um par de bases de DNA) de uma sequência. Em janeiro, decidi testar se funcionava.
Como você o testou e como ele se saiu?
Dei a ele sequências de DNA codificadoras de proteínas que tinham várias mutações: pares de bases que diferiam da sequência típica do gene. A tarefa era prever a “probabilidade evolutiva” dessas mutações, a probabilidade de elas existirem na natureza. As mutações consideradas prováveis deveriam preservar ou melhorar a função de uma proteína no laboratório. As mutações improváveis deveriam se correlacionar com uma função ruim.
O Evo não tinha nenhum conhecimento explícito da função. Ele só sabia quais mutações tinham sido usadas pela evolução no passado. Além disso, o modelo foi treinado apenas com dados de DNA, sem nenhuma instrução sobre quais partes do DNA correspondiam a proteínas. Então, ele teve de descobrir como o DNA codifica as proteínas e onde as proteínas começam e terminam no genoma.
Pontuamos as probabilidades do modelo usando testes experimentais da função da proteína. Descobrimos que, se um par de bases tiver alta probabilidade de acordo com o Evo, é provável que esse par de bases preserve ou melhore a função da proteína. Mas, se esse par de bases tiver baixa probabilidade, colocar esse par de bases em uma sequência de proteínas provavelmente destruirá a função.
Também comparamos os resultados do modelo com os de modelos de linguagem de proteínas de última geração. Descobrimos que o Evo se equiparava ao desempenho dos modelos de proteínas, apesar de nunca ter visto uma sequência de proteínas. Essa foi a primeira indicação de que, OK, talvez estivéssemos no caminho certo.
O que mais você pediu ao Evo para fazer?
Nós o usamos para gerar sequências de DNA, assim como o ChatGPT pode gerar texto. Um dos meus alunos, Brian Kang, me ajudou a ajustar o modelo do Evo no DNA que codificava uma proteína, bem como pelo menos uma molécula de RNA – elas se unem para criar um complexo chamado CRISPR-Cas. O CRISPR-Cas quebra o DNA em pontos específicos, o que ajuda as bactérias a se defenderem contra os vírus. Os cientistas as utilizam para editar genomas.
Depois de treinar o Evo com mais de 70 mil sequências naturais de DNA para o complexo CRISPR-Cas, pedimos que ele gerasse o sistema completo no código de DNA. Para 11 de suas sugestões, encomendamos as sequências de DNA e as usamos para criar os complexos CRISPR-Cas no laboratório e testar sua função.
Uma delas funcionou. Consideramos isso um piloto muito bem-sucedido. Com os fluxos de trabalho típicos de design de proteínas, você tem sorte quando encontra uma proteína funcional para cada 100 sequências testadas.
A sequência bem-sucedida funcionou bem?
Ela funciona tão bem quanto o sistema Cas de última geração. Se você olhar com um pouco mais de atenção, talvez ela tenha uma clivagem [corte da fita de DNA] um pouco mais rápida.
Isso já foi feito antes?
É uma tarefa muito complicada. A enzima Cas é longa demais para ser processada pelos modelos atuais de linguagem de proteínas. Além disso, um modelo de proteína não conseguiria gerar o RNA.
Qual é a sequência de DNA mais longa que o Evo gerou?
O modelo gerou um milhão de tokens do zero – essencialmente, um genoma bacteriano inteiro. Se você pedisse para o ChatGPT gerar um milhão de tokens de texto, em algum momento ele sairia dos trilhos. Haveria alguma estrutura gramatical, mas ele não conseguiria produzir O Morro dos Ventos Uivantes.
O genoma do Evo também tinha estrutura. Tinha uma densidade de genes semelhante à dos genomas naturais e proteínas que se dobravam como as proteínas naturais. Mas não era algo que pudesse impulsionar qualquer organismo, pois não tinha muitos genes que sabemos serem essenciais para a sobrevivência dos organismos. Para gerar um genoma coerente, o modelo precisa ter a capacidade de editar seu produto – de corrigir erros, assim como um escritor humano corrigiria uma passagem mais longa de texto.
Quais são as outras limitações do Evo?
Ainda estamos no começo. O Evo foi treinado só com genomas dos organismos mais simples, os procariontes. Queremos expandi-lo para eucariontes – organismos como animais, plantas e fungos, cujas células têm núcleo. Seus genomas são muito mais complicados.
O Evo também lê apenas a linguagem do DNA, e o DNA é só uma parte do que determina as características de um organismo, seu fenótipo. O ambiente também tem um papel importante. Então, além de ter um bom modelo de genótipo, gostaríamos de criar um modelo realmente bom do ambiente e sua conexão com o fenótipo.
Os chatbots de LLM são bastante propensos a erros. O Evo é mais preciso?
Com o ChatGPT, você quer que ele se prenda aos fatos reais, não tenha “alucinações”. Na biologia, as “alucinações” podem ser quase uma característica, e não um erro.
Mas o Evo comete erros, sim. Ele pode, por exemplo, prever a estrutura de uma proteína a partir de uma sequência que se revela errada quando produzimos a proteína no laboratório. Ainda assim, um ser humano seria quase totalmente inútil nesse tipo de tarefa. Nenhum ser humano conseguiria escrever, a partir do zero, uma sequência de DNA que se encaixasse em um complexo CRISPR-Cas.
Como você vê essa tecnologia daqui a cinco ou dez anos?
Vamos expandir os limites do design biológico muito além das moléculas de proteína individuais, para sistemas mais complexos que envolvem muitas proteínas, ou para proteínas ligadas a RNA ou DNA. Poderemos projetar uma via sintética que produza uma molécula de medicamento com valor terapêutico ou que degrade o plástico descartado ou o óleo de derramamentos.
Também espero que os modelos ajudem na descoberta biológica. Quando você sequencia um novo organismo da natureza, obtém apenas o DNA. É muito difícil identificar quais partes do genoma correspondem a diferentes funções. Se os modelos conseguirem aprender, digamos, o conceito do sistema de defesa de um bacteriófago ou um caminho biossintético, eles vão nos ajudar a anotar e descobrir novos sistemas biológicos em dados de sequenciamento. O algoritmo é fluente na linguagem, os seres humanos, não.
Um modelo como o Evo apresenta algum perigo?
Se o modelo fosse usado para projetar vírus, talvez esses vírus pudessem ser usados para fins nefastos. Deveríamos ter alguma forma de garantir que esses modelos sejam usados para o bem. Mas o nível de biotecnologia já é suficiente para criar coisas perigosas. O que a biotecnologia ainda não consegue fazer é nos proteger de coisas perigosas.
A natureza cria vírus mortais o tempo todo. Acredito que, se aumentarmos nosso nível de capacidade tecnológica, isso terá um impacto maior em nossa capacidade de nos defender contra ameaças biológicas do que na criação de novas ameaças. / TRADUÇÃO DE RENATO PRELORENTZOU
História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em The Poetry Fan Who Taught an LLM to Read and Write DNA