O modelo de linguagem natural impulsiona o design de proteínas com a criação de enzimas ativas.
Por Universidade da Califórnia – São Francisco, com informações de Science Daily.
Cientistas criaram um sistema de IA capaz de gerar enzimas artificiais a partir do zero. Em testes de laboratório, algumas dessas enzimas funcionaram tão bem quanto as encontradas na natureza, mesmo quando suas sequências de aminoácidos geradas artificialmente divergiram significativamente de qualquer proteína natural conhecida.
O experimento demonstra que o processamento de linguagem natural, embora tenha sido desenvolvido para ler e escrever textos linguísticos, pode aprender pelo menos alguns dos princípios básicos da biologia. A Salesforce Research desenvolveu o programa de IA, chamado ProGen, que usa a previsão do próximo token para montar sequências de aminoácidos em proteínas artificiais.
Os cientistas disseram que a nova tecnologia pode se tornar mais poderosa do que a evolução dirigida, a tecnologia de design de proteínas vencedora do prêmio Nobel, e vai energizar o campo de 50 anos da engenharia de proteínas, acelerando o desenvolvimento de novas proteínas que podem ser usadas para quase tudo. da terapêutica à degradação do plástico.
“Os designs artificiais funcionam muito melhor do que os designs inspirados no processo evolutivo”, disse James Fraser, PhD, professor de bioengenharia e ciências terapêuticas na Escola de Farmácia da UCSF e autor do trabalho, publicado em 26 de janeiro, em Nature Biotechnology.
“O modelo de linguagem está aprendendo aspectos da evolução, mas é diferente do processo evolutivo normal”, disse Fraser. “Agora temos a capacidade de ajustar a geração dessas propriedades para efeitos específicos. Por exemplo, uma enzima que é incrivelmente termoestável ou gosta de ambientes ácidos ou não interage com outras proteínas”.
Para criar o modelo, os cientistas simplesmente alimentaram as sequências de aminoácidos de 280 milhões de proteínas diferentes de todos os tipos no modelo de aprendizado de máquina e o deixaram digerir as informações por algumas semanas. Em seguida, eles ajustaram o modelo ao prepará-lo com 56.000 sequências de cinco famílias de lisozimas, juntamente com algumas informações contextuais sobre essas proteínas.
O modelo gerou rapidamente um milhão de sequências, e a equipe de pesquisa selecionou 100 para testar, com base em quão próximas elas se assemelhavam às sequências de proteínas naturais, bem como em quão naturalistas eram a “gramática” e a “semântica” dos aminoácidos subjacentes das proteínas AI.
A partir desse primeiro lote de 100 proteínas, que foram analisadas in vitro pela Tierra Biosciences, a equipe produziu cinco proteínas artificiais para testar em células e comparou sua atividade com uma enzima encontrada na clara de ovos de galinha, conhecida como lisozima de clara de ovo de galinha. (HEWL). Lisozimas semelhantes são encontradas em lágrimas, saliva e leite humanos, onde se defendem contra bactérias e fungos.
Duas das enzimas artificiais foram capazes de quebrar as paredes celulares das bactérias com atividade comparável ao HEWL, mas suas sequências eram apenas cerca de 18% idênticas umas às outras. As duas sequências eram cerca de 90% e 70% idênticas a qualquer proteína conhecida.
Apenas uma mutação em uma proteína natural pode fazê-la parar de funcionar, mas em uma rodada diferente de triagem, a equipe descobriu que as enzimas geradas pela IA mostraram atividade mesmo quando apenas 31,4% de sua sequência se assemelhava a qualquer proteína natural conhecida.
A IA foi até capaz de aprender como as enzimas deveriam ser moldadas, simplesmente estudando os dados brutos da sequência. Medidas com cristalografia de raios-X, as estruturas atômicas das proteínas artificiais pareciam exatamente como deveriam, embora as sequências fossem como nada visto antes.
A Salesforce Research desenvolveu o ProGen em 2020, com base em um tipo de programação de linguagem natural que seus pesquisadores desenvolveram originalmente para gerar texto em inglês.
Eles sabiam de seu trabalho anterior que o sistema de IA poderia aprender a gramática e o significado das palavras, juntamente com outras regras subjacentes que tornam a escrita bem composta.
“Quando você treina modelos baseados em sequência com muitos dados, eles são realmente poderosos no aprendizado de estruturas e regras”, disse Nikhil Naik, PhD, diretor de pesquisa de IA da Salesforce Research e autor sênior do artigo. “Eles aprendem quais palavras podem co-ocorrer e também a composicionalidade.”
Com proteínas, as opções de design eram quase ilimitadas. As lisozimas são pequenas como proteínas, com até cerca de 300 aminoácidos. Mas com 20 aminoácidos possíveis, há um número enorme (20 300 ) de combinações possíveis. Isso é maior do que pegar todos os humanos que viveram ao longo do tempo, multiplicados pelo número de grãos de areia na Terra, multiplicados pelo número de átomos no universo.
Dadas as possibilidades ilimitadas, é notável que o modelo possa gerar enzimas funcionais com tanta facilidade.
“A capacidade de gerar proteínas funcionais a partir do zero demonstra que estamos entrando em uma nova era de design de proteínas”, disse Ali Madani, PhD, fundador da Profluent Bio, ex-cientista da Salesforce Research, e o autor do jornal primeiro autor. “Esta é uma nova ferramenta versátil disponível para engenheiros de proteínas, e estamos ansiosos para ver as aplicações terapêuticas”.
Mais informações: https://github.com/salesforce/progen
Fonte da história:
Materiais fornecidos pela University of California – San Francisco. Original escrito por Laura Kurtzman.
Referência do periódico :
Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos, Caiming Xiong, Zachary Z. Sun, Richard Socher, James S. Fraser, Nikhil Naik. Large language models generate functional protein sequences across diverse families. Nature Biotechnology, 2023; DOI: 10.1038/s41587-022-01618-2