Científicos argentinos estudian cómo un ChatGPT podría entender el ‘lenguaje’ de las proteínas y el ARN

Publicado 28 julio, 2023 | Salud

El grupo de investigadores plantea que el “aprendizaje por transferencia” puede ser la solución para que los sistemas de Inteligencia Artificial (IA), que funcionan muy bien para interpretar textos, puedan analizar los diversos patrones de secuencias biológicas para establecer relaciones entre ellos y las funciones que cumplen.

Así como la inteligencia artificial (IA) es buena para interpretar textos del lenguaje humano, también puede entrenarse para “leer” secuencias de ADN, ARN y proteínas, lo cual podría tener implicancias en medicina y en producción agrícola, aseguran científicos argentinos.

Los sistemas de IA como ChatGPT constan, de manera simplificada, de dos grandes componentes: uno, que llevan adelante Grandes Modelos del Lenguaje (o LLM, por sus siglas en inglés), es decir, redes neuronales capaces de leer, traducir y resumir textos; y otro, que consiste en un sistema que genera una devolución a partir de lo que entiende la primera fase. Con esto en mente, un grupo de investigadores del CONICET en el Instituto de Investigación en Señales, Sistemas e Inteligencia Artificial (“sinc(i)”) de Santa Fe, que depende también de la Universidad Nacional del Litoral, busca obtener modelos que utilicen de forma más eficiente los LLM existentes, e incluso diseñar nuevos, para resolver desafíos abiertos en el campo de las secuencias biológicas.

“A diferencia de nuestro lenguaje, que tiene un orden jerárquico explícito (letras, sílabas, palabras y oraciones), el de las secuencias biológicas no es tan evidente, pero sí podemos encontrar patrones y jerarquías”, explicó a la Agencia CyTA-Leloir el doctor y bioingeniero Leandro Bugnon, autor principal de un artículo de opinión publicado en la revista Patterns. Y añadió: “Al identificar patrones en este ‘lenguaje de la vida’ podemos establecer relaciones entre ellos y las funciones biológicas que cumplen y, con esa información, se podrán acelerar los desarrollos de nuevos tratamientos médicos contra el cáncer y vacunas, o adaptar una planta para que sea inmune a ciertas plagas”.

Todos los seres vivos están codificados en un llamado “lenguaje de la vida” compuesto por secuencias biológicas de ADN, ARN y proteínas, que se pueden leer como si fuera texto a partir del listado de los 20 aminoácidos que conforman a estas últimas o de las letras que corresponden a los nucleótidos, componentes básicos del ARN (Adenina, Citosina, Guanina y Timina o Uracilo), como “AAAGCUUUG”.

“En la actualidad hay una gran cantidad de datos de secuencias biológicas generados por experimentos y centralizados en bases de datos públicas. Pero lo que suele suceder es que, para resolver un problema concreto, como identificar a qué familia pertenece una nueva proteína y qué funciones cumple, se requiere de la validación de expertos del dominio, un proceso que puede llevar años. O sea, es mucho más lento que la velocidad a la que se generan los datos”, graficó Bugnon. Así, solo una poca información de toda la que se obtiene está etiquetada con referencias validadas.

Para resolver esta situación, Bugnon y sus colegas plantean el uso de un proceso que se conoce como “aprendizaje por transferencia”, según el cual los LLM pueden aprender automáticamente patrones de los datos sin etiquetado humano, a los que luego hay que adaptar a tareas específicas para las que no fueron entrenados originalmente. En este sentido, para el problema de la clasificación de proteínas en familias desarrollaron en el sinc(i) una red neuronal artificial que toma como entrada una secuencia, encuentra patrones con un LLM entrenado en grandes conjuntos de datos de proteínas, y luego aprende de estos patrones para asignar la familia que le corresponde en un conjunto de datos más pequeño, explican en el artículo.

“Al aplicar estos LLM, incluso utilizando sistemas de clasificación sencillos, logramos muy buenos resultados, con hasta un 40% menos de errores que los que obtienen otros grupos internacionales con redes neuronales más complejas”, aseguró. Y aclaró que entrenar LLM es costoso computacionalmente, ya que requiere de varios días de cómputo con equipamiento especial (“unidades de procesamiento gráfico” o GPUs de gran capacidad). “En nuestro trabajo utilizamos como punto de partida un LLM que fue liberado públicamente por Facebook Research y que es accesible para cualquiera que lo quiera usar”, dijo.

El desafío del ARN

El ARN codifica información sólo con 4 letras, por lo que los patrones son menos evidentes y más difíciles de encontrar que los de las proteínas. “Estamos particularmente interesados en el ARN no codificante que, a diferencia del ARN mensajero, no se traduce en una proteína: son secuencias que se pliegan en estructuras específicas y cumplen diversas funciones biológicas”, señaló Bugnon. Y explicó que conocer esa estructura experimentalmente es muy costoso, por lo que se utilizan métodos computacionales para predecirla.

“Como existen muy pocas secuencias con estructuras conocidas, una de nuestras hipótesis de trabajo es que podemos desarrollar un LLM específico para ARN, que sería como un ChatGPT pero para descubrir nuevas funciones en el ARN no codificante y así poder ayudar a curar enfermedades o a mejorar plantas”, finalizó Bugnon.

Fuente: Agencia CyTA-Leloir

Twittear
Compartir
Pin


  • Inicio
  • Programación
  • La Radio
  • El Clima
  • Contacto
  • Bearbrick888 Buku mimpi akun pro jepang link slot gacor luar negri slot paling gacor 2023 akun pro jepang link slot gacor luar negri akun pro thailand buku mimpi situs togel singapore togel cc daftar situs togel terpercaya togel dan slot situs togel terlengkap togel pulsa togel dana togel terpercaya togel bet 100 perak link alternatif sbobet sbobet link judi bola terpercaya situs judi bola resmi agen situs bola terpercaya agen bola terpercaya bandar judi terbesar didunia situs judi bola situs judi bola terbesar link situs judi bola agenresmi sbobet daftar link slot gacor deposit pulsa agen slot gacor deposit pulsa gacoan88 erek erek link slot gacor maxwin slot pulsa tanpa potongan slot deposit bri slot gacor deposit dana situs togel terpercaya via pulsa situs togel terpercaya no 1 agen sbobet deposit dana cheat slot link alternatif situs slot online gacor daftar situs bola terbesar asia99 gacor96 maxwin138

 

facebook fmyancalla1003@yahoo.es
Teléfono: 0634 442-3494
Dirección: Azcuenaga 411
Presidente Roque Sáenz Peña,
Chaco, Argentina
© Yancalla Radio 2025 - Todos los derechos reservados