Vivant
- Santé, Médecine et Sciences du Vivant
- Biologie & Biochimie
Vers une conception de nouvelles protéines par apprentissage statistique
- Tweeter
-
-
0 avis :
Au cours de l'évolution, les protéines explorent l'espace des séquences fonctionnelles. L'interaction entre mutations aléatoires du génome et sélection naturelle des organismes a permis l’apparition de milliers de protéines ayant des séquences d'acides aminés distinctes, mais des fonctions biologiques ou des structures tridimensionnelles équivalentes. Grâce aux techniques modernes de séquençage des génomes, de plus en plus de ces séquences sont connues. La base de données Uniprot rassemble, par exemple, plus de 200 millions de séquences distinctes, mais seulement environ 0,25 % de ces séquences ont une structure ou une fonction connue expérimentalement.
Les approches informatiques basées sur la science des données, la physique statistique et/ou l'intelligence artificielle gagnent rapidement en importance pour explorer cette richesse croissante de données et en extraire des informations biologiques. Récemment, un exemple impressionnant a été donné par AlphaFold soutenu par Google Deepmind, qui arrive à prédire les structures des protéines à partir des séquences avec une précision sans précédent. Dans ce contexte, les modèles dits "génératifs" suscitent également un intérêt croissant, de par leur capacité à générer de manière computationnelle des séquences artificielles d'acides aminés statistiquement équivalentes à leurs homologues naturels. Il a récemment été démontré que la modélisation générative offre un nouveau paradigme pour concevoir et optimiser de nouvelles protéines en utilisant les bases de données existantes, avec des enjeux économiques importants.
Une équipe de recherche de l’Institut de biologie Paris-Seine (IBPS – Sorbonne Université/CNRS) dirigée par Martin Weigt, enseignant-chercheur à Sorbonne Université, a proposé, en collaboration avec des chercheurs du Laboratoire de physique de l’ENS (LPENS, École normale supérieure/CNRS/SU/Université de Paris) et de l’École Polytechnique de Turin, une nouvelle méthode plus performante pour l’apprentissage de modèles génératifs. Cette approche dite "autorégressive", proche de familles connues de protéines et de leurs séquences pour ajuster un modèle statistique, permet à la fois de proposer de nouvelles séquences protéiques et de donner des informations sur la structure et la fonction des protéines associées.
Grâce à son efficacité, cette méthode peut être utilisée sur des milliers de familles de protéines, y compris celles ayant de très longues séquences. Elle permet de générer et d’évaluer de nouvelles séquences, qui n’ont jamais été trouvées dans la nature auparavant. Selon l’équipe de chercheurs, ces séquences artificielles seront importantes pour l'optimisation et la conception de grandes protéines de fonctionnalité donnée (par exemple, des enzymes efficaces et thermostables), question où la recherche fondamentale rejoint des enjeux technologiques et biomédicaux.
Article rédigé par Georges Simmonds pour RT Flash
Noter cet article :
Vous serez certainement intéressé par ces articles :
Maladie d’Alzheimer : réduire le gène APOE4 au silence...
Cette étude des chercheurs des Gladstone Institutes (San Francisco) centrée sur le plus grand facteur de risque génétique de la maladie d’Alzheimer, la variante du gène ApoE4, révèle une toute ...
Le régime MIND semble réduire le vieillissement physique et cognitif
Une étude de l'Université Columbia à New York suggère qu'une alimentation saine peut ralentir les effets du vieillissement sur le corps humain, y compris sur le cerveau. Pour cette étude, les ...
Cicatriser plus vite avec un hydrogel peptidique
Cicatriser plus rapidement est devenu un objectif prioritaire avec la hausse de prévalence des plaies chroniques, ou à retard de cicatrisation, une évolution liée à la fois au vieillissement des ...
Recommander cet article :
- Nombre de consultations : 0
- Publié dans : Biologie & Biochimie
- Partager :