diff options
author | Nicolas Peugnet <n.peugnet@free.fr> | 2021-11-10 14:48:06 +0100 |
---|---|---|
committer | GitHub <noreply@github.com> | 2021-11-10 14:48:06 +0100 |
commit | ce8a647fa3c0613e501b8ff9f8b10499fcd4fe2f (patch) | |
tree | 40b16a9d8c30a559c3ca6c0f109a572325d1b23b | |
parent | 983542ff2ce92d0edcfb8410d868ded26be35ee8 (diff) | |
parent | 7fe30b10492c2c48a6163484e69e19cae967dbe2 (diff) | |
download | dna-backup-ce8a647fa3c0613e501b8ff9f8b10499fcd4fe2f.tar.gz dna-backup-ce8a647fa3c0613e501b8ff9f8b10499fcd4fe2f.zip |
Merge pull request #7 from LeilaRenard/patch-1
modifs partie bio intro
-rw-r--r-- | pdf/doc.tex | 23 |
1 files changed, 12 insertions, 11 deletions
diff --git a/pdf/doc.tex b/pdf/doc.tex index d06580e..a475bdf 100644 --- a/pdf/doc.tex +++ b/pdf/doc.tex @@ -168,23 +168,24 @@ et d'autres systèmes de fichiers, comme \erofs, sont même entièrement basés \section{Stocker des données sur ADN} -L’\ac{adn} ou Acide DésoxyriboNucléique d’un organisme, constitue ce qu’on appelle le génome. -Le génome contient l’information génétique d’un organisme. L’\ac{adn} contient donc une information. -Cette information est codée sous la forme d’une suite de \emph{nucléotides}. -Un nucléotide est une molécule organique qui est l’élément de base de l’\ac{adn}. -Il existe quatre nucléotides différents qui sont représentés par quatre lettres : \textbf{A} pour Adénine, \textbf{C} pour Cytosine, \textbf{G} pour Guanine et \textbf{T} pour Thymine. -Nous pouvons voir directement le parallèle que nous pouvons faire entre l’\ac{adn} qui est une suite de nucléotides en base~4 et une donnée informatique qui est une suite de bits en base~2. +L'information génétique des organismes vivants a pour support l'\ac{adn} (Acide DésoxyriboNucléique), et l'ensemble du matériel génétique d'un organisme constitue son génome. +L'\ac{adn} est codé sous la forme d'une suite de molécules organiques que sont les \emph{nucléotides}. +Il existe quatre nucléotides différents, représentés par quatre lettres : \textbf{A} pour Adénine, \textbf{T} pour Thymine, \textbf{G} pour Guanine, et \textbf{C} pour Cytosine. +Les nucléotides s'associent deux à deux pour former un double brin d'\ac{adn}. +Ainsi, l'Adénine est appariée à la Thymine, et la Guanine à la Cytosine. +Chaque brin d'\ac{adn} est alors complémentaire de l'autre. -Il est donc naturel de penser à utiliser l’\ac{adn} pour stocker des données -et un certain nombre de démonstrations de faisabilité du stockage sur l’\ac{adn} ont été réalisées lors des dernières années. -Les travaux publiés pour l’instant se basent essentiellement sur l’utilisation d’\emph{oligonucléotides} qui sont des courts segments d’\ac{adn}. +Il est donc possible d'établir un parallèle entre l'information génétique, codée par les 4 nucléotides formant l'\ac{adn}, en base~4, et la donnée informatique, codée par une suite de bits en base~2. + +Plusieurs démonstrations de faisabilité du stockage sur l’\ac{adn} ont déjà été réalisées ces dernières années. +Les travaux publiés pour l’instant se basent essentiellement sur l’utilisation d’\emph{oligonucléotides}, qui sont des courts segments d’\ac{adn} contenant quelques dizaines de nucléotides. \subsection{Encodages} Les premières démonstrations significatives sur l’utilisation de ces oligonucléotides pour stocker des données remontent à seulement 2012 avec George Church~\cite{church2012next} qui réussit à stocker 658~ko sur \numprint{54898} oligonucléotides. Dans ses travaux, Church souhaite pouvoir contrôler le taux de GC et limiter les répétitions d’un même nucléotide. Le taux de GC est la proportion de nucléotides G et C dans une séquence donnée. -Les appariements GC ont trois liaisons hydrogène tandis que les appariements AT n'en ont que deux. +Les appariements GC sont formées par trois liaisons hydrogène tandis que les appariements AT n'en ont que deux, les rendant moins stables. Un taux de GC élevé assure ainsi une meilleure stabilité, mais un taux trop élevé peut provoquer une autolyse (autodestruction) plus facilement. Il est donc préférable d’avoir un taux de GC équilibré. En ce qui concerne les longues répétitions d’un même nucléotide, elles produisent des erreurs lors du séquençage. @@ -355,7 +356,7 @@ La difficulté principale était donc de réussir à implémenter cette fonction La proposition qui suit s'inscrit dans le cadre d'une réponse à court terme au problème posé. Nous avons choisi de ne pas nous projeter trop loin dans le temps et avons donc basé l'ensemble de la réflexion sur les capacités actuelles des technologies de synthèse et de séquençage \ac{adn}. -L'objectif principal du système d'archivage de fichiers proposé est de réduire la quantité de données écrites, tout minimisant la quantité de données à lire pour récupérer les données. +L'objectif principal du système d'archivage de fichiers proposé est de réduire la quantité de données écrites, tout en minimisant la quantité de données à lire pour récupérer les données. Toutes les contraintes citées précédemment nous ont incité % TODO: j'aime bof ce mot à nous orienter vers un système de sauvegardes plutôt que vers un véritable système de fichiers. |