1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
|
\documentclass[a4paper,twocolumn]{article}
% Set page dimentions
\usepackage[margin=22mm]{geometry}
% Packages for french documents
\usepackage[french]{babel} % latex rules for french words
\usepackage[utf8]{inputenc} % UTF-8 encoding for special chars
\usepackage[T1]{fontenc} % T1 font for smooth render of special chars
\DeclareUnicodeCharacter{202F}{~}
% Define some colors
\usepackage{color}
\definecolor{string}{RGB}{100, 200, 0}
\definecolor{comment}{RGB}{150, 150, 150}
\definecolor{identifier}{RGB}{100, 100, 200}
% Source code style
\usepackage{listings}
\lstset{
basicstyle=\footnotesize\ttfamily, % sets font style for the code
frame=single, % adds a frame around the code
showstringspaces=false, % underline spaces within strings
tabsize=4, % sets default tabsize to 2 spaces
breaklines=true, % sets automatic line breaking
breakatwhitespace=true, % sets if automatic breaks should only happen at whitespace
keywordstyle=\color{magenta}, % sets color for keywords
stringstyle=\color{string}, % sets color for strings
commentstyle=\color{comment}, % sets color for comments
emphstyle=\color{identifier}, % sets color for comments
}
% Hyperlinks
\usepackage[hyphens]{url}
\usepackage[hidelinks]{hyperref}
% Graphics
\usepackage{graphicx} % images and figures
\graphicspath{ {assets} } % path containing images
\usepackage{tikz} % to generate graphics
\usetikzlibrary{arrows.meta} % setup arrows
\usetikzlibrary{chains,decorations.pathreplacing} % tiks chains
\tikzstyle{Arrow}=[-{Stealth[scale=1.5]}]
% Complex tables
\usepackage{multirow,tabularx}
% Custom column types
\usepackage{array}
\newcolumntype{L}{>{\raggedright\arraybackslash}X} % Left-aligned auto-span columns
\newcolumntype{R}{>{\raggedleft\arraybackslash}X} % Right-aligned auto-span columns
% Directory tree
\usepackage{dirtree}
%--------------------------------------- Content ---------------------------------------%
\title{DNA-Backup}
\date{Octobre 2021}
\author{Nicolas Peugnet}
\begin{document}
\maketitle
\tableofcontents
\section{Situation}
Le DNA-drive et les techniques de stockages sur ADN dans leur ensemble ne permettent pas de supprimer des données une fois écrites.
Les lectures sont lentes et coûteuse, mais les écritures le sont encore plus.
\section{Problématique}
\section{Réponse}
\subsection{Présentation générale}
Le système part du principe qu'on a une copie des données stockées en
ADN sur un support de stockage classique : le \emph{repo} (Figure \ref{fig:big-picture}).
\begin{figure*}[ht]
\centering
\begin{tikzpicture}
\draw (0,0) node[anchor=south west] {Ordinateur} rectangle (8, 3.5) ;
\draw (.5,1) rectangle (3,3) node[midway] {Source};
\draw (5,1) rectangle (7.5,3) node[midway] {Repo};
\draw (10,1) rectangle (12.5,3) node[midway] {DNA-Drive};
\draw[Arrow] (3,2) -- (5,2) node[midway,below] {Commit};
\draw[Arrow] (7.5,2) -- (10,2) node[midway,below] {Synthèse};
\end{tikzpicture}
\caption{Schéma global}
\label{fig:big-picture}
\end{figure*}
La Figure \ref{fig:repo-dir-tree} montre la structure du \emph{repo}.
\begin{figure}
\dirtree{%
.1 repo/.
.2 00000/.
.3 chunks/.
.4 000000000000000.
.4 000000000000001.
.4 000000000000002.
.4 000000000000003.
.3 files.
.3 hashes.
.3 recipe.
.2 00001/.
.3 chunks/.
.4 000000000000000.
.4 000000000000001.
.3 files.
.3 hashes.
.3 recipe.
}
\caption{Organisation du \emph{repo}}
\label{fig:repo-dir-tree}
\end{figure}
Pour un repo d'une taille totale de 401 Mio :
\begin{table}
\begin{tabular}{l l r}
\verb|repo/00000/recipe| & 5076011 & 1.2\% \\
\verb|repo/00000/files| & 24664 & 0.1\% \\
\verb|repo/00000/hashes| & 3923672 & 0.9\% \\
\verb|repo/00000/chunks| & 412263137 & 97.8\% \\
\verb|repo/00000| & 421287604 & 100.0\% \\
\end{tabular}
\caption{Répartition des données d'une première version}
\label{fig:repo-data-distribution}
\end{table}
\begin{itemize}
\item
On considère que le \emph{repo} est toujours présent lors d'une
écriture (\emph{commit}).
\item
Le \emph{repo} peut être reconstruit à partir des données présentes
dans le \emph{DNA-Drive}.
\item
Les \emph{hashes} ne sont pas écrits en ADN, car ils peuvent être
reconstruits à partir des données des \emph{chunks}.
\item
L'ensemble des données écrites en ADN sont compressées, pour le moment
via \emph{ZLib}.
\item
Les métadonnées sont stockées de manière incrémentale, chaque version
stocke donc ses métadonnées sous la forme de delta par rapport à la
version précédente.
\end{itemize}
On imagine le \emph{DNA-Drive} comme un segment de \emph{pools} (Figure \ref{fig:data-layout})
\begin{figure}[ht]
\centering
\begin{tikzpicture}[
start chain = going right,
node distance = 0,
Box/.style={draw, minimum width=2em, minimum height=2em, outer sep=0, on chain},
Brace/.style={decorate,decoration={brace, amplitude=1em, raise=.5em, mirror}}
]
\node[Box] (p0) {$0$};
\node[Box] (p1) {$1$};
\node[Box] (p2) {$2$};
\node[Box] (p3) {$3$};
\node[Box] (p4) {$4$};
\node[Box,minimum width=6em] (ellipsis) {$\cdots$};
\node[Box] (p93) {$93$};
\node[Box] (p94) {$94$};
\node[Box] (p95) {$95$};
\draw[Arrow] (p4.east) to +(2em,0);
\draw[Arrow] (p93.west) to +(-2em,0);
\node (ver) at (0,-3.2em) {version};
\draw[->] (p0.south) to (ver);
\draw[Brace] (p1.south west) to node[black,midway,below=1.5em] {chunks} (p4.south east);
\draw[Brace] (p93.south west) to node[black,midway,below=1.5em,align=center] {metadata\\(recipe+files)} (p95.south east);
\end{tikzpicture}
\caption{Disposition des données}
\label{fig:data-layout}
\end{figure}
\subsection{Algorithme du commit}
\begin{enumerate}
\item
Chargement des métadonnées du \emph{repo} afin de reconstruire en
mémoire l'état de la dernière version :
\begin{itemize}
\item
Reconstruction de la \emph{recipe} à partir des deltas de chaque
version.
\item
Reconstruction du listage des fichiers à partir des deltas de chaque
version (fichier \emph{files}).
\item
Reconstruction en mémoire des \emph{maps} de \emph{fingerprints} et
de \emph{sketches} à partir des fichiers \emph{hashes} de chaque
version.
\end{itemize}
\item
Listage des fichiers de la \emph{source}.
\item
Concaténation de l'ensemble des fichiers de la source en un disque
virtuel continu.
\item
Lecture du \emph{stream} de ce disque virtuel et découpage en
\emph{chunk} (de 8 Kio actuellement).
\item
Pour chaque \emph{chunk} du \emph{stream} :
\begin{enumerate}
\item
Calculer sa \emph{fingerprint} (hash classique), si elle est
présente dans la \emph{map} : le stocker de manière dé-dupliquée
(sous la forme d'identifiant faisant référence au \emph{chunk}
trouvé dans la map).
\item
Sinon, calculer son \emph{sketch} (hash de ressemblance), s'il est
présent dans la \emph{map}, le stocker sous la forme de delta
(calcul de sa différence par rapport au \emph{chunk} trouvé dans la
map).
\item
Sinon, le stocker sous la forme de nouveau bloc (ajout de sa
\emph{fingerprint} et de son \emph{sketch} dans les \emph{maps} et
stockage du contenu complet dans un nouveau \emph{chunk}).
\end{enumerate}
\item
Calcul des différences entre la nouvelle version et la précédente pour
les métadonnées (\emph{files} et \emph{recipe}) et stockage des deltas
ainsi obtenus.
\end{enumerate}
\subsection{Algorithme du restore}
\begin{enumerate}
\item
Chargement des métadonnées du \emph{repo} afin de reconstruire en
mémoire l'état de la dernière version :
\begin{itemize}
\item
Reconstruction de la \emph{recipe} à partir des deltas de chaque
version.
\item
Reconstruction du listage des fichiers à partir des deltas de chaque
version.
\end{itemize}
\item
À partir de la \emph{recipe}, reconstruire le disque virtuel (sous la
forme d'un \emph{stream}).
\item
Découper ce \emph{stream} en fonction du listage des fichiers
(\emph{files}) et réécrire les données dans les fichiers
correspondants dans le répertoire \emph{destination}.
\end{enumerate}
\subsection{\texorpdfstring{Restaurer sans le
\emph{repo}}{Restaurer sans le repo}}
\subsubsection{\texorpdfstring{Reconstruction complète du
\emph{repo}}{Reconstruction complète du repo}}
Il est possible de reconstruire le \emph{repo} en entier en lisant la
totalité du \emph{DNA-Drive}.
\subsubsection{Restauration de la dernière
version}
Il est possible de ne restaurer que la dernière version en lisant dans
un premier temps le \emph{pool} de versions et les quelques \emph{pools}
de métadonnées (environ 2\% de la totalité des données écrites), puis en
lisant tous les \emph{pools} contenant des \emph{chunks} référencés par
la \emph{recipe} de cette version.
\subsubsection{Restauration d'un seul
fichier}
Il pourrait être possible (pas pour le moment) de ne restaurer qu'un
seul fichier d'une version en ayant moins de données à lire que pour
restaurer la version complète.
Pour cela, il faudrait en plus stocker en ADN un mapping \emph{chunk}
décompressé → \emph{pool} contenant ce \emph{chunk} et ainsi n'avoir à
lire que les \emph{pools} contenant des \emph{chunks} de ce fichier.
\section{Évaluation de performances}
Le dossier \verb|exp| contient les scripts permettant de reproduire
les expériences. Les scripts ne sont prévus pour fonctionner que sur
Linux.
On utilise le dépôt Git du noyau Linux comme base de donnée de test. Il
s'agit en effet d'une bonne simulation de modification de dossiers, car
l'historique contient toutes les modifications qui ont été apportées
petit à petit à l'ensemble des fichiers.
\subsection{Bases de comparaison}
Pour évaluer les performances du système DNA-Backup, quatre autres
systèmes de stockage versionnés ont été choisis comme base de
comparaison :
\begin{itemize}
\item
\textbf{Git diffs}
\item
\textbf{Git objects}
\item
\textbf{Targz}
\item
\textbf{Taille réelle}
\end{itemize}
\subsubsection{Git diffs}
Ce système utilise le delta généré par la commande \verb|git diff|
pour sauvegarder une nouvelle version. Les données à stocker consistent
donc en une somme de deltas. Pour restaurer les données, il faut
appliquer séquentiellement l'ensemble des deltas jusqu'à obtenir l'état
de la version voulue.
\subsubsection{Git objects}
Ce système nous permet de simuler un système de fichier qui ne serait
pas autorisé à modifier des données sur le support tout en gardant la
possibilité de modifier les données. Il s'agit de la manière dont Git
sauvegarde les données des fichiers d'un dépôt. Le contenu de chaque
fichier et de chaque dossier est hashé afin d'en obtenir une signature.
Il est ensuite compressé et stocké sous la forme d'\emph{object}
immuable, référencé par la signature obtenue. Si un fichier est modifié,
il produira une signature différente et sera donc stocké sous la forme
d'un nouvel \emph{object}. Par contre, si deux fichiers ont un contenu
strictement identique, ils produiront alors la même signature et seront
donc automatiquement dé-dupliqués. Les dossiers sont également stockés
en tant qu'\emph{objects}, mais les fichiers qu'ils contiennent sont
référencés non pas par leur nom, mais par leur signature. La
modification d'un fichier entrainera donc l'ajout de nouveaux
\emph{objects} pour l'ensemble des dossiers de la branche contenant ce
fichier. C'est de cette manière que Git est capable de créer un système
de fichiers modifiable à partir d'objets immuables.
\subsubsection{Targz}
Une technique d'archivage assez classique à laquelle il peut être
intéressant de nous comparer est de stocker chaque version en tant
qu'une nouvelle archive Tar elle-même compressée à l'aide de Gzip. Cette
technique produit des archives d'une taille très réduite, car la
compression est appliquée à l'ensemble des fichiers d'un seul coup,
contrairement à une compression fichier par fichier.
Elle a cependant l'inconvénient de ne pas faire de dé-duplication ni
d'encodage delta, et ne tire donc pas du tout parti des données déjà
écrites sur le support.
\subsubsection{Taille réelle}
Cette base de comparaison n'est en réalité pas un système viable. Elle
correspond à la taille que prend en réalité le dossier \emph{source} au
moment de la sauvegarde. C'est un indicateur qui permet de se rendre
compte du poids que prendrait la sauvegarde de multiples versions sans
aucune déduplication ou compression.
\subsubsection{Tableau récapitulatif}
\begin{table*}[ht]
\begin{tabularx}{\textwidth}{L|L|L|L|L|L}
\textbf{Feature} &
\textbf{DNA-Backup} &
\textbf{Git diffs} &
\textbf{Git objects} &
\textbf{Targz} &
\textbf{Taille réelle} \\
\hline
\multirow{2}{*}{Déduplication} &
Niveau chunk &
\multirow{2}{*}{N/A} &
Niveau fichier &
\multirow{2}{*}{N/A} &
\multirow{2}{*}{N/A} \\ \cline{2-2} \cline{4-4}
& Transversal aux versions & & Transversal aux versions & \\
\hline
\multirow{2}{*}{Delta-encoding} &
Niveau chunk &
Niveau version &
\multirow{2}{*}{N/A} &
\multirow{2}{*}{N/A} &
\multirow{2}{*}{N/A} \\ \cline{2-3}
& Transversal aux versions & Par rapport à la précédente & & \\
\hline
Compression &
Niveau chunk &
Niveau version &
Niveau fichier &
Niveau version &
N/A \\
\hline
Restauration de la dernière version &
Lecture des métadonnées puis des chunks de cette version (répartis dans différents pools) &
Lecture de la totalité du DNA-Drive &
Lecture récursive des différents objets composant la version (répartis dans différents pools) &
Lecture de la zone correspondant à la dernière version &
Lecture de la zone correspondant à la dernière version \\
\end{tabularx}
\caption{Tableau récapitulatif}
\label{tab:recap-table}
\end{table*}
\subsection{Nombre d'octets par version}
\subsubsection{Légende}
\begin{itemize}
\item
\verb|4k_export| : le système DNA-Backup avec des blocs de 4 Kio.
\item
\verb|8k_export| : le système DNA-Backup avec des blocs de 8 Kio.
\item
\verb|diffs| : une somme de diffs Git minimales Gzippées.
\item
\verb|nopack| : le dossier `objects de Git, contenant l'ensemble des
données des fichiers et dossiers d'un dépôt.
\item
\verb|targz| : une somme d'archives Tar Gzippées.
\item
\verb|real| : le poids réel de chaque version et donc l'espace
nécessaire à stocker l'ensemble des versions de manière
non-dé-dupliquées.
\end{itemize}
\subsubsection{Résultats}
\begin{table*}[ht]
\centering
\begin{tabularx}{\textwidth}{RRRRRRRR}
\textbf{Repo 4k} &
\textbf{Repo 8k} &
\textbf{DNA 4k} &
\textbf{DNA 8k} &
\textbf{Git diffs} &
\textbf{Git repo} &
\textbf{Tar.gz} &
\textbf{Real size} \\
\hline
\input{assets/summary.daily.5.tex}
\end{tabularx}
\caption{Commits journaliers}
\label{tab:commits-daily}
\end{table*}
\begin{table*}[ht]
\begin{verbatim}
=============================== SUMMARY ===============================
4k_export 8k_export diffs nopack targz real
46,086,660 46,003,020 47,003,541 63,221,563 47,569,933 201,420,809
701,760 820,080 395,080 6,358,050 47,723,749 202,065,875
6,293,400 7,983,540 2,994,599 25,581,925 48,700,415 206,003,757
206,040 109,140 407 50,815 48,700,637 206,003,795
225,420 142,800 8,679 401,381 48,698,820 206,005,265
1,299,480 1,707,480 579,422 6,943,222 48,733,791 206,098,060
952,680 1,248,480 360,710 4,799,958 48,840,759 206,648,359
1,425,960 1,831,920 738,359 4,983,831 48,892,096 206,834,840
1,770,720 2,091,000 1,389,502 7,767,439 49,297,747 209,328,856
479,400 727,260 146,129 2,899,286 49,331,055 209,479,362
168,300 235,620 47,436 1,385,568 49,333,845 209,503,564
134,640 236,640 37,183 1,808,603 49,338,373 209,509,777
90,780 122,400 23,924 1,555,868 49,336,559 209,515,352
3,088,560 3,953,520 1,404,256 11,037,484 49,933,159 211,878,380
4,987,800 6,165,900 2,326,692 17,577,030 50,214,110 212,941,025
993,480 1,378,020 304,617 6,594,520 50,293,382 213,254,405
684,420 900,660 258,512 4,016,395 50,398,489 213,650,745
================================ TOTAL ================================
69,589,500 75,657,480 58,019,048 166,982,938 835,336,919 3,540,142,226
\end{verbatim}
\caption{Commits hebdomadaires}
\label{tab:commits-weekly}
\end{table*}
\begin{table*}[ht]
\begin{verbatim}
=============================== SUMMARY ===============================
4k_export 8k_export diffs nopack targz real
47,297,400 47,244,360 48,249,466 64,900,653 48,828,605 206,662,692
1,822,740 1,938,000 1,495,969 7,407,714 48,900,735 206,964,143
1,525,920 1,808,460 797,390 9,856,043 49,326,511 209,515,646
8,047,800 9,840,960 4,142,700 28,400,251 50,394,403 213,653,996
10,730,400 13,230,420 5,489,832 34,132,686 51,315,648 217,862,957
5,786,460 6,936,000 2,262,584 19,233,445 51,941,615 220,756,834
7,816,260 10,320,360 2,999,817 28,983,950 52,574,107 223,306,219
1,210,740 1,643,220 299,628 8,343,393 52,587,994 223,373,786
11,002,740 13,589,460 4,759,088 34,259,652 53,210,823 226,113,059
1,819,680 2,399,040 679,794 10,029,012 53,165,063 225,781,616
622,200 858,840 138,547 4,375,159 53,183,197 225,870,650
12,874,440 16,493,400 5,142,691 45,544,733 53,842,821 228,546,001
1,169,940 1,591,200 247,526 8,491,133 53,876,401 228,653,615
5,631,420 6,589,200 2,333,317 18,119,613 54,605,555 232,014,492
9,988,860 12,876,480 3,989,065 37,945,661 55,206,806 234,571,285
10,659,000 13,416,060 3,800,775 37,509,079 56,059,067 238,170,923
8,796,480 11,079,240 3,030,148 32,387,325 56,716,443 241,420,002
================================ TOTAL ================================
146,802,480 171,854,700 89,858,337 429,919,502 895,735,794 3,803,237,916
\end{verbatim}
\caption{Commits Mensuels}
\label{tab:commits-monthly}
\end{table*}
\end{document}
|