Na czym opierają się 3 fundamentalne etapy deduplikacji plików?

Proces deduplikacji plików informatycznych, to eliminowanie powtarzających się danych i może odbyć się na trzech najważniejszych poziomach: bajtu, bloków i plików. Każdy z tych poziomów przedstawia inny rodzaj fragmentu danych.


Są one następnie za pomocą systemu kontrolowane na wypadek występowania powtórzeń. Do generowania unikalnych identyfikatorów wykorzystywany jest wzorzec funkcji skrótu. Dotyczy to każdej poddanej analizie części danych. Wspomniane identyfikatory składowane są w indeksie, a potem stosowane są podczas procesu deduplikacji. Naturalnie zduplikowane fragmenty posiadają takie same identyfikatory funkcji skrótu. W teorii im dokładniejsza jest analiza, to tym wyższy jest współczynnik deduplikacji. W praktyce jednak wszystkie wymienione poziomy zawsze mają swe wady i zalety. Dla przykładu deduplikacja na szczeblu plików jest w każdym przypadku najprostsza do wdrożenia.


PIT




efekty


Co istotne, taka postać deduplikacji nie jest zbyt "męcząca" dla serwera, ponieważ generowanie funkcji skrótu jest relatywnie szybkie.

Zaciekawił Cię nasz opis? Jeżeli tak, to fantastycznie - dalsze newsy (http://www.account-pl.eu/publikacje/pelna-ksiegowosc-czy-uproszczona-ksiegowosc) odkryjesz w kolejnym niebywale ciekawym tekście.

Niestety wadą takiej operacji jest to, że jeśli dany plik będzie w jakikolwiek sposób zmieniony, to przekształca się także identyfikator funkcji skrótu. W rezultacie obydwie wersje plików będą na serwerze zamieszczone. Deduplikacja na poziomie bloków polega naturalnie na porównywaniu bloków danych.

Nie ociągaj się - naciśnij ten link rebranding i raduj się opublikowanymi tam kolejnymi postami. Na pewno poszerzą one Twą znajomość rzeczy na powyższy temat.

Może wymagać ona większej mocy obliczeniowej. Analogicznej mocy wymaga deduplikacja na szczeblu bajtów. Jest to w pewnej mierze w najwyższym stopniu prymitywny sposób porównywania danych.


Wykonuje się to, jak jego nazwa sugeruje, bajt po bajcie. Wykonywana w taki sposób analiza jest oczywiście niezwykle dokładna. Jakimś mankamentem mógłby być czas trwania takiego typu deduplikacji.

Opublikowany przez Administrator w dniu 2018-05-08 15:16:28
Tagi: wynik, czas, części, pomoc, sposób