Пошкодження і втрата даних

Основні причини втрати цифрових даних

Звичайно ж, ми говоримо не про втрату дисків Blue-Ray у дорозі або у вогні: ці типи втрат подібні до типів втрат звичайних паперових відбитків або негативів*. Ми говоримо про проблеми з так званими «новими носіями».

Проблеми з цифровими даними можна на загальному рівні категоризувати за таким областями:

  • фізична деградація носія (всі носії з часом деградують, відмінність полягає лише у часі, який для цього потрібен).

  • невиявлені помилки під час перенесення даних.

  • відсутність підтримки застарілих, пропрієтарних цифрових форматів.

  • застаріле апаратне забезпечення (обладнання).

Kroll Ontrack, найбільша у світі компанія, яка займається відновленням даних, зібрала цікаві статистичні дані щодо причин втрати даних.

Причина втрати даних

Сприйняття

Реальність

Апаратна або системна проблема

78%

56%

Людська помилка

11%

26%

Пошкодження або проблеми, спричинені програмами

7%

9%

Комп’ютерні віруси

2%

4%

Стихійне лихо

1-2%

1-2%

Проаналізуймо ці випадки крок за кроком.

Псування носія даних

Пристрої з наведеного нижче списку упорядковано за швидкістю доступу до даних, від найповільніших до швидших.

Магнітні носії

У системах роботи з резервними копіями використовуються магнітні стрічки, здебільшого у професійних середовищах, а не в домашніх умовах. У стрічок є проблеми зі зберіганням даних та можливою зміною технології запису та читання, але у одному аспекті стрічки кращі за оптичні диски: їх важче подряпати, забруднити, вони менше страждають від дефектів запису. З іншого боку, стрічки дуже чутливі до магнітних полів. Варто піднести потужний магніт до касети зі стрічкою і дані буде пошкоджено! Повторне копіювання стрічок слід виконувати кожні 5-8 років, інакше кількість пошкоджених бітів переросте порогове значення кількості бітів, які можна виправити за допомогою контрольних сум. Недоліками магнітних стрічок є вартість запису та час відновлення з резервної копії (у 20 разів довше за відновлення з жорсткого диска). Найкращі дні систем резервного копіювання, заснованих на магнітних стрічках вже у минулому.

Оптичні диски

Фізична деградація носія в середньому відбувається набагато швидше для паперу та компакт-дисків, ніж для плівки. Але, хоча плівка і довше зберігає свої якості (іноді на десятиріччя довше) за інші носії знімків, належне створення резервних копій цифрових даних надає змогу взагалі запобігти будь-яким втратам. Плівка деградує, а цифрові нулики та одинички — ні, і плівка починає деградувати одразу після створення знімка і його проявлення. Вона вже ніколи не матиме того кольору, контрастності та інших властивостей, які мала на початку. Цифрові ж дані завжди залишатимуться тими самими. Але і цифрові дані можна пошкодити! Так, фізичні носії цифрових даних, зокрема дискети та магнітні жорсткі диски також страждають від деградації, так само як і компакт-диски. Просто ця деградація є тривалішою.

Щоб усунути проблему деградації оптичних носіїв даних, з цими носіями слід поводитися обережно, не слід довіряти їм дані довше, ніж на кілька років. На щастя, ви можете придбати якісні компакт-диски або DVD, які служитимуть довше, хоча дістати їх складніше за звичайні, крім того, вони дорожчі. Фірми-виробники можуть запропонувати вам оптичний носій з золотим покриттям, $2 долари за штуку, термін зберігання даних на яких складає 100 років (якщо ви цьому вірите).

Оптичні диски можуть стати непридатними для читання, але ви можете зменшити ризик, якщо використовуватимете якісні диски та якісний пристрій для їх запису і зберігатимете їх належним чином. Найкращі пристрої запису оптичних дисків не набагато дорожчі за найдешевші, але вони записують дані набагато надійніше. Питання надійності — це питання вибору правильного носія і правильного пристрою запису.

Загалом кажучи, оптичні диски дуже вразливі до помилок, навіть у щойно записаному стані. Ось чому дані на них захищено потужними механізмами перевірки контрольних сум (75% даних є самими даними, а решту запису складають дані форматування та контрольних сум). Але навіть з потужними механізмами захисту ці носії страждають від деградації через хімічне старіння, пошкодження ультрафіолетовим випромінюванням, подряпини, пил тощо.

Якщо оптичний диск пошкоджено, ви можете скористатися списком програм з Вікіпедії, які створено для видобування даних з пошкоджених дискет, жорстких дисків, флеш-носіїв, зокрема карток пам’яті фотоапарата та пристроїв USB тощо.

На двошарових оптичних дисках Blu-ray можна зберігати 50 ГБ даних, майже вшестеро більше, ніж на двошарових DVD місткістю 8,5 ГБ. Все те, про що ми говорили щодо КД/DVD, стосується і дисків Blu-ray.

Найкращий підхід: виконуйте запис на невисокій швидкості на якісному пристрої та на якісному носії у відкритих, непропрієтарних форматах, виконайте повторне читання для перевірки даних, позначайте носії зрозумілими мітками та даними про дату та автора, тримайте їх у чистому, темному, недоступному для тварин та вологи місці. І не забувайте скопіювати дані на носії наступного покоління, перш ніж викидати останні екземпляри обладнання та програмного забезпечення, здатного прочитати ці дані.

Жорсткі диски

Виробники жорстких дисків (HDD) не поспішають ділитися статистичними даними. Виробник за гарантією надасть вам новий диск, але не нові дані Пошуки у Google дають доступ до роботи з вивчення широкого діапазону вивчення механізмів відмов HDD: Вивчення виходу з ладу дисків.

Якщо коротко: диски служитимуть довше, якщо їх робоча температура лежатиме у межах від 35°C до 45°C, за нижчих температур значно підвищується рівень помилок. Елементи контролера (електроніка) є основним джерелом збоїв, SMART не здатен про них повідомити. Деякі з помилок, показаних SMART, також можуть вказувати на близьку відмову, зокрема це помилки сканування (scan errors) та кількість переспрямувань (relocation counts). Типовий строк роботи жорсткого диска складає 4-5 років.

Загалом кажучи, всупереч інтуїції та міркуванням зі світу природи, постійне використання жорсткого диска дає кращі результати щодо строку його служби, ніж постійне його вмикання та вимикання. Існують свідчення того, що агресивна економія електроенергії шляхом уповільнення обертання диска може призвести до його швидкого пошкодження. Постійне навантаження на диск також скорочує його строк служби. Найнебезпечнішими ж факторами пошкодження диска є вібрація, перепади напруги та низькі температури.

Якщо ваш диск видає дивні звуки, звичайне програмне забезпечення для відновлення файлів вам нічим не допоможе. Якщо таке сталося, якомога швидше зробіть резервну копію даних. (За можливості, скористайтеся програмою dd, а не звичайним інструментом резервного копіювання файлів, оскільки dd читає дані неперервним, спіральним потоком від початку до кінця і не навантажує механічні компоненти диска). Існують спеціалізовані компанії, які можуть відновити ваші дані з пошкодженого диска, але їхні послуги дуже коштовні.

За допомогою комплексу програм для Linux SmartMonTools можна опитувати апаратні пристрої для зберігання даних щодо майбутніх відмов. Ми наполегливо рекомендуємо скористатися інструментом цього типу на вашому комп’ютері.

Твердотільні накопичувачі

SSD стійкіші до механічних пошкоджень, ніж HDD, отже мають меншу кількість відмов під час з’єднання з комп’ютером. З часом вони замінять HDD, оскільки їхня місткість, стійкість до помилок та ціна стають усе привабливішими на ринку пристроїв для постійного зберігання даних.

Якщо використано зовнішній пристрій, однією з основних причин втрати даних (часто ця втрата не є незворотною) є роз’єднання SSD з комп’ютером без вжиття заходів безпеки. Перш ніж дані з пам’яті комп’ютера потраплять на будь-який з’єднаний пристрій, вони певний час зберігаються у буферах. Для жорстких дисків цей проміжок часу не перевищує декількох секунд, а для SSD він може тривати десятки секунд. Тому, перш ніж вилучити пристрій флеш-пам’яті, завжди виконайте процедуру скидання даних за допомогою відповідної системної дії (її часто називають «безпечне вилучення пристрою»).

Енергонезалежна пам’ять

NVM Express (NVMe) — скорочення від Non-Volatile Memory («енергонезалежна пам’ять») — є інтерфейсом логічних пристроїв, який призначено для доступу до енергонезалежних комп’ютерних носіїв даних, які з’єднуються з комп’ютером за допомогою каналу PCI Express (PCIe). Для пам’яті використано ті самі дуже швидкі елементи зберігання даних NAND, що і в SSD, але інтерфейсом є інтерфейс карток M.2, замість повільнішого інтерфейсу mSATA, який використано для старіших твердотільних дисків.

NVMe уможливлює повне використання паралельності доступу у сучасних SSD з боку обладнання та програм. NVMe зменшує надмірність операцій введення-виведення і впроваджує різні удосконалення швидкодії відносно попередніх версій SSD. Протоколи інтерфейсу mSATA було розроблено для використання з набагато повільнішими дисками, де була дуже довга затримка між запитом і передаванням даних, а швидкості передавання даних були набагато меншими за швидкість роботи оперативної пам’яті.

З точки зору живучості, оскільки на пристроях NVMe використано для зберігання даних таке саме обладнання, що і для SSD, стійкість до втрати даних має бути такою самою.

Важливо

В усіх випадках SSD або NVMe, як вбудовані пристрої, є сучаснішим і ефективнішим рішенням для зберігання бази даних digiKam та даних збірок.

Вимкнення живлення

Вимкнення живлення

Приблизно 1% всіх комп’ютерів потерпають від блискавок та сплесків напруги у мережі кожного року.

Ми говоримо про повну втрату даних через сплески напруги. Звичайно ж, може статися випадкова втрата даних через вимкнення живлення перед збереженням файлів. Але подібні втрати, зазвичай, можна відновити без значних труднощів.

Не варто чекати наступної грози, щоб вжити заходів безпеки проти несподіваних сплесків напруги у електромережах, яке може пошкодити вашу комп’ютерну систему. Нещодавні статистичні дані показують, що приблизно 63 відсотки виходів з ладу електроніки спричинено проблемами з живленням і що більшість комп’ютерів стикаються з одним або двома сплесками напруги за день. Оскільки сплески напруги або вимикання живлення можуть трапитися будь-коли, варто убезпечити ваш комп’ютер вкладенням певної суми у пристрої захисту від сплесків напруги.

Причини вимкнення живлення

Сплеск напруги — це ситуація, коли напруга у електромережі перевищує номінальне значення на час, більший за 10 мілісекунд. Шістдесят відсотків всіх сплесків напруги спричинено внутрішніми факторами, наприклад, вимиканням у мережу певного пристрою з мотором (фена, холодильника або насоса), коли надлишковий струм повертається до мережі і перевантажує її. Решту 40 відсотків сплесків напруги спричинено іншими сторонніми факторами, зокрема блискавками, технічним перемиканням мереж, обривами мереж, недоліками у їх прокладанні тощо.

Хоча більшість типових пристроїв, що споживають електроенергію, не вражається сплесками напруги, для пристроїв, побудованих на комп’ютерних мікросхемах та високошвидкісних мікропроцесорах, такі сплески є серйозною небезпекою. На вашому комп’ютері сплески напруги можуть призвести до блокування клавіатури, повної втрати даних, деградації обладнання, пошкодження материнської плати тощо. Відсутність захисту від неминучих сплесків напруги може спричинитися до грошових витрат та витрати часу.

Захист від вимикання живлення

Найпоширенішим способом захисту від сплесків напруги є пристрій з захисту від сплесків напруги або придушувач. Цей пристрій поглинає частину зайвої електричної енергії і пропускає решту. Такі пристрої, зазвичай, вбудовують у подовжувачі (довгі пристрої з шістьма або іншою кількістю гнізд для розеток, які з’єднуються з мережею заземленим шнуром). Але пам’ятайте, що не у кожному подовжувачі міститься придушувач.

Під час купівлі придушувача вам слід переконатися, що він відповідає стандарту UL 1449, що гарантує певний мінімальний рівень захисту. Крім того, вам слід звернути увагу на пристрої, які надають захист від блискавок (не кожен з пристрої здатен на такий захист), та ті пристрої, для яких надається гарантія у разі належного вмикання.

Оскільки сплеск напруги може пройти до комп’ютера будь-якими електричними ланцюгами, переконайтеся, що всі периферійні пристрої, з’єднані з вашою системою, захищено. Серед подібних ланцюгів ваша телефонна лінія або кабельний модем, оскільки стрибок напруги може пройти і їхніми ланцюгами. Багато виробників зараз виробляють придушувачі сплесків напруги, у яких передбачено гніздо для вашого модема з електричними розетками, інші ж виробляють придушувачі з гніздами для коаксіального кабелю для тих, хто користується кабельним модемом або карткою ТБ-тюнера.

Якщо ваш комп’ютер належить до класу ноутбуків, вам також знадобиться придушувач сплесків зображень. Багато придушувачів розроблено спеціально для ноутбуків, вони невеликі за розмірами і мають гнізда для електричної та телефонної мережі, що робить їх ідеальним для використання у дорозі.

Джерело безперервного живлення

Придушувачі сплесків напруження захистять вашу систему від невеличких стрибків напруги у електромережах, вони не зможуть вам допомогти, якщо живлення буде повністю вимкнено. Вимикання живлення навіть на декілька секунд може спричинити втрату цінних даних, отже для захисту ви можете зважитися на купівлю джерела неперервного живлення (Uninterruptible power supply або UPS).

Окрім убезпечення вашої системи придушенням сплесків напруги, ці пристрої автоматично перемикають живлення на акумулятори, якщо вимикається живлення у електромережі, що надає вам змогу зберегти дані і завершити роботу вашої системи. У деяких моделях навіть передбачено можливість продовження роботи до відновлення основного джерела живлення. Під час купівлі UPS переконайтеся, що пристрій має функції придушувача сплесків напруги (фільтра), а також перевірте строк роботи від акумулятора та наявність відповідного програмного забезпечення.

Беручи до уваги потенційний ризик вашій комп’ютерній системі, убезпечення її від проблем з мережею є вартим певних витрат. Якісний придушувач сплесків напруги (фільтр) або UPS на 500 Вт є не надто дорогими. Це невелика ціна за спокій, який ви відчуватимете, знаючи, що ваш комп’ютер добре захищено. Якщо ж такі заходи безпеки вам не по кишені, принаймні вимикайте ваш комп’ютер з мережі, коли вирушаєте з дому у далекі подорожі.

Правила захисту

Служби зберігання у мережі

Серед вебслужб Amazon є служба S3 — Simple Storage Service (проста служба зберігання). За належного налаштування, ви можете змонтувати S3 як окремий диск у системах Linux, Mac та Windows, що надасть вам змогу скористатися послугами цієї служби для створення резервних копій даних ваших улюблених програм. Google Shared Storage (служба розподіленого зберігання Google) є ще однією популярною службою, де ви можете зберігати необмежений об’єм даних.

Але користування цією службою є дорожчим за користування домашнім жорстким диском. Крім того, вам доведеться передавати зображення (досить повільним) каналом інтернету.

Думаємо, як запобіжник від втрати локальних даних найцінніших зображень, використання такого сховища не непоганою ідеєю, але сховище не є універсальною відповіддю на питання щодо створення резервної копії даних, для цього воно є заповільним.

Google Photo та Flickr надають послуги зі зберігання даних у мережі, спеціально для фотографій. Об’єм даних, що надається у ваше розпорядження обмежено, отже ви не зможете зберігати у мережі знімки з великою роздільною здатністю. Але на професійних облікових записах ви можете отримати більше можливостей.

З точки зору зберігання даних, зберігання у мережі є, ймовірно, досить безпечним. Помилки під час передавання даних виправляються (завдяки протоколові TCP), крім того, великі компанії завжди роблять резервну копію даних, а також користуються розподіленим зберіганням, отже самостійно запобігають наслідкам можливих аварій.

У digiKam передбачено інструмент для експортування даних до служби iNaturalist

Помилок передавання

Дані втрачаються не лише на пристроях зберігання даних, їх може бути втрачено під час передавання лініями комп’ютера або мережею (хоча для даних, що передаються мережею за допомогою TCP, і передбачено захист від помилок). Помилки трапляються у шинах та блоках пам’яті. У обладнанні, призначеному для масового споживання, не передбачено захисту від таких помилок, отже варто вжити певних застережень. Ви можете придбати мікросхеми пам’яті, захищені ECC (error code correction або виправленням помилок у коді), які, звичайно ж, коштують дорожче за звичайні. Якщо ви користуватиметесь оперативною пам’яттю з ECC, принаймні пам’ять вашого комп’ютера буде захищено від помилок у окремих бітах, які виправлятимуться автоматично. Цей захист не спрацює у разі подвійні бітових помилок, але такі помилки трапляються нечасто.

Робочий процес обробки даних між програмою та носієм даних

На цій діаграмі показано ланцюжок передавання даних у комп’ютері, помилки можливі на кожній з його ланок. Файлові системи ля Linux ZFS і BTRFS забезпечують цілісність даних принаймні на шляху від операційної системи до диска.

Рівень байтових помилок (Byte Error Rate або BER) для оперативної пам’яті та каналів передавання даних — величина порядку 1 на 10 мільйонів (10E-7 бітів). Це означає, що у 1 з 3000 зображень міститься помилка, спричинена проблемами з передаванням даних. Рівень змін у зображенні є величиною випадковою: ці зміни можуть призвести до руйнування зображення або просто зміниться колір одного пікселі. Через стискання, яке використовується у майже всіх форматах зображень передбачити наслідки зміни єдиного біта неможливо. Часто у результаті можна побачити лише частину зображення.

Найгірше у цьому те, що ніщо не підкаже вам про те, що сталися помилки під час передавання даних. Всі збої залишаться непоміченим аж до того дня, коли ви відкриєте файл фотографії, який несподівано для вас виявиться пошкодженим. Найпечальніше те, що у самому комп’ютері не передбачено ніякого захисту від таких помилок, здається про них ніхто і не подумав. Інтернет (протокол TCP) є набагато безпечнішим шляхом даних, ніж шлях даних всередині комп’ютера.

Нестабільність у електромережах є ще одним джерелом втрат даних під час передавання, оскільки така нестабільність може втрутитися у потоки даних. У звичайних файлових системах помилки спричинені нестабільністю залишаються непоміченими.

Кількість відмов носіїв даних за роками

Навіть якщо ви сьогодні не стикаєтеся з проблемами під час передавання даних, зазирніть у майбутнє. Вже у 2010 році ми побачимо тисячі таких помилок на рік.

Майбутнє файлових систем

ZFS від Oracle виглядає одним з двох кандидатів для боротьби з дисковими помилками на низькому рівні Ця система має величезні можливості масштабованості Код цієї файлової системи відкрито, її строго запатентовано, її ліцензія є несумісною з GPL, нею можна користуватися у Linux і macOS.

Oracle також почала розробку власної файлової системи BTRFS. У цій файловій системі передбачено ту саму методику, що і ZFS, цю систему можна використовувати у Linux.

Людські помилки

Крадіжки та нещасні випадки

Не варто їх недооцінювати! Ці два фактори є причиною 86% втрат даних на ноутбуках і 46% втрат даних на стаціонарних комп’ютерах. Окремо крадіжки ноутбуків складають 50% втрат даних

Зловмисне програмне забезпечення

Втрата даних через віруси є набагато менш ймовірною, ніж може підказувати вам здоровий глузд. Віруси є набагато меншою загрозою, ніж, наприклад, крадіжка або перевстановлення системи. Цю загрозу відчуватимуть переважно користувачі операційних систем Microsoft. Загроза користувачам Apple є набагато меншою, у Linux же віруси не були загрозою вже досить давно.

Людський фактор і втрата даних

Людські помилки, як і скрізь, є основною проблемою у питанні втрати даних. Глибоко вдихніть повітря і зупиніться! Паніка є типовою реакцією, у такому стані люди, зазвичай, роблять дурниці. Досвідчені висмикують не той диск з масиву RAID або повторно форматують диск, руйнуючи на ньому всі дані. Дії без їх ретельного обдумування є найбільшою загрозою вашим даним. Припиніть панікувати щодо втрати даних і не робіть з диском ніяких необдуманих кроків. Найкраще взагалі припинити користуватися комп’ютером, доки у вас не буде плану. Присядьте і спробуйте пояснити свій план комусь без досвіду у подібних справах. Ви здивуєтеся тому як багато ваших необдуманих ідей виявляться при цьому ідіотськими.

Якщо ваш диск видає дивні звуки, звичайне програмне забезпечення для відновлення файлів не зможе вам допомогти. Якщо ви чуєте подібні звуки, негайно зробіть резервну копію даних. Якщо диск крутиться, але ви не можете знайти даних, пошукайте інструмент відновлення даних і зробіть резервну копію диска на іншому комп’ютері або диску. Універсальним і потужним рішенням є використання комплекс програм CloneZilla з відкритим кодом. Важливо отримати дані на інший диск на цьому ж комп’ютері, на портативний диск USB або на жорсткий диск. Варто зберігати відновлені дані на іншому диску. У системах Linux® вам допоможе у цьому програма dd.

Розвінчування типових міфів

Хотілося б розвінчати декілька поширених міфів:

  • У файлових системах з відкритими стандартами загроза втрати даних є меншою, ніж втрата даних у закритих файлових системах: неправильно, NTFS, можливо, навіть трохи краща за ext4, ReiserFs, JFS, XFS, якщо називати найпопулярніші файлові системи, які часто використовуються як типовий формат зберігання даних на диску у дистрибутивах.

  • Журналювання файлових систем запобігає пошкодженню або втраті даних: неправильно, ці файлові системи лише пришвидшують процес сканування у разі випадкового переривання під час транзакції і запобігають виникненню двозначних станів. Але якщо файли не було повністю збережено до аварії, цей файл буде втрачено.

  • Системи RAID запобігають пошкодженню або втраті даних: здебільшого неправильно, RAID0 і 1 не запобігають взагалі нічому, RAID5 може запобігти втраті даних через пошкодження диска (але не від помилок дискової або файлової системи). Значна кількість дешевих контролерів RAID (до яких належить більшість контролерів на материнських платах) не повідомляють про проблеми, отже ви про них нічого не дізнаєтеся. Якщо ви нічого не дізнаєтеся, як ви зможете через декілька місяців визначити, що причиною втрати була помилка контролера? Однією з підступних проблем є пошкодження даних про парність у RAID 5. Досить просто перевірити файл читанням його даних і порівнянням їх з метаданими. Перевірка парності набагато складніша, отже, зазвичай, ви не побачите помилок парності до перебудови масиву. А тоді вже, звичайно ж, буде пізно.

  • Віруси є найбільшою загрозою для цифрових даних: неправильно. Крадіжки і людські помилки є основними причинами втрати даних.

Оцінка об’єму, потрібного у сховищі

Датчики фотоапаратів працюють за 1-2 кроки апертури від фундаментального фізичного обмеження. Автор хоче сказати: хоча технологія і розвивається, існує природне обмеження на її розвиток. Чутливість і шумові характеристики будь-якого світлового датчика вже не так і далеко від такого обмеження.

Кількість пікселів у сучасних фотоапаратах прямує до 50 мільйонів, хоча подібна роздільна здатність вже є занадто високою для компактних фотоапаратів і погіршує якість кінцевого результату. За відповідного розміру матриці і якості оптики, оптимальною кількістю пікселів для компактних фотоапаратів є 12 мільйонів. Навіть цифрові дзеркальні фотоапарати досягають своїх граничних можливостей за кількості пікселів у 20-24 мільйонів. Щоб отримати вищу роздільну здатність слід вдаватися до повнокадрових матриць (24x36 мм) або навіть матриць більших форматів.

Отже, беручи до уваги наполегливу рекламну кампанію зі збільшення кількості мільйонів пікселів, можна з впевненістю стверджувати, щоб більшу частину фотоапаратів майбутнього буде обладнано матрицями з менше, ніж 30 мільйонами пікселів. Таким чином, можна оцінити місце, потрібне для зберігання одного знімка, у майбутньому: <40 МБ на знімок. Навіть якщо буде додано врахування версій файла (групування різних варіантів фотографії у одному файловому елементі), існує тенденція до використання скриптування змін, отже додаватиметься лише незначна різниця, а не цілий знімок для кожної з версій. З пришвидшенням роботи обладнання ми дуже скоро спостерігатимемо реалізацію подібної ідеї.

Щоб оцінити плановий об’єм сховища знімків, просто помножте кількість фотографій, які ви знімаєте протягом року (цю кількість дуже просто визначити за допомогою вкладки шкали часу бічної панелі digiKam) на 40 МБ. Більшість користувачів обмежується менше, ніж 2000 знімками на рік, що потребуватиме менше за 80 ГБ/рік. Якщо припустити, що ви мінятимете ваш жорсткий диск (або будь-який інший майбутній носій даних) кожні 4-5 років, природного приросту місткості носіїв з головою вистачить для покриття ваших потреб.

Честолюбнішим же фотографам знадобиться більше місця, можливо, набагато більше. Таким людям варто замислитися над придбанням сервера. Гігабітові мережеві картки вже інтегруються у деякі з материнських плат, за їх допомогою отримання файлів локальною мережею буде просто миттєвим. Якщо говорити про сучасні материнські плати: на них передбачено можливість з’єднання з носіями даних SATA за допомогою з’єднувальних каналів USB. Отже, достатньо просто придбати зовнішній SATA-диск і з’єднати його з вашим комп’ютером. 2020 року на ринку з’явилися диски місткістю 4000 ГБ. Ці диски є вражаюче компактними контейнерами для даних резервних копій: можете зберігати один такий диск вдома, а один — у якомусь іншому місці.

Резервне копіювання та відновлення

Сьогодні жорсткий диск на 4 ТБ коштує не так уже і дорого. Не звинувачуйте нікого у втраті даних! 6% всіх персональних комп’ютерів страждають від подібної втрати даних щороку. Виконуйте планове створення резервних копій ваших даних, створюйте резервну копію і перевіряйте її перед кожної значною дією на зразок перевстановлення операційної системи, зміни дисків, зміни розмірів розділів тощо.

Запобігання катастрофам

Припустімо, ви з релігійною упертістю робите резервні копії на зовнішньому диску SATA. Надійде день, коли вдарить блискавка. Добре, якщо ваш зовнішній диск у цей час не буде з’єднано з комп’ютером.

Катастрофи є локальними і руйнівними нещастями. Забудьте про авіакатастрофи: пожежа, повінь, негаразди з електропостачанням, діти і крадіжка є досить небезпечними для ваших даних. Подібні катастрофи стосуються певної кімнати або будинку.

Отже, запобігання таким катастрофам означає розподілене зберігання. Зберігайте ваші резервні копії на горищі, у іншому будинку, у письмовому столі (і навпаки) тощо.

У фізичного відокремлення є і добра сторона: як ми вже говорили, паніка часто спричиняє знищення даних, навіть резервних даних. Створення віддаленої резервної копії може одного дня врятувати ваші дані.

Технічні подробиці щодо резервного копіювання

  • Повна резервна копія: створення повна резервна копія всіх файлів. Це знімок даних без історії, він відповідає повній копії даних у певний момент часу.

  • Диференційована резервна копія: резервна копія лише тих файлів, які було змінено з часу попереднього створення повної резервної копії. Повний знімок у такому випадку складається з даних для двох моментів часу: моменту часу створення повної резервної копії та останньої диференційованої резервної копії.

  • Додаткове копіювання: створення резервної копії лише тих файлів, які було змінено з часу будь-якого попереднього створення резервної копії. Резервна копія складається з декількох знімків. Ви можете відтворити початковий стан на час створення будь-якої з цих копій. Це робить систему близькою до системи керування версіями за винятком того, що ця система дискретна, а не неперервна.

Резервне копіювання даних

Найкращим підходом є резервне копіювання даних:

  • робіть повні резервні копії зовнішніх пристроїв зберігання даних.

  • перевіряйте цілісність даних на таких пристроях і вилучайте несправні пристрої (запобігання катастрофам).

  • тримайте при собі додатковий пристрій зберігання для створення частих резервних копій.

  • міняйте пристрої через кожні два місяці після перевірки цілісності даних.

Корисний інструмент для резервного копіювання

rsync для Linux — це чудовий невеличкий інструмент, який фантастично просто налаштувати на ваших комп’ютерах. Окрім можливості створення запрограмованих сеансів FTP або інших форм програмного передавання файлів, rsync копіює лише відмінності між файлами, які було насправді змінено у стиснутій формі або за допомогою ssh, якщо ви бажаєте вжити заходів безпеки. І це лише невелика частина переліку можливостей.

Розумним підходом до створення резервних копій зображень буде такий:

  • створюйте резервні копії важливих зображень одразу ж (після збереження їх на комп’ютері) на оптичних носіях

  • виконуйте щоденне нарощувальне резервне копіювання робочих тек.

  • щотижня створюйте диференційовану резервну копію і вилучайте загальні резервні копії двотижневої давності.

  • щомісяця створюйте диференційовану резервну копію і вилучайте резервну копію двомісячної давності.

  • якщо ви ще не відокремили носії зберігання фізично, зробіть це зараз (створюйте копію на іншому резервному диску).

За використання цього протоколу у вас залишається достатньо часу для визначення втрат і відновлення повноцінної копії, у той же час розмір резервної копії складає <130% від розмірів робочої копії. Вам знадобляться щоденні версії за попередні 7-14 днів, щотижневий знімок протягом принаймні одного місяця і один знімок кожного місяця. Додаткове зменшення об’єму даних можна виконати вручну після повної перевірки. Зберігайте ваші зображення попри зміни у технології та власниках

Для того, щоб ваші дорогоцінні зображення пережили 40 або більше років (оскільки приблизно такий самий час ви зберігатимете цікавість до перегляду тих чудових старих фотографій з вашого дитинства, юності тощо), можна скористатися двома стратегіями:

  • Йдіть у ногу з технологією, не залишайтеся позаду більше, ніж на пару років.

  • Зберігайте дані ваших фотографій у відкритих, непатентованих форматах.

Ідіть нога у ногу з новітніми технологіями

Оскільки майбутнє непередбачуване за своєю природою, все, що сказано сьогодні, слід сприймати із застереженнями і переглядати з плином часу. На жаль, не можемо вам надати ніяких додаткових порад, окрім збереження пильності. Принаймні кожні 5-8 років ви маєте поставити собі питання щодо зворотної сумісності сучасних систем. Чим меншою кількістю варіантів ви користувалися у минулому, тим на меншу кількість питань вам доведеться відповідати у майбутньому.

Звичайно ж, кожного разу, коли ви змінюватимете вашу комп’ютерну систему (обладнання, операційну систему, програми, DRM), вам слід ставити собі ті самі питання. Сьогодні, якщо ви бажаєте перейти на використання Windows, вам слід тричі подумати про те, чи зможете ви імпортувати ваші зображення, і, що ще важливіше, чи зможете ви перевести ці зображення на якусь іншу систему або комп’ютер. Досить ймовірно, що ви не зможете цього зробити. Автор спостерігав за багатьма людьми, які зіткнулися з проблемами, оскільки Windows примусово використовується строгий режим DRM. Як ви зможете довести Windows, що ви насправді є власником авторських прав на ваші зображення?

Загалом кажучи, на ці питання можна відповісти відповідно до основної думки цього документа: використовуйте і переходьте на відкриті стандарти, що підтримуються багатьма програмами.

Зараз віртуалізацією може скористатися будь-хто. Отже, якщо у вас є операційна система, яка є важливою для читання ваших зображень, не викидайте диски з нею: за потреби встановіть її у віртуальній машині.

Інша порада дуже проста: кожного разу, коли змінюєте архітектуру вашого комп’ютера, ваше сховище даних та технологію створення резервних копій, ваш формат файлів, огляньте вашу бібліотеку і, за потреби, перетворіть файли зображень у файли у новому форматі. І користуйтеся відкритими стандартами.

Масштабованість

Масштабованість — це слово на технічному жаргоні, яке позначає (просту) можливість зміни розмірів сховища системи, що завжди означає збільшення.

Припустімо, що ви плануєте збільшення розмірів системи і зберігаєте сховище, розміри якого бажаєте збільшити, на окремому диску або розділі. У системах Linux ви згодом зможете скопіювати і змінити розміри сховища на новому диску.

Використання відкритих форматів файлів

Коротка історія цифрової ери протягом останніх 20 років знову і знову доводить нам, що пропрієтарні формат не є надійними, якщо ви бажаєте користуватися вашими даними протягом наступних 10 років з часу запису. Яскравим прикладом подібного ставлення до користувачів є Microsoft через домінування цієї компанії на ринку. Але інші компанії є насправді (навіть ненавмисно) ще гіршими, оскільки ці компанії можуть не втриматися на ринку достатньо довго або мають лише невелику базу користувачів та розробників. У випадку з Microsoft ви матимете принаймні перевагу у тому, що ваші проблеми поділятиме досить багато людей. Ймовірність успіху у пошуку розв’язання проблеми у такому разі значно зросте. Крім того, подеколи Microsoft використовує документацію до вільного програмного забезпечення, щоб зрозуміти поведінку власної системи, настільки поганим є стан власної документації корпорації. Зазвичай, наприклад, у комплексу програм MSoffice виникають проблеми з читанням документів, створених за допомогою таких самих програм або парою версій старіших за поточні.

Формати зберігання зображень живуть довше за формати офісних документів, отже дещо менше вражені хворобою застарівання.

Відкриті стандарти мають величезну перевагу у відкритості специфікації. Навіть якщо одного дня у майбутньому ви не зможете знайти програмного забезпечення для читання даних у відкритому форматі, ви завжди зможете відтворити таке програмне забезпечення, подібне відтворення буде простішим з кожним роком.

Типове вікно збереження параметрів для типових форматів зображень у редакторі зображень digiKam

JPEG зараз повсюди, і хоча це формат зберігання даних з втратою якості, якість зображення у якому падає після кожної зміни і збереження, цей формат можна зустріти будь-де, він підтримує метадані у форматі JFIF, Exif, IPTC і XMP, має непогані характеристики стискання і може бути прочитаний будь-яким програмним забезпеченням для роботи з зображеннями. Через обмеження метаданих, природну втрату якості, відсутність прозорості і 8-бітову глибину кольорів, ми не рекомендуємо користуватися цим форматом. Формат JPEG2000 є кращим, реалізовує стискання без втрат, але не користується популярністю.

GIF є патентованим форматом, він повільно зникає з ринку. Не використовуйте цей формат.

PNG було створено як відкритий стандарт для заміни GIF, але цей формат переріс подібні завдання. У ньому можна зберігати дані без втрат, передбачено підтримку метаданих XMP, Exif і IPTC, кодування 16-бітових кольорів і повна прозорість. PNG може зберігати гаму і дані хроматичності для покращення показу кольорів на різних платформах. Його недоліками є відносно великий розмір файлів (втім, менший за розмір TIFF) і повільне стискання. Рекомендуємо користуватися цим форматом.

TIFF раніше широко використовувався для зберігання зображень. Зображення у форматі TIFF можна зберігати у нестисненій формі або у контейнері, стиснутому за допомогою алгоритму стискання без втрат (Deflate). У форматі передбачено зберігання зображень з високою якістю, але це призводить до створення файлів невиправдано великого розміру. Зберігання зображень у цьому форматі передбачено на деяких фотоапаратах. Проблеми формату полягають у тому, що його вже було змінено стільки разів, що зараз існує понад 50 його різновидів і не з усіма з них можна працювати у довільно вибраній програмі.

PGF «Progressive Graphics File» (прогресивний графічний файл) є ще одним з не дуже відомих, але відкрити форматів зберігання графічних даних Формат засновано на використанні вейвлетів, його можна використовувати для зберігання файлів з втратами і без втрат PGF можна порівняти з JPEG 2000, але основною метою його розробки була швидкість обробки (стискання та видобування), а не максимальний коефіцієнт стискання. За однакового розміру файлів, файл PGF виглядає значно краще за файл JPEG, зберігаючи при цьому дуже високу швидкість поступового (прогресивного) показу. Формат PGF використано у digiKam на внутрішньому рівні для зберігання стиснутих мініатюр у базі даних. Докладніше про формат PGF можна дізнатися з домашньої сторінки libPGF.

Інструмент імпортування цифрових негативів редактора зображень digiKam

RAW-формат (формат цифрових негативів). Деякі фотоапарати, в основному дорогих моделей, підтримують зберігання знімків у форматі RAW. Формат RAW насправді зовсім не є якимось стандартом зберігання зображення, — це просто формат-контейнер, параметри якого є різними у різних виробників і навіть у різних моделях фотоапаратів. Знімки у форматі RAW містять дані з мінімальним рівнем обробки, отримані від датчиків цифрового фотоапарата або цифрового сканера. Файли знімків RAW іноді називають цифровими негативами, оскільки вони виконують ту саму роль, що і плівкові негативи у традиційній фотографії з хімічною обробкою: негатив не можна напряму використовувати як зображення, але він містить всі дані, потрібні для побудови зображення. Зберігання фотографій у форматі цифрового негатива фотоапарата надає змогу отримати ширший динамічний діапазон і змінити інші параметри, зокрема баланс білого, вже після зйомки. Більшість професійних фотографів користуються форматом RAW, оскільки він надає максимальні можливості з обробки знімка. Недоліком формату знімків RAW є надзвичайно великі розміри відповідних файлів.

Автор наполегливо рекомендує вам утриматися від зберігання архіву фотографій у форматі RAW (на відміну від зйомки у форматі RAW, яку він рекомендує використовувати). У цьому форматі поєднуються всі погані риси форматів: величезна кількість різновидів та пропрієтарна природа. Очевидно, що за декілька років ви же не зможете скористатися вашими старими файлами цифрових негативів (RAW). Автор вже зустрічався з людьми, які змінили фотоапарат на новіший, втратили профілі кольорів попереднього фотоапарата і отримали величезні труднощі з належною обробкою власних старих файлів RAW. Для зберігання цифрових негативів краще користуватися форматом DNG.

Формат файлів DNG або Digital Negative (цифрових негативів) є форматом, що не передбачає патентних відрахувань, і є відкритим форматом зображень RAW, розробленим компанією Adobe Systems. DNG був відповіддю на питання щодо створення універсального формату файлів цифрових негативів. Цей формат засновано на форматі TIFF/EP, що передбачає використання метаданих. Декілька з виробників фотоапаратів вже використовують DNG, будемо сподіватися, що основні постачальники обладнання, Canon і Nikon, колись теж почнуть його використовувати. Формат Apple ProRAW, який реалізовано починаючи з iPhone 12 Pro Max, засновано на DNG.

У digiKam передбачено інструмент пакетного перетворення з RAW до DNG у засобі керування пакетною чергою

З метою зберігання у архіві, автор наполегливо рекомендує вам перетворювати файли цифрових негативів на файли DNG. Хоча DNG і було створено Adobe, цей формат є відкритим, він широко використовується спільнотою розробників вільного програмного забезпечення (що, зазвичай, є непоганим показником його якості). Деякі з виробників вже використовують формат цифрових негативів DNG. Крім того, на сьогодні Adobe є найбільшим виробником програмного забезпечення для роботи з графічними даними, і, звичайно ж, підтримує свою розробку. Цей формат є ідеальним для створення архівів: дані датчиків матриці буде збережено без змін у форматі TIFF, вбудованому у DNG, отже ризик, пов’язаний з використанням пропрієтарних форматів цифрових негативів зникне. Все це робить перехід на іншу операційну систему абсолютно безпроблемним.

У digiKam передбачено інструмент пакетного перетворення з RAW до DNG під час отримання даних з фотоапарата

XML (Extensible Mark-up Language або розширювана мова розмітки) або RDF (Resource Description Framework або оболонка опису ресурсів). XML подібний до HTML, але HTML здебільшого зосереджено на показі даних, а XML зосереджується на «представленні» даних. Крім того, XML не є пропрієтарним, залежним від операційної системи, простим у інтерпретації, текстовим і дешевим. RDF — це рішення від WC3 для інтегрування наборів різновидів структурованих даних, зокрема бібліотечних каталогів, каталогів у мережі, подач новин, програмного забезпечення, а також збірок музики, зображень та записів подій за допомогою XML як синтаксису обміну даними. Сучасні специфікації містять метод, що використовує просту онтологію на основі Dublin Core, яка підтримує і «Семантичну мережу» (простий спосіб поширення знань інтернетом).

IPTC стає XMP

Оце і є, ймовірно, причиною того, що близько 2001 року Adobe було запроваджено власну технологію XMP, засновану на XML, яка має замінити технологію «Блоків ресурсів зображення», що походить з дев’яностих років минулого століття». XMP — це абревіатура від «Extensible Metadata Platform» (розширювана платформа метаданих). Технологія є сумішшю XML і RDF. XMP — це технологія визначення міток, яка надає користувачеві можливість вбудовувати дані щодо файла до іншого файла. Дані про файл зберігаються у файлі з суфіксом назви *.xmp* (що позначає використання XML/RDF).

XMP. Так само, як дані у форматі ODF можна буде прочитати завжди (оскільки у цьому форматі дані зберігаються у придатній для читання без обробки текстовій формі), XMP збереже ваші дані у придатному для читання форматі XML. Немає абсолютно ніякого ризику втратити можливість прочитати ці дані пізніше. Ці дані можна вбудувати до файлів зображень, або зберігати у окремому супутньому файлі (концепція «коляски»). XMP можна використовувати у файлах PDF, JPEG, JPEG2000, GIF, PNG, HTML, TIFF, Adobe Illustrator, PSD, PostScript, Encapsulated PostScript та відео. У типовому файлі JPEG дані XMP буде вбудовано поруч з даними Exif і IPTC.

digiKam може показувати дані XMP з файлів зображень і відео

Вбудовування метаданих до файлів надає змогу без проблем поширювати і передавати файли між продуктами, виробниками, платформами, споживачами без втрати метаданих. Найпоширеніші мітки метаданих, записаних у даних XMP, є мітки, визначені Dublin Core Metadata Initiative. Серед цих міток: заголовок, автор тощо. Стандарт було розроблено з врахуванням можливості розширення, що надає користувачам змогу додавати власні нетипові типи метаданих до даних XMP. Загалом кажучи, XMP не передбачає можливості вбудовування бінарних типів даних. Це означає, що будь-які бінарні дані, які хтось хоче зберегти у XMP, наприклад, зображення мініатюр, слід закодувати у дружньому до XML форматі, зокрема Base64.

Багато фотографів віддають перевагу зберіганню оригіналів своїх фотографій (здебільшого у форматі RAW) у архіві. Формат XMP відповідає такому підходу, оскільки метадані зберігаються окремо від файлів зображення. Автор не притримується подібних думок щодо зберігання зображень. Можуть виникнути проблеми з прив’язкою файла метаданих до файлів зображень і, як ми вже казали вище, формати RAW застарівають. Автор рекомендує вам користуватися контейнером DNG і зберігати всі дані у файлі зображення.

Dublin Core Metadata Initiative — це відкрита організація, метою якої є розробка пов’язаних між собою стандартів мережевих метаданих, які б можна було використовувати для задоволення широкого спектру потреб та бізнес-моделей. Серед заходів DCMI робота над архітектурою та моделюванням, обговорення та спільна робота у спільнотах DCMI і групах завдань DCMI, щорічні конференції та виставки, забезпечення взаємодії стандартів та освітні акції з просування стандартів та технологій роботи з метаданими.

У digiKam, на панелі параметрів, передбачено підтримку допоміжних файлів із багатьма параметрами

Захист ваших даних

  • Використовуйте фільтри сплесків напруги (стандарту UL 1449), за можливості, разом з UPS.

  • Використовуйте пам’ять ECC з перевіркою точності передавання даних (навіть простого збереження файлів).

  • Спостерігайте за станом жорстких дисків (температурою, шумом…), створюйте резервні копії.

  • Зберігайте резервні копії деінде, під замком, користуйтеся сховищами даних у інтернеті.

  • Використовуйте архівні носії і пристрої запису.

  • У випадку втрати даних не панікуйте, спочатку порадьтеся щодо вашого плану відновлення даних з експертом.

  • Вибирайте вашу файлову систему, розділи, теки з міркувань простоти масштабованості.

  • Використовуйте відкриті, непатентовані формат для роботи з фотографіями і зберігання фотографій.

  • Переглядайте технології, переходьте на нові принаймні кожні 5 років.