Пошкодження і втрата даних¶
Основні причини втрати цифрових даних¶
Хоча цифрові дані можуть бути втрачені, якщо єдину копію цифрового носія викрадено або втрачено під час пожежі, наслідки такої втрати є такими самими, як і для традиційних паперових копій або негативів. Отже, тут ми поговоримо про інші варіанти втрати цифрових даних, які можна приблизно класифікувати за такими проблемними сферами:
фізична деградація носія (всі носії з часом деградують, відмінність полягає лише у часі, який для цього потрібен).
невиявлені помилки під час перенесення даних.
нестача тривалої підтримки застарілих, пропрієтарних цифрових форматів.
застаріле апаратне забезпечення (обладнання).
Kroll Ontrack, найбільша у світі компанія, яка займається відновленням даних, зібрала цікаві статистичні дані щодо причин втрати даних.
Причина втрати даних |
Сприйняття |
Реальність |
---|---|---|
Апаратна або системна проблема |
78% |
56% |
Людська помилка |
11% |
26% |
Пошкодження або проблеми, спричинені програмами |
7% |
9% |
Комп’ютерні віруси |
2% |
4% |
Стихійне лихо |
1-2% |
1-2% |
Проаналізуймо ці випадки крок за кроком.
Псування носія даних¶
Пристрої з наведеного нижче списку упорядковано за швидкістю доступу до даних, від найповільніших до швидших.
Магнітні носії¶
У системах роботи з резервними копіями використовуються магнітні стрічки, здебільшого у професійних середовищах, а не в домашніх умовах. У стрічок є проблеми зі зберіганням даних, їх можна пошкодити унаслідок потрапляння у сильні магнітні поля, технологія запису та читання постійно змінюється, але у одному аспекті стрічки кращі за оптичні диски: їх важче подряпати, забруднити, вони менше страждають від дефектів запису. Щоб уникнути проблем із довгостроковим зберіганням даних, повторне копіювання стрічок слід виконувати кожні 5-8 років, інакше кількість пошкоджених бітів переросте порогове значення кількості бітів, які можна виправити за допомогою контрольних сум. Недоліками магнітних стрічок є вартість запису та час відновлення з резервної копії (у 20 разів довше за відновлення з жорсткого диска). Системи резервного копіювання на стрічках використовують у великих професійних середовищах, де потрібне резервне копіювання великих обсягів даних.
Оптичні диски¶
Ви можете бути здивовані, дізнавшись, що багато CD-R фізично псуються швидше, ніж плівка. Хоча плівка може зберігатися на десятиліття довше, ніж деякі оптичні носії, цифрові носії у поєднанні із регулярним резервним копіюванням не втрачають жодних даних. Плівка починає руйнуватися в момент її створення та проявлення – цифрові одинички і нулики – ні. Плівка ніколи не матиме такого кольору та контрастності, як на момент створення знімка. Цифрові дані ніколи не змінюються. Однак цифрові медіа вразливі до пошкодження даних.
Усі оптичні диски вразливі до помилок, навіть у щойно записаному стані. Ось чому дані на них захищено потужними механізмами перевірки контрольних сум, дані яких займають до 25% даних місткості сховища даних на диску. Але навіть з потужними механізмами захисту ці носії страждають від деградації через хімічне старіння, пошкодження ультрафіолетовим випромінюванням, подряпини, пил тощо.
Не слід довіряти дані сховищу на CD або DVD довше, ніж на кілька років. Ви можете придбати якісні компакт-диски або DVD, які служитимуть довше, хоча дістати їх складніше за звичайні, крім того, вони дорожчі. Фірми-виробники можуть запропонувати вам оптичний носій з золотим покриттям за декілька євро за штуку, термін зберігання даних на яких, як вважається, складає 100 років (якщо ви цьому вірите).
Зрештою, оптичні диски можуть стати непридатними для читання, але ви можете зменшити ризик, якщо використовуватимете якісні диски та якісний пристрій для їх запису і зберігатимете їх належним чином. Найкращі пристрої запису оптичних дисків не набагато дорожчі за найдешевші, але вони записують дані набагато надійніше. Питання надійності — це питання вибору правильного носія і правильного пристрою запису.
Якщо оптичний диск пошкоджено, ви можете скористатися списком програм з Вікіпедії, які створено для видобування даних з пошкоджених дискет, жорстких дисків, флеш-носіїв, зокрема карток пам’яті фотоапарата та пристроїв USB тощо.
На двошарових оптичних дисках Blu-ray можна зберігати 50 ГБ даних, майже вшестеро більше, ніж на двошарових DVD місткістю 8,5 ГБ. Все те, про що ми говорили щодо КД/DVD, стосується і дисків Blu-ray.
Найкращий підхід: виконуйте запис оптичних носіїв на невисокій швидкості на якісному пристрої та на якісному носії у відкритих, непропрієтарних форматах, виконайте повторне читання для перевірки даних, позначайте носії зрозумілими мітками та даними про дату та автора, тримайте їх у чистому, темному, недоступному для тварин та вологи місці. І не забувайте скопіювати дані на носії наступного покоління, перш ніж викидати останні екземпляри обладнання та програмного забезпечення, здатного прочитати ці дані.
Жорсткі диски¶
Виробники жорстких дисків (HDD) не поспішають ділитися статистичними даними. Виробник за гарантією надасть вам новий диск, але не скаже, як довго він працюватиме. Компанія Backblaze, надавач послуг зі зберігання даних, повідомляла про щорічну частку виходу з ладу дисків у 1,5% у 2023 році на основі аналізу даних щодо 237278 жорстких дисків. Google виконано масштабне дослідження щодо механізмів відмови HDD : Disk Failures study.
Якщо коротко: диски служитимуть довше, якщо їх робоча температура лежатиме у межах від 35°C до 45°C. Це може видатися неприродним, але швидкість виходу з ладу жорстких дисків значно зростає за низьких температур. Елементи контролера (електроніка) є основним джерелом збоїв, SMART не здатен про повідомити про такі проблеми. Деякі з помилок, показаних SMART, також можуть вказувати на близьку відмову, зокрема це помилки сканування (scan errors) та кількість переспрямувань (relocation counts). Типовий строк роботи жорсткого диска складає 4-5 років.
Загалом кажучи, всупереч інтуїції та міркуванням зі світу природи, постійне використання жорсткого диска дає кращі результати щодо строку його служби, ніж постійне його вмикання та вимикання. Існують свідчення того, що агресивна економія електроенергії шляхом уповільнення обертання диска може призвести до його швидкого пошкодження. Отже, найнебезпечнішими ж факторами пошкодження диска є вібрація, перепади напруги та низькі температури.
Якщо ваш диск видає дивні звуки, звичайне програмне забезпечення для відновлення файлів вам нічим не допоможе. Якщо таке сталося, якомога швидше зробіть резервну копію даних. (За можливості, скористайтеся програмою dd, а не звичайним інструментом резервного копіювання файлів, оскільки dd читає дані неперервним, спіральним потоком від початку до кінця і не навантажує механічні компоненти диска). Існують спеціалізовані компанії, які можуть відновити ваші дані з пошкодженого диска, але їхні послуги дуже коштовні.
За допомогою комплексу програм для Linux SmartMonTools можна опитувати апаратні пристрої для зберігання даних щодо майбутніх відмов. Ми наполегливо рекомендуємо скористатися інструментом цього типу на вашому комп’ютері.
Твердотільні накопичувачі¶
SSD стійкіші до механічних пошкоджень, ніж HDD, отже мають меншу кількість відмов під час з’єднання з комп’ютером. З часом вони замінять HDD, оскільки їхня місткість, стійкість до помилок та ціна стають усе привабливішими на ринку пристроїв для постійного зберігання даних.
Компанія Backblaze, надавач послуг зі зберігання даних, повідомляла про частку виходу з ладу в 1% за рік у 2023 році, на основі аналізу даних щодо 3144 дисків SSD. Отже, SSD працюють краще за HDD, але також не є абсолютно надійними.
Якщо використано зовнішній пристрій SSD, однією з основних причин втрати даних (часто ця втрата не є незворотною) є роз’єднання SSD з комп’ютером без вжиття заходів безпеки. Перш ніж дані з пам’яті комп’ютера потраплять на будь-який з’єднаний пристрій, вони певний час зберігаються у буферах. Для жорстких дисків цей проміжок часу не перевищує декількох секунд, а для SSD він може тривати десятки секунд. Тому, перш ніж вилучити пристрій флеш-пам’яті, завжди виконайте процедуру скидання даних за допомогою відповідної системної дії (її часто називають «безпечне вилучення пристрою»).
Енергонезалежна пам’ять¶
NVM Express (NVMe) — скорочення від Non-Volatile Memory («енергонезалежна пам’ять») — є інтерфейсом логічних пристроїв, який призначено для доступу до енергонезалежних комп’ютерних носіїв даних, які з’єднуються з комп’ютером за допомогою каналу PCI Express (PCIe). Для пам’яті використано ті самі дуже швидкі елементи зберігання даних NAND, що і в SSD, але інтерфейсом є інтерфейс карток M.2, замість повільнішого інтерфейсу mSATA, який використано для старіших твердотільних дисків.
NVMe уможливлює повне використання паралельності доступу у сучасних SSD з боку обладнання та програм. NVMe зменшує надмірність операцій введення-виведення і впроваджує різні удосконалення швидкодії відносно попередніх версій SSD. Протоколи інтерфейсу mSATA було розроблено для використання з набагато повільнішими дисками, де була дуже довга затримка між запитом і передаванням даних, а швидкості передавання даних були набагато меншими за швидкість роботи оперативної пам’яті.
Оскільки на пристроях NVMe використано для зберігання даних таке саме обладнання, що і для SSD, стійкість до втрати даних має бути такою самою.
Важливо
В усіх випадках SSD або NVMe, як вбудовані пристрої, є сучаснішим і ефективнішим рішенням для зберігання бази даних digiKam та даних збірок зображень.
Вимкнення живлення¶
Вимкнення живлення¶
Приблизно 1% всіх комп’ютерів потерпають від блискавок та сплесків напруги у мережі кожного року.
Ми говоримо про повну втрату даних через сплески напруги. Звичайно ж, може статися випадкова втрата даних через вимкнення живлення перед збереженням файлів. Але подібні втрати, зазвичай, можна відновити без значних труднощів.
Не варто чекати наступної грози, щоб вжити заходів безпеки проти несподіваних сплесків напруги у електромережах, яке може пошкодити вашу комп’ютерну систему. Нещодавні статистичні дані показують, що приблизно 63 відсотки виходів з ладу електроніки спричинено проблемами з живленням і що більшість комп’ютерів стикаються з одним або двома сплесками напруги за день. Оскільки сплески напруги або вимикання живлення можуть трапитися будь-коли, варто убезпечити ваш комп’ютер вкладенням певної суми у пристрої захисту від сплесків напруги.
Причини вимкнення живлення¶
Сплеск напруги — це ситуація, коли напруга у електромережі перевищує номінальне значення на час, більший за 10 мілісекунд. Шістдесят відсотків всіх сплесків напруги спричинено внутрішніми факторами, наприклад, вимиканням у мережу певного пристрою з мотором (фена, холодильника або насоса), коли надлишковий струм повертається до мережі і перевантажує її. Решту 40 відсотків сплесків напруги спричинено іншими сторонніми факторами, зокрема блискавками, технічним перемиканням мереж, обривами мереж, недоліками у їх прокладанні тощо.
Хоча більшість типових пристроїв, що споживають електроенергію, не вражається сплесками напруги, для пристроїв, побудованих на комп’ютерних мікросхемах та високошвидкісних мікропроцесорах, такі сплески є серйозною небезпекою. На вашому комп’ютері сплески напруги можуть призвести до блокування клавіатури, повної втрати даних, деградації обладнання, пошкодження материнської плати тощо. Відсутність захисту від неминучих сплесків напруги може спричинитися до грошових витрат та витрати часу.
Захист від вимикання живлення¶
Найпоширенішим способом захисту від сплесків напруги є пристрій з захисту від сплесків напруги або придушувач. Цей пристрій поглинає частину зайвої електричної енергії і пропускає решту. Такі пристрої, зазвичай, вбудовують у подовжувачі (довгі пристрої з шістьма або іншою кількістю гнізд для розеток, які з’єднуються з мережею заземленим шнуром). Але пам’ятайте, що не у кожному подовжувачі міститься придушувач.
Під час купівлі придушувача вам слід переконатися, що він відповідає стандарту UL 1449, що гарантує певний мінімальний рівень захисту. Крім того, вам слід звернути увагу на пристрої, які надають захист від блискавок (не кожен з пристрої здатен на такий захист), та ті пристрої, для яких надається гарантія у разі належного вмикання.
Оскільки сплеск напруги може пройти до комп’ютера будь-якими електричними ланцюгами, переконайтеся, що всі периферійні пристрої, з’єднані з вашою системою, захищено. Серед подібних ланцюгів ваша телефонна лінія або кабельний модем, оскільки стрибок напруги може пройти і їхніми ланцюгами. Багато виробників зараз виробляють придушувачі сплесків напруги, у яких передбачено гніздо для вашого модема з електричними розетками, інші ж виробляють придушувачі з гніздами для коаксіального кабелю для тих, хто користується кабельним модемом або карткою ТБ-тюнера.
Якщо ваш комп’ютер належить до класу ноутбуків, вам також знадобиться придушувач сплесків зображень. Багато придушувачів розроблено спеціально для ноутбуків, вони невеликі за розмірами і мають гнізда для електричної та телефонної мережі, що робить їх ідеальним для використання у дорозі.
Джерело безперервного живлення¶
Придушувачі сплесків напруження захистять вашу систему від невеличких стрибків напруги у електромережах, вони не зможуть вам допомогти, якщо живлення буде повністю вимкнено. Вимикання живлення навіть на декілька секунд може спричинити втрату цінних даних, отже для захисту ви можете зважитися на купівлю джерела неперервного живлення (Uninterruptible power supply або UPS).
Окрім убезпечення вашої системи придушенням сплесків напруги, ці пристрої автоматично перемикають живлення на акумулятори, якщо вимикається живлення у електромережі, що надає вам змогу зберегти дані і завершити роботу вашої системи. У деяких моделях навіть передбачено можливість продовження роботи до відновлення основного джерела живлення. Під час купівлі UPS переконайтеся, що пристрій має функції придушувача сплесків напруги (фільтра), а також перевірте строк роботи від акумулятора та наявність відповідного програмного забезпечення.
Беручи до уваги потенційний ризик вашій комп’ютерній системі, убезпечення її від проблем з мережею є вартим певних витрат. Якісний придушувач сплесків напруги (фільтр) або UPS на 500 Вт є не надто дорогими. Це невелика ціна за спокій, який ви відчуватимете, знаючи, що ваш комп’ютер добре захищено. Якщо ж такі заходи безпеки вам не по кишені, принаймні вимикайте ваш комп’ютер з мережі, коли вирушаєте з дому у далекі подорожі.
Правила захисту¶
Служби зберігання у мережі¶
Серед вебслужб Amazon є служба S3 — Simple Storage Service (проста служба зберігання). За належного налаштування, ви можете змонтувати S3 як окремий диск у системах Linux, Mac та Windows, що надасть вам змогу скористатися послугами цієї служби для створення резервних копій даних ваших улюблених програм. Google Диск є ще однією популярною службою зберігання даних у хмарі, де ви можете зберігати необмежений об’єм даних.
Користування хмарною службою зберігання даних є дорожчим за користування домашнім жорстким диском. Крім того, вам доведеться передавати зображення (досить повільним) каналом інтернету. Втім, хмарне сховище даних може бути корисним запобіжником від втрати локальних даних найцінніших зображень.
Google Photo та Flickr надають послуги зі зберігання даних у мережі, спеціально для фотографій. Об’єм даних, що надається у ваше розпорядження обмежено, отже ви не зможете зберігати у мережі знімки з великою роздільною здатністю. Але на професійних облікових записах ви можете отримати більше можливостей.
З точки зору зберігання даних, зберігання у мережі є, ймовірно, досить безпечним. Помилки під час передавання даних виправляються (завдяки протоколові TCP), крім того, великі компанії завжди роблять резервну копію даних, а також користуються розподіленим зберіганням, отже самостійно запобігають наслідкам можливих аварій.
Помилок передавання¶
Дані втрачаються не лише на пристроях зберігання даних, їх може бути втрачено під час передавання лініями комп’ютера або мережею (хоча для даних, що передаються мережею за допомогою TCP, і передбачено захист від помилок). Помилки трапляються у шинах та блоках пам’яті. У обладнанні, призначеному для масового споживання, не передбачено захисту від таких помилок, але існує технологія для стеження і виправлення помилок.. Ви можете придбати мікросхеми пам’яті, захищені ECC (error code correction або виправленням помилок у коді), які, звичайно ж, працюють на материнських платах із підтримкою ECC і коштують дорожче за звичайні. Якщо ви користуватиметесь оперативною пам’яттю з ECC, принаймні пам’ять вашого комп’ютера буде захищено від помилок у окремих бітах, які виправлятимуться автоматично. Цей захист не спрацює у разі подвійні бітових помилок, але такі помилки трапляються нечасто.
На цій діаграмі показано ланцюжок передавання даних у комп’ютері, помилки можливі на кожній з його ланок. Файлові системи ля Linux ZFS і BTRFS забезпечують цілісність даних принаймні на шляху від операційної системи до диска.
Рівень бітових помилок (Byte Error Rate або BER) для оперативної пам’яті та каналів передавання даних — величина порядку 1 на 10 мільйонів (10E-7 бітів). Це означає, що у 1 з 3000 30-мегабайтних зображень міститься помилка, спричинена проблемами з передаванням даних. Рівень змін у зображенні є величиною випадковою: ці зміни можуть призвести до руйнування зображення або просто зміниться колір одного пікселі. Через стискання, яке використовується у майже всіх форматах зображень передбачити наслідки зміни єдиного біта неможливо.
Найгірше у цьому те, що ніщо не підкаже вам про те, що сталися помилки під час передавання даних. Всі збої залишаться непоміченим аж до того дня, коли ви відкриєте файл фотографії, який несподівано для вас виявиться пошкодженим. Найпечальніше те, що у самому комп’ютері не передбачено ніякого захисту від таких помилок, здається про них ніхто і не подумав. Інтернет (протокол TCP) є набагато безпечнішим шляхом даних, ніж шлях даних всередині комп’ютера.
Нестабільність у електромережах є ще одним джерелом втрат даних під час передавання, оскільки така нестабільність може втрутитися у потоки даних. У звичайних файлових системах помилки спричинені нестабільністю можуть залишитися непоміченими.
Майбутнє файлових систем¶
ZFS від Oracle виглядає одним з двох кандидатів для боротьби з дисковими помилками на низькому рівні Ця система має величезні можливості масштабованості Код цієї файлової системи відкрито, її строго запатентовано, її ліцензія є несумісною з GPL, нею можна користуватися у Linux і macOS.
Oracle також впровадила власну файлову систему BTRFS. У цій файловій системі передбачено ту саму методику, що і ZFS, цю систему можна використовувати у Linux.
Людські помилки¶
Крадіжки та нещасні випадки¶
Не варто недооцінювати можливості втрати даних внаслідок крадіжки або нещасного випадку! Ці два фактори є причиною 86% втрат даних на ноутбуках і 46% втрат даних на стаціонарних комп’ютерах. Окремо крадіжки ноутбуків складають 50% втрат даних
Зловмисне програмне забезпечення¶
Втрата даних через віруси є набагато менш ймовірною, ніж може підказувати вам здоровий глузд. Віруси є набагато меншою загрозою, ніж, наприклад, крадіжка або перевстановлення системи. Хоча цю загрозу відчуватимуть переважно користувачі операційних систем Microsoft, частота атак на користувачів систем Linux та Apple зросла.
Людський фактор і втрата даних¶
Людські помилки, як і скрізь, є основною проблемою у питанні втрати даних. Люди, зазвичай, роблять дурниці. Досвідчені висмикують не той диск з масиву RAID або повторно форматують диск, руйнуючи на ньому всі дані. Дії без їх ретельного обдумування є найбільшою загрозою вашим даним.
Якщо виникнуть якісь проблеми, глибоко вдихніть і не панікуйте. Найкращий підхід — скласти план, перш ніж виконувати будь-які дії, які можуть призвести до значної втрати даних. Потім сядьте і поясніть свій план неспеціалісту, а ще краще – неспеціалістці. Ви будете вражені, скільки дурних помилок можна уникнути, просто склавши план і пояснивши його комусь іншому.
Якщо ваш диск починає видавати дивні звуки, звичайне програмне забезпечення для відновлення файлів не зможе вам допомогти. Якщо ви чуєте подібні звуки, негайно зробіть резервну копію даних. Якщо диск крутиться, але ви не можете знайти даних, пошукайте інструмент відновлення даних і зробіть резервну копію диска на іншому комп’ютері або диску. Універсальним і потужним рішенням є використання комплекс програм CloneZilla з відкритим кодом. Важливо отримати дані на інший диск на цьому ж комп’ютері, на портативний диск USB або на жорсткий диск. Варто зберігати відновлені дані на іншому диску. У системах Linux® вам допоможе у цьому програма dd.
Розвінчування типових міфів¶
Хотілося б розвінчати декілька поширених міфів:
У файлових системах з відкритими стандартами загроза втрати даних є меншою, ніж втрата даних у закритих файлових системах: неправильно, NTFS, можливо, навіть трохи краща за ext4, ReiserFs, JFS, XFS, якщо називати найпопулярніші файлові системи, які часто використовуються як типовий формат зберігання даних на диску у дистрибутивах.
Журналювання файлових систем запобігає пошкодженню або втраті даних: неправильно, ці файлові системи лише пришвидшують процес сканування у разі випадкового переривання під час транзакції і запобігають виникненню двозначних станів. Але якщо файли не було повністю збережено до аварії, цей файл буде втрачено.
Системи RAID запобігають пошкодженню або втраті даних: здебільшого неправильно, RAID 0 записує дані без надмірності, отже є більш вразливою до втрати даних. RAID 1 записує віддзеркалені дані, отже запобігає втраті даних, оскільки при помилці читання з одного диска, інші працюватимуть справно. RAID5 може запобігти втраті даних через пошкодження диска (але не від помилок дискової або файлової системи). Значна кількість дешевих контролерів RAID (до яких належить більшість контролерів на материнських платах) не повідомляють про проблеми, отже ви про них нічого не дізнаєтеся. Якщо ви нічого не дізнаєтеся, як ви зможете через декілька місяців визначити, що причиною втрати була помилка контролера? Однією з підступних проблем є пошкодження даних про парність у RAID 5. Досить просто перевірити файл читанням його даних і порівнянням їх з метаданими. Перевірка парності набагато складніша, отже, зазвичай, ви не побачите помилок парності до перебудови масиву. А тоді вже, звичайно ж, буде пізно.
Віруси є найбільшою загрозою для цифрових даних: неправильно. Крадіжки і людські помилки є основними причинами втрати даних.
Оцінка об’єму, потрібного у сховищі¶
Датчики фотоапаратів працюють за 1-2 кроки апертури від фундаментального фізичного обмеження у чутливості до світла. Автор хоче сказати: хоча технологія і розвивається, існує природне обмеження на її розвиток. Чутливість і шумові характеристики будь-якого світлового датчика вже не так і далеко від такого обмеження.
Кількість пікселів у сучасних фотоапаратах прямує до 50 мільйонів, хоча подібна роздільна здатність не обов’язково буде помітною у кінцевому результаті. За відповідного розміру матриці і якості оптики, оптимальною кількістю пікселів для компактних фотоапаратів є 12 мільйонів. Навіть цифрові дзеркальні фотоапарати досягають своїх граничних можливостей за кількості пікселів у 20-24 мільйонів. Щоб отримати вищу роздільну здатність слід вдаватися до повнокадрових матриць (24x36 мм) або навіть матриць більших форматів.
Отже, беручи до уваги наполегливу рекламну кампанію зі збільшення кількості мільйонів пікселів, можна з впевненістю стверджувати, щоб більшу частину фотоапаратів майбутнього буде обладнано матрицями з менше, ніж 30 мільйонами пікселів. Таким чином, можна оцінити місце, потрібне для зберігання одного знімка, у майбутньому: <40 МБ на знімок. Навіть якщо буде додано врахування версій файла (групування різних варіантів фотографії у одному файловому елементі), існує тенденція до використання скриптування змін, отже додаватиметься лише незначна різниця, а не цілий знімок для кожної з версій.
Щоб оцінити плановий об’єм сховища знімків, просто помножте кількість фотографій, які ви знімаєте протягом року (цю кількість дуже просто визначити за допомогою вкладки шкали часу бічної панелі digiKam) на 40 МБ. Більшість користувачів обмежується менше, ніж 2000 знімками на рік, що потребуватиме менше за 80 ГБ/рік. Якщо припустити, що ви мінятимете ваш жорсткий диск (або будь-який інший майбутній носій даних) кожні 4-5 років, природного приросту місткості носіїв з головою вистачить для покриття ваших потреб.
Тим амбіційним фотографам, яким знадобиться більше місця, можливо, набагато більше, варто розглянути можливість придбання файлового сервера. Сьогодні гігабітний Ethernet інтегрується у материнські плати, і передавання файлів локальною мережею може бути неймовірно швидким. А якщо вам не потрібно так багато даних, варто розглянути сучасні материнські плати з підтримкою швидких SSD. Кілька терабайт швидких SSD зі з’єднанням Thunderbolt 5, і ваша бібліотека зображень просто літатиме.
Резервне копіювання та відновлення¶
6% всіх персональних комп’ютерів страждають від подібної втрати даних щороку. Вас попереджали, отже у втраті даних ви можете звинувачувати лише себе. Місткі HDD і SSD зараз не такі вже і дорогі. Придбайте їх і Виконуйте планове створення резервних копій ваших даних, створюйте резервні копії. Більше того, вам слід перевіряти резервні копії перед кожною значною дією на зразок перевстановлення операційної системи, зміни дисків, зміни розмірів розділів тощо.
Запобігання катастрофам¶
Припустімо, ви з релігійною упертістю робите резервні копії на зовнішньому диску SATA. Надійде день, коли вдарить блискавка. Добре, якщо ваш зовнішній диск, як у більшості користувачів, у цей час не буде з’єднано з комп’ютером.
Катастрофи є локальними і руйнівними нещастями. Забудьте про авіакатастрофи: пожежа, повінь, негаразди з електропостачанням, діти і крадіжка є досить небезпечними для ваших даних. Подібні катастрофи, зазвичай, призводять до знищення усього вмісту певної кімнати або навіть будинку.
Отже, запобігання таким катастрофам означає розподілене зберігання. Зберігайте ваші резервні копії на горищі, у іншому будинку, або навіть на робочому місці.
У фізичного відокремлення є і добра сторона: як ми вже говорили, паніка часто спричиняє знищення даних, навіть резервних даних. Створення віддаленої резервної копії може одного дня врятувати ваші дані.
Технічні подробиці щодо резервного копіювання¶
Повна резервна копія: створення повна резервна копія всіх файлів. Це знімок даних без історії, він відповідає повній копії даних у певний момент часу.
Диференційована резервна копія: резервна копія лише тих файлів, які було змінено з часу попереднього створення повної резервної копії. Повний знімок у такому випадку складається з даних для двох моментів часу: моменту часу створення повної резервної копії та останньої диференційованої резервної копії.
Додаткове копіювання: створення резервної копії лише тих файлів, які було змінено з часу останнього резервного копіювання у наборі. Резервна копія складається з декількох знімків. Ви можете відтворити початковий стан на час створення будь-якої з цих копій. Це робить систему близькою до системи керування версіями за винятком того, що ця система дискретна, а не неперервна.
Резервне копіювання даних¶
Найкращим підходом є резервне копіювання даних:
робіть повні резервні копії зовнішніх пристроїв зберігання даних.
перевіряйте цілісність даних на таких пристроях і вилучайте несправні пристрої (запобігання катастрофам).
тримайте при собі додатковий пристрій зберігання для створення частих резервних копій.
міняйте пристрої через кожні два місяці після перевірки цілісності даних.
Корисний інструмент для резервного копіювання¶
rsync для Linux — це чудовий невеличкий інструмент, який фантастично просто налаштувати на ваших комп’ютерах. Окрім можливості створення запрограмованих сеансів FTP або інших форм програмного передавання файлів, rsync копіює лише відмінності між файлами, які було насправді змінено у стиснутій формі або за допомогою ssh, якщо ви бажаєте вжити заходів безпеки. І це лише невелика частина переліку можливостей.
Розумним підходом до створення резервних копій зображень буде такий:
створюйте резервні копії важливих зображень одразу ж (після збереження їх на комп’ютері) на оптичних носіях
виконуйте щоденне нарощувальне резервне копіювання робочих тек.
щотижня створюйте диференційовану резервну копію і вилучайте загальні резервні копії двотижневої давності.
щомісяця створюйте диференційовану резервну копію і вилучайте резервну копію двомісячної давності.
якщо носій даних резервного копіювання ще не відокремлено фізично, зробіть це зараз (створюйте копію на іншому резервному диску).
За використання цього протоколу у вас залишається достатньо часу для визначення втрат і відновлення повноцінної копії, якщо потрібно, у той же час розмір резервної копії складає <130% від розмірів робочої копії. Вам знадобляться щоденні версії за попередні 7-14 днів, щотижневий знімок протягом принаймні одного місяця і один знімок кожного місяця. Додаткове зменшення об’єму даних можна виконати вручну після повної перевірки.
Вам також варто розглянути кроки для захисту ваших зображень від змін у технології і правах власності.
Для того, щоб ваші дорогоцінні зображення пережили одне-два покоління людей, можна скористатися двома стратегіями:
Йдіть у ногу з технологією, не залишайтеся позаду більше, ніж на пару років.
Зберігайте дані ваших фотографій у відкритих, непатентованих форматах.
Ідіть нога у ногу з новітніми технологіями¶
Майбутнє непередбачуване за своєю природою, але поступ технологій неминучий. Принаймні кожні 5-8 років ви маєте поставити собі питання щодо зворотної сумісності сучасних систем. Чим меншою кількістю варіантів ви користувалися у минулому, тим на меншу кількість питань вам доведеться відповідати у майбутньому.
Звичайно ж, кожного разу, коли ви змінюватимете вашу комп’ютерну систему (обладнання, операційну систему, програми, DRM), вам слід ставити собі ті самі питання. Сьогодні, якщо ви бажаєте перейти на використання Windows, вам слід тричі подумати про те, чи зможете ви імпортувати ваші зображення, і, що ще важливіше, чи зможете ви перевести ці зображення на якусь іншу систему або комп’ютер. Досить ймовірно, що ви не зможете цього зробити, якщо прив’язані до пропрієтарних систем. Автор спостерігав за багатьма людьми, які зіткнулися з проблемами, оскільки Windows примусово використовується строгий режим DRM. Як ви зможете довести Windows, що ви насправді є власником авторських прав на ваші зображення?
Вирішенням цієї проблеми є використання лише відкритих стандартів, підтримку яких передбачено у декількох програмах.
Зараз віртуалізацією може скористатися будь-хто. Отже, якщо у вас є операційна система, яка є важливою для читання ваших зображень, не викидайте диски з нею: за потреби встановіть її у віртуальній машині.
Інша порада дуже проста: кожного разу, коли змінюєте архітектуру вашого комп’ютера, ваше сховище даних та технологію створення резервних копій, ваш формат файлів, огляньте вашу бібліотеку і, за потреби, перетворіть файли зображень у файли у новому форматі. І користуйтеся відкритими стандартами.
Масштабованість¶
Масштабованість — це слово на технічному жаргоні, яке позначає можливість зміни розмірів сховища системи, що завжди означає збільшення.
Припустімо, що ви плануєте збільшення розмірів системи і зберігаєте сховище збірки ваших зображень, розміри якого бажаєте збільшити, на окремому диску або розділі. У системах Linux ви згодом зможете скопіювати і змінити розміри сховища на новому диску.
Використання відкритих форматів файлів¶
Коротка історія цифрової ери протягом останніх 20 років знову і знову доводить нам, що пропрієтарні формат не є надійними, якщо ви бажаєте користуватися вашими даними протягом наступних 10 років з часу запису. Яскравим прикладом подібного ставлення до користувачів є Microsoft через домінування цієї компанії на ринку. Але інші компанії є насправді (навіть ненавмисно) ще гіршими, оскільки ці компанії можуть не втриматися на ринку достатньо довго або мають лише невелику базу користувачів та розробників. У випадку з Microsoft ви матимете принаймні перевагу у тому, що ваші проблеми поділятиме досить багато людей. Ймовірність успіху у пошуку розв’язання проблеми у такому разі значно зросте. Крім того, подеколи Microsoft використовує документацію до вільного програмного забезпечення, щоб зрозуміти поведінку власної системи, настільки поганим є стан власної документації корпорації. Зазвичай, наприклад, у комплексу програм MSoffice виникають проблеми з читанням документів, створених за допомогою таких самих програм або парою версій старіших за поточні.
На щастя, формати зберігання зображень живуть довше за формати офісних документів, отже дещо менше вражені хворобою застарівання.
Відкриті стандарти мають величезну перевагу у відкритості специфікації. Навіть якщо одного дня у майбутньому ви не зможете знайти програмного забезпечення для читання даних у певному відкритому форматі, ви завжди зможете відтворити таке програмне забезпечення лише на основі специфікації.
JPEG зараз повсюди, і хоча це формат зберігання даних з втратою якості, якість зображення у якому падає після кожної зміни і збереження, цей формат можна зустріти будь-де, він підтримує метадані у форматі JFIF, Exif, IPTC і XMP, має непогані характеристики стискання і може бути прочитаний будь-яким програмним забезпеченням для роботи з зображеннями. Через обмеження метаданих, природну втрату якості, відсутність прозорості і 8-бітову глибину кольорів, ми не рекомендуємо користуватися цим форматом. Формат JPEG2000 є кращим, реалізовує стискання без втрат, але не користується популярністю.
GIF є патентованим форматом, він повільно зникає з ринку. Не використовуйте цей формат.
PNG було створено як відкритий стандарт для заміни GIF, але цей формат переріс подібні завдання. У ньому можна зберігати дані без втрат, передбачено підтримку метаданих XMP, Exif і IPTC, кодування 16-бітових кольорів і повна прозорість. PNG може зберігати гаму і дані хроматичності для покращення показу кольорів на різних платформах. Його недоліками є відносно великий розмір файлів (втім, менший за розмір TIFF) і повільне стискання. Рекомендуємо користуватися цим форматом.
TIFF раніше широко використовувався для зберігання зображень. Зображення у форматі TIFF можна зберігати у нестисненій формі або у контейнері, стиснутому за допомогою алгоритму стискання без втрат (Deflate). У форматі передбачено зберігання зображень з високою якістю, але це призводить до створення файлів невиправдано великого розміру. Зберігання зображень у цьому форматі передбачено на деяких фотоапаратах. Проблеми формату полягають у тому, що його вже було змінено стільки разів, що зараз існує понад 50 його різновидів і не з усіма з них можна працювати у довільно вибраній програмі.
PGF «Progressive Graphics File» (прогресивний графічний файл) є ще одним з не дуже відомих, але відкрити форматів зберігання графічних даних Формат засновано на використанні вейвлетів, його можна використовувати для зберігання файлів з втратами і без втрат PGF можна порівняти з JPEG 2000, але основною метою його розробки була швидкість обробки (стискання та видобування), а не максимальний коефіцієнт стискання. За однакового розміру файлів, файл PGF виглядає значно краще за файл JPEG, зберігаючи при цьому дуже високу швидкість поступового (прогресивного) показу. Формат PGF використано у digiKam на внутрішньому рівні для зберігання стиснутих мініатюр у базі даних. Докладніше про формат PGF можна дізнатися з домашньої сторінки libPGF.
RAW-формат (формат цифрових негативів). Деякі фотоапарати, в основному дорогих моделей, підтримують зберігання знімків у форматі RAW. Формат RAW насправді зовсім не є якимось стандартом зберігання зображення, — це просто формат-контейнер, параметри якого є різними у різних виробників і навіть у різних моделях фотоапаратів. Знімки у форматі RAW містять дані з мінімальним рівнем обробки, отримані від датчиків цифрового фотоапарата або цифрового сканера. Файли знімків RAW іноді називають цифровими негативами, оскільки вони виконують ту саму роль, що і плівкові негативи у традиційній фотографії з хімічною обробкою: негатив не можна напряму використовувати як зображення, але він містить всі дані, потрібні для побудови зображення. Зберігання фотографій у форматі цифрового негатива фотоапарата надає змогу отримати ширший динамічний діапазон і змінити інші параметри, зокрема баланс білого, вже після зйомки. Більшість професійних фотографів користуються форматом RAW, оскільки він надає максимальні можливості з обробки знімка. Недоліком формату знімків RAW є надзвичайно великі розміри відповідних файлів.
Автор наполегливо рекомендує вам утриматися від зберігання архіву фотографій у форматі RAW (на відміну від зйомки у форматі RAW, яку він рекомендує використовувати). Немає ніякого сенсу зберігати зображення у початковому форматі RAW. У цьому форматі поєднуються всі погані риси форматів: величезна кількість різновидів та пропрієтарна природа. Очевидно, що за декілька років ви же не зможете скористатися вашими старими файлами цифрових негативів (RAW). Автор вже зустрічався з людьми, які змінили фотоапарат на новіший, втратили профілі кольорів попереднього фотоапарата і отримали величезні труднощі з належною обробкою власних старих файлів RAW. Для зберігання цифрових негативів краще користуватися форматом DNG.
Формат файлів DNG або Digital Negative (цифрових негативів) є форматом, що не передбачає патентних відрахувань, і є відкритим форматом зображень RAW, розробленим компанією Adobe Systems. DNG був відповіддю на питання щодо створення універсального формату файлів цифрових негативів. Цей формат засновано на форматі TIFF/EP, що передбачає використання метаданих. Декілька з виробників фотоапаратів вже використовують DNG, будемо сподіватися, що основні постачальники обладнання, Canon і Nikon, колись теж почнуть його використовувати. Формат Apple ProRAW, який реалізовано починаючи з iPhone 12 Pro Max, засновано на DNG.
З метою зберігання у архіві, автор наполегливо рекомендує вам перетворювати файли цифрових негативів на файли DNG. Хоча DNG і було створено Adobe, цей формат є відкритим, він широко використовується спільнотою розробників вільного програмного забезпечення (що, зазвичай, є непоганим показником його якості). Деякі з виробників вже використовують формат цифрових негативів DNG. Крім того, на сьогодні Adobe є найбільшим виробником програмного забезпечення для роботи з графічними даними, і, звичайно ж, підтримує свою розробку. Цей формат є ідеальним для створення архівів: дані датчиків матриці буде збережено без змін у форматі TIFF, вбудованому у DNG, отже ризик, пов’язаний з використанням пропрієтарних форматів цифрових негативів зникне. Все це робить перехід на іншу операційну систему абсолютно безпроблемним.
XML (Extensible Mark-up Language або розширювана мова розмітки) або RDF (Resource Description Framework або оболонка опису ресурсів). XML подібний до HTML, але HTML здебільшого зосереджено на показі даних, а XML зосереджується на «представленні» даних. Крім того, XML не є пропрієтарним, залежним від операційної системи, простим у інтерпретації, текстовим і дешевим. RDF — це рішення від WC3 для інтегрування наборів різновидів структурованих даних, зокрема бібліотечних каталогів, каталогів у мережі, подач новин, програмного забезпечення, а також збірок музики, зображень та записів подій за допомогою XML як синтаксису обміну даними. Сучасні специфікації містять метод, що використовує просту онтологію на основі Dublin Core, яка підтримує і «Семантичну мережу» (простий спосіб поширення знань інтернетом).
IPTC стає XMP¶
Оце і є, ймовірно, причиною того, що близько 2001 року Adobe було запроваджено власну технологію XMP, засновану на XML, яка має замінити технологію «Блоків ресурсів зображення», що походить з дев’яностих років минулого століття». XMP — це абревіатура від «Extensible Metadata Platform» (розширювана платформа метаданих). Технологія є сумішшю XML і RDF. XMP — це технологія визначення міток, яка надає користувачеві можливість вбудовувати дані щодо файла до іншого файла. Дані про файл зберігаються у файлі з суфіксом назви *.xmp*
(що позначає використання XML/RDF).
XMP. Так само, як дані у форматі ODF можна буде прочитати завжди (оскільки у цьому форматі дані зберігаються у придатній для читання без обробки текстовій формі), XMP збереже ваші дані у придатному для читання форматі XML. Немає абсолютно ніякого ризику втратити можливість прочитати ці дані пізніше. Ці дані можна вбудувати до файлів зображень, або зберігати у окремому супутньому файлі (який Adobe називає «коляски»). XMP можна використовувати у файлах PDF, JPEG, JPEG2000, GIF, PNG, HTML, TIFF, Adobe Illustrator, PSD, PostScript, Encapsulated PostScript та відео. У типовому файлі JPEG дані XMP буде вбудовано поруч з даними Exif і IPTC.
Вбудовування метаданих безпосередньо до файлів надає змогу без проблем поширювати і передавати файли між продуктами, виробниками, платформами, споживачами без втрати метаданих. Найпоширеніші мітки метаданих, записаних у даних XMP, є мітки, визначені Dublin Core Metadata Initiative. Серед цих міток: заголовок, автор тощо. Стандарт було розроблено з врахуванням можливості розширення, що надає користувачам змогу додавати власні нетипові типи метаданих до даних XMP. Загалом кажучи, XMP не передбачає можливості вбудовування бінарних типів даних. Це означає, що будь-які бінарні дані, які хтось хоче зберегти у XMP, наприклад, зображення мініатюр, слід закодувати у дружньому до XML форматі, зокрема Base64.
Багато фотографів віддають перевагу зберіганню оригіналів своїх фотографій (здебільшого у форматі RAW) у архіві. Формат XMP відповідає такому підходу, оскільки метадані зберігаються окремо від файлів зображення. Автор не притримується подібних думок щодо зберігання зображень. Можуть виникнути проблеми з прив’язкою файла метаданих до файлів зображень і, як ми вже казали вище, формати RAW застарівають. Автор рекомендує вам користуватися контейнером DNG і зберігати всі дані до єдиного файла зображення.
Dublin Core Metadata Initiative — це відкрита організація, метою якої є розробка пов’язаних між собою стандартів мережевих метаданих, які б можна було використовувати для задоволення широкого спектру потреб та бізнес-моделей. Серед заходів DCMI робота над архітектурою та моделюванням, обговорення та спільна робота у спільнотах DCMI і групах завдань DCMI, щорічні конференції та виставки, забезпечення взаємодії стандартів та освітні акції з просування стандартів та технологій роботи з метаданими.
Захист ваших даних¶
Використовуйте фільтри сплесків напруги (стандарту UL 1449), за можливості, разом з UPS.
Використовуйте пам’ять ECC з виправленням помилок передавання даних у пам’яті (навіть простого збереження файлів).
Спостерігайте за станом жорстких дисків (температурою, шумом…), створюйте резервні копії.
Зберігайте резервні копії деінде, під замком, користуйтеся сховищами даних у інтернеті.
Використовуйте архівні носії і пристрої запису.
У випадку втрати даних не панікуйте, спочатку порадьтеся щодо вашого плану відновлення даних з експертом.
Вибирайте вашу файлову систему, розділи, теки з міркувань простоти масштабованості.
Використовуйте відкриті, непатентовані формат для роботи з фотографіями і зберігання фотографій.
Переглядайте технології, переходьте на нові принаймні кожні 5 років.