Corrupção e perda de dados

Principais fatores de perda de dados digitais

Embora dados digitais possam ser perdidos se a única cópia de uma mídia digital for roubada ou perdida em um incêndio, esse tipo de perda é o mesmo que pode ocorrer com cópias em papel ou negativos tradicionais. Portanto, falaremos aqui sobre outras fontes de perda de dados digitais que podem ser categorizadas, grosso modo, nas seguintes áreas de preocupação:

  • A deterioração física da mídia (todas as mídias se deterioram em taxas diferentes).

  • Erros de transmissão não detectados durante a transferência de dados.

  • A falta de suporte de longo prazo para formatos digitais proprietários.

  • Hardware antigo.

A Kroll Ontrack, a maior empresa de recuperação de dados do mundo, tem algumas estatísticas interessantes sobre o que realmente causa perda de dados.

Causas da perda de dados

Percepção

Realidade

Problemas com o sistema ou com o hardware

78%

56%

Erro humano

11%

26%

Corrupção ou problema com software

7%

9%

Vírus de computador

2%

4%

Desastre

1-2%

1-2%

Então vamos analisar esses casos passo a passo.

Deterioração do armazenamento

Os dispositivos listados abaixo são classificados por velocidade de acesso aos dados, do mais lento para o mais rápido.

Mídia magnética

Fitas magnéticas são comumente usadas em sistemas de backup profissionais, mas raramente em sistemas domésticos. As fitas apresentam problemas com a retenção de dados a longo prazo, podem ser danificadas por campos magnéticos fortes e a tecnologia de fitas está em constante mudança. No entanto, as fitas são mais seguras em alguns aspectos do que unidades ópticas: são menos suscetíveis a arranhões, sujeira e erros durante a gravação. Para evitar problemas de retenção de dados a longo prazo, as fitas devem ser recopiadas a cada 5 a 8 anos, caso contrário, muitos bits falharão para que a proteção por verificação de soma os corrija. A desvantagem das fitas magnéticas é que as unidades de fita são caras e o tempo de restauração de dados pode ser 20 vezes maior do que o de um disco rígido. Os sistemas de backup em fita são mais adequados para grandes ambientes profissionais que precisam fazer backup de grandes quantidades de dados.

Drives ópticos

Você pode se surpreender ao saber que muitos CD-Rs se deterioram fisicamente mais rápido do que o filme. No entanto, embora o filme possa durar décadas a mais do que algumas mídias ópticas, as mídias digitais que são regularmente armazenadas em backup nunca perdem nada. O filme começa a se deteriorar no momento em que é criado e revelado – os 1s e 0s digitais não. O filme nunca terá a mesma cor e contraste de quando foi criado. No meio digital isso não acontece. No entanto, a mídia digital é suscetível à corrupção.

Todas as mídias ópticas são propensas a erros, mesmo quando recém-gravadas. Por isso, são fortemente protegidas com códigos de correção de erros que ocupam 25% do espaço efetivo de armazenamento do disco. Mas mesmo com essa proteção maciça, elas ainda sofrem deterioração devido ao envelhecimento químico, exposição ultravioleta, arranhões, poeira, etc.

Um CD ou DVD comum, bem cuidado, não deve durar mais do que alguns anos. Você pode comprar CDs e DVDs com qualidade de arquivamento, que duram muito mais, mas são mais difíceis de obter e muito mais caros. Existem ofertas de mídias ópticas banhadas a ouro que custam alguns euros cada, mas que prometem uma vida útil de 100 anos (acredite se quiser).

Eventualmente, todos os discos ópticos se tornarão ilegíveis, mas você pode reduzir o risco usando discos de boa qualidade, um gravador de boa qualidade e armazenando o disco de forma adequada. Os melhores gravadores de unidade óptica não são muito mais caros que os mais baratos, mas gravam de forma muito mais confiável. É uma questão de escolher o modelo certo.

Para unidades ópticas danificadas, consulte na Wikipédia a lista dos aplicativos mais comuns projetados para obter dados de disquetes danificados, discos rígidos, mídia flash, como memória de câmera e unidades USB, e assim por diante.

O disco Blu-ray de camada dupla pode armazenar 50 GB, quase seis vezes a capacidade de um DVD de camada dupla, que suporta 8,5 GB. Tudo o que foi dito sobre CDs/DVDs também se aplica aos discos Blu-ray.

Boas práticas: Grave mídias ópticas lentamente com um bom gravador, em mídia de qualidade de arquivamento, em um formato aberto e não proprietário. Releia os dados para verificá-los. Identifique-os com algum texto descritivo, data e autor. Guarde-os em local limpo, escuro, seguro contra animais e seco. E não se esqueça de copiá-los para a próxima geração de mídia antes de descartar seu último hardware ou software capaz de lê-los.

Discos rígidos

Os fabricantes de discos rígidos (HDD) mantêm suas estatísticas em segredo. A garantia do fabricante garante a compra de um disco novo, mas não há dados sobre sua durabilidade. A Backblaze, uma provedora de armazenamento, relatou uma taxa de falhas anualizada de 1,5% em 2023, com base em um inventário de 237.278 discos rígidos. O Google realizou um estudo em larga escala sobre os mecanismos de falha de HDDs, apontando Tendências de falhas em uma grande população de discos rígidos.

Em resumo: os discos duram mais tempo quando operam entre 35 °C e 45 °C. Pode parecer contraintuitivo, mas as taxas de falhas em HDDs aumentam drasticamente em temperaturas mais baixas. As peças do controlador (eletrônicas) são as principais fontes de falhas, uma fonte de erro que o SMART não diagnostica. Alguns erros do SMART são indicativos de falha iminente, em particular erros de varredura e contagens de realocação. A expectativa de vida útil é de 4 a 5 anos.

Em geral, e contrariamente à intuição ou a considerações ecológicas, usar um disco rígido continuamente resulta em uma vida útil mais longa do que ligá-lo e desligá-lo constantemente. Há relatos de que a vida útil de um HDD pode ser reduzida por um gerenciamento de energia agressivo, que reduz a velocidade de rotação do disco. Portanto, os piores fatores para um HDD são provavelmente vibrações, choques e baixas temperaturas.

Se o seu disco começar a fazer ruídos estranhos, um software comum de recuperação de arquivos não vai ajudar. Faça um backup rápido. (Use o utilitário dd se possível, não um backup de arquivos comum, pois o dd lê em um fluxo suave e espiral do início ao fim e não sobrecarrega a mecânica). Existem empresas especializadas que podem recuperar dados de um disco com defeito, mas o processo é muito caro.

O pacote Linux SmartMonTools permite que você consulte os dispositivos de hardware de armazenamento para detectar falhas futuras. Recomendamos fortemente o uso deste tipo de ferramenta em seu computador.

Drives de estado sólido

SSDs são mecanicamente mais robustos e muito mais rápidos que os HDDs. Os SSDs estão substituindo os HDDs à medida que a capacidade e o preço se tornaram mais competitivos, tornando-os uma solução cada vez mais vantajosa como dispositivos de armazenamento permanente de dados.

A Backblaze, uma provedora de armazenamento, relatou uma taxa de falhas anualizada de 1% em 2023, com base em um inventário de 3.144 SSDs. Portanto, os SSDs são melhores que os HDDs, mas também não são 100% confiáveis.

Quando SSDs são usados ​​como dispositivos externos, uma das principais causas de perda de dados (muitas vezes recuperável) é a remoção insegura do SSD do computador. Antes de os dados serem salvos da memória do computador para qualquer dispositivo conectado, eles são armazenados por algum tempo em um buffer. Em discos rígidos, isso significa segundos no máximo, enquanto com SSDs pode levar dezenas de minutos. Portanto, antes de desconectar um dispositivo flash, certifique-se sempre de que os buffers de dados tenham sido esvaziados usando os recursos de remoção segura do dispositivo do seu sistema operacional.

Memória não volátil

NVM Express (NVMe) é a sigla em inglês para Memória Não Volátil. Ela é uma interface de dispositivo lógico para acessar a mídia de armazenamento não volátil de um computador conectada ao barramento PCI Express (PCIe). Ela utiliza a mesma memória flash NAND extremamente rápida usada em SSDs, mas utiliza a interface de placas M.2 em vez do mSATA mais lento usado em HDDs mais antigos.

O NVMe permite que o hardware e o software hospedeiro explorem ao máximo os níveis de paralelismo possíveis em SSDs modernos. O NVMe reduz a sobrecarga de E/S e traz diversas melhorias de desempenho em relação aos SSDs anteriores. Os protocolos de interface mSATA foram desenvolvidos para uso com HDDs muito mais lentos, onde existe um atraso muito longo entre uma solicitação e a transferência de dados, e onde as velocidades de dados são muito mais lentas do que as velocidades da RAM.

Como os dispositivos NVMe usam o mesmo hardware que os SSDs para armazenar dados, sua confiabilidade deve ser semelhante.

Importante

Em todos os casos, SSDs ou NVMe como dispositivos internos são a solução mais moderna e eficiente para hospedar os bancos de dados do digiKam e suas coleções de imagens.

Falhas no fornecimento de energia

Picos de energia

Cerca de 1% de todos os computadores são afetados por raios e picos de energia todos os anos.

Esta seção aborda a perda total de dados devido a picos de energia. É claro que você pode sofrer perdas ocasionais de dados devido a uma queda de energia ao salvar arquivos. Mas essas perdas normalmente podem ser restauradas sem grandes dificuldades.

Você não precisa esperar pela próxima tempestade para se preocupar com o impacto de uma flutuação repentina de energia elétrica no seu computador. Estatísticas recentes mostram que até 63% de todos os acidentes com eletrônicos são causados ​​por problemas de energia, e a maioria dos computadores está sujeita a duas ou mais falhas de energia por dia. Como picos de energia ou apagões podem ocorrer em qualquer lugar e a qualquer hora, faz sentido proteger seu computador investindo em algum tipo de dispositivo de proteção contra surtos.

Como ocorrem os picos de energia

Uma sobrecarga de energia ocorre quando a tensão da rede elétrica aumenta acima dos valores nominais por mais de 10 milissegundos. Sessenta por cento de todas as sobrecargas de energia são causadas dentro de casa ou do escritório, geralmente quando um dispositivo com motor (como uma secadora de roupas, geladeira ou bomba d’água) desliga e a energia que estava consumindo é desviada para outro lugar como excesso de tensão. Os 40% restantes das sobrecargas de energia são gerados por fatores como raios, comutação da rede elétrica, sobretensão, fiação defeituosa, entre outros.

Embora a maioria dos dispositivos elétricos não seja afetada por picos de energia, dispositivos que dependem de chips de computador e microprocessadores de alta velocidade são suscetíveis a danos graves. Anomalias de energia que afetam seu computador podem resultar em travamento do teclado, perda total de dados, degradação do hardware, danos à placa-mãe e muito mais. Deixar de se proteger contra o inevitável pode resultar em perda de tempo e dinheiro.

Protetores contra surtos de energia

A defesa mais comum contra surtos de energia é um protetor ou supressor de surtos, um dispositivo que funciona absorvendo parte do excesso de energia e desviando o restante para o terra. Geralmente, eles são encontrados na forma de um filtro de linha (um daqueles dispositivos longos com cerca de seis tomadas e um único plugue aterrado). Lembre-se, no entanto, de que nem todo filtro de linha serve como protetor contra surtos.

Ao escolher seu protetor contra surtos, certifique-se de que ele atenda à norma UL 1449, que garante um nível mínimo de proteção. Você também deve procurar um que ofereça proteção contra raios (nem todos oferecem) e que ofereça seguro para equipamentos devidamente instalados.

Como uma oscilação de energia pode chegar ao seu computador por qualquer caminho, certifique-se de que todos os periféricos conectados ao seu sistema estejam protegidos. Isso inclui sua linha telefônica ou modem a cabo, pois a energia também pode passar por essas rotas. Vários fabricantes estão produzindo supressores de surtos que incluem uma entrada telefônica para o modem e as tomadas elétricas, enquanto outros oferecem entradas para cabos coaxiais para quem usa um modem a cabo ou uma placa sintonizadora de TV.

Se você tem um notebook, também precisará de um supressor de surtos. Há uma variedade de supressores projetados especificamente para notebooks. São pequenos e possuem tomadas elétricas e telefônicas, o que os torna ideais para uso em trânsito.

Fonte de alimentação ininterrupta

Embora um supressor de surtos proteja seu sistema contra pequenas flutuações nas linhas de energia, ele não ajudará em caso de queda de energia. Mesmo uma queda de energia de apenas alguns segundos pode resultar na perda de dados valiosos, então pode valer a pena investir em uma Fonte de Alimentação Ininterrupta (UPS, sigla em inglês). No Brasil, são popularmente conhecidos como no-breaks.

Além de servirem como supressores de surtos, esses dispositivos alternam automaticamente para a alimentação por bateria quando ocorre uma queda de energia, permitindo que você salve dados e desligue o sistema. Alguns modelos permitem até que você continue trabalhando até que a energia seja restaurada. Ao comprar um UPS ou nobreak, certifique-se de que ele tenha as mesmas qualidades que você buscaria em um supressor de surtos, mas verifique também a duração da bateria e o software incluso.

Considerando o risco potencial para o seu sistema de computação, garantir sua segurança contra interrupções de energia é um investimento que vale a pena. Um filtro de linha de qualidade ou um nobreak de 500 W não são muito caros para a tranquilidade que você terá ao saber que seu computador está bem protegido. No mínimo, considere desconectar todos os cabos do seu computador quando for viajar.

Política de Salvaguarda

Serviços de armazenamento na Web

A Amazon Web Services inclui o S3 - Simple Storage Service. Com a configuração adequada, você pode montar o S3 como uma unidade em sistemas Linux, Mac e Windows, permitindo usá-lo como destino de backup para seus softwares favoritos. O Google Drive é outro serviço popular de armazenamento em nuvem que permite armazenar uma quantidade infinita de dados.

O armazenamento em nuvem é caro comparado aos discos rígidos domésticos. E você precisa transferir as imagens pela internet relativamente lenta. Mas acreditamos que o armazenamento em nuvem pode ser uma proteção útil contra a perda localizada de dados das imagens mais essenciais.

O Google Fotos e o Flickr oferecem serviços de armazenamento online especializados em fotografias. O espaço gratuito é limitado, então você não vai querer armazenar imagens em resolução máxima online. Mas as contas pagas oferecem mais espaço.

Soluções baseadas na web provavelmente são bastante seguras em termos de retenção de dados. Erros de transmissão são corrigidos automaticamente (graças ao protocolo TCP) e as grandes empresas geralmente incluem backups e armazenamento distribuído, o que as torna à prova de desastres.

O digiKam fornece uma ferramenta para exportar itens para o serviço Web da iNaturalist

Erros de transmissão

A perda de dados não ocorre apenas em dispositivos de armazenamento; os dados também podem ser perdidos ao trafegar dentro do computador ou através de redes (embora o próprio tráfego de rede via TCP seja protegido contra erros). Ocasionalmente, ocorrem erros nos barramentos internos do computador e nos chips de memória. O hardware comum não possui proteção contra erros aleatórios de bits, mas existe tecnologia para monitorar e corrigir erros. Você pode comprar memória protegida por ECC (sigla em inglês para Código de Correção de Erro), que funcionará com uma placa-mãe com suporte a ECC, embora seja cara. Com a RAM com ECC, pelo menos a memória será monitorada em busca de erros de bit único e corrigida. Erros de bit duplo podem escapar da detecção, mas ocorrem com pouca frequência para se preocupar.

O fluxo de trabalho de dados entre o aplicativo e a mídia de armazenamento

Este diagrama descreve os elementos da cadeia de transmissão em um computador. Todas as transições são suscetíveis a erros de transmissão. Os sistemas de arquivos ZFS e BTRFS do Linux são projetados para garantir a integridade do caminho do sistema operacional para o disco.

A Taxa de Erro de Bits (BER, sigla em inglês) para canais de memória e transmissão é da ordem de 1 em 1 trilhão (1E-12 por bit). Isso significa que 1 em 3.000 imagens de trinta megabytes apresenta um erro devido a um problema de transmissão. O quão drástico isso é para uma imagem é algo que depende do acaso. Pode significar que a imagem seja destruída ou que um pixel em algum lugar alterou seu valor. Mas, devido à compressão usada em quase todas as imagens, não é possível prever o impacto de um único erro de bit.

O pior de tudo é que provavelmente não haverá nenhum aviso do seu hardware quando ocorrer um erro de transmissão ou de memória. Todas essas falhas ocorrerão despercebidas, até que um dia você abre a fotografia e, para sua surpresa, ela está corrompida. Parece preocupante que não haja proteção contra erros de transmissão dentro de um computador. É impressionante que a internet (protocolo TCP) seja muito mais segura como caminho de dados do que dentro de um computador.

Fontes de alimentação instáveis ​​são outra fonte de perdas durante a transmissão, pois criam interferência nos fluxos de dados. Em muitos sistemas de arquivos comuns, esses erros podem passar despercebidos.

O futuro dos sistemas de arquivos

O ZFS da Oracle parece ser um dos dois candidatos a lidar com erros de disco em um nível baixo, e é altamente escalável. É de código aberto, altamente patenteado, vem com uma licença incompatível com a GPL e está disponível para Linux e macOS.

A Oracle também introduziu seu sistema de arquivos BTRFS. Ele emprega a mesma técnica de proteção do ZFS e está disponível no Linux.

Erros humanos

Roubo e acidentes

Não subestime o potencial de perda de dados por roubo ou acidente. Esses dois fatores são responsáveis ​ ​por 86% das perdas de dados em notebooks e 46% em desktops. No caso de notebooks, o roubo representa 50%.

Malware

A perda de dados devido a vírus é menos grave do que o senso comum sugere. Ela causa menos danos do que roubos ou reinstalações, por exemplo. Enquanto o malware costumava se limitar principalmente aos sistemas operacionais Microsoft, a frequência de ataques a sistemas Linux e Apple aumentou.

O homem e a perda de dados

O erro humano, como em tudo, é um grande problema na perda de dados. As pessoas fazem coisas realmente estúpidas. Usuários experientes podem extrair o disco errado de um array RAID ou reformatar um disco, destruindo todas as suas informações. Agir sem pensar é perigoso para os seus dados.

Quando algo der errado, respire fundo e não entre em pânico. A melhor abordagem é elaborar um plano antes de tomar qualquer atitude que possa causar perda significativa de dados. Em seguida, sente-se e explique seu plano a um leigo, ou melhor ainda, a uma leiga. Você ficará surpreso com a quantidade de erros estúpidos que podem ser evitados simplesmente elaborando um plano e explicando-o a outra pessoa.

Se o seu disco começar a fazer ruídos estranhos, um software comum de recuperação de arquivos não vai ajudar. Faça um backup rápido. Se o disco ainda estiver girando e você não conseguir encontrar seus dados, procure um utilitário de recuperação de dados e faça o backup em outro computador ou unidade. Uma solução universal e poderosa pode ser usar o pacote de código aberto CloneZilla. O importante é baixar seus dados para outro disco, seja em outro computador, seja em um pen drive USB ou disco rígido. Nesse caso, é sempre uma boa prática salvar os dados recuperados em outro disco. A ferramenta dd é sua amiga em sistemas Linux.

Mitos comuns derrubados

Gostaríamos de derrubar alguns mitos comuns:

  • Os sistemas de arquivos de código aberto são menos propensos à perda de dados do que os sistemas proprietários: Errado, o NTFS é um pouco melhor que o ext4, ReiserFs, JFS, XFS, para citar apenas os sistemas de arquivos mais populares que geralmente vêm como formato de armazenamento em disco padrão usado por distribuições.

  • Sistemas de arquivos com recurso de journal previnem corrupção/perda de dados: Errado, eles apenas aceleram o processo de verificação em caso de interrupção repentina durante uma operação e evitam estados ambíguos. Mas se um arquivo não tiver sido totalmente salvo antes do incidente, ele será perdido.

  • Sistemas RAID previnem corrupção/perda de dados: Geralmente errado, RAID 0 divide os dados sem redundância, o que na verdade torna você mais propenso à perda de dados. RAID 1 grava dados espelhados, prevenindo a perda de dados devido a uma única falha de leitura de disco, mas não outras falhas. RAID 5 também pode prevenir a perda de dados devido a falhas de disco, mas não por erros do sistema de arquivos ou do controlador RAID. Muitos controladores RAID de baixo custo (como a maioria dos controladores de placa-mãe) não relatam problemas, imaginando que você nunca notará. Se você notar, meses depois, qual é a chance de saber que foi culpa do controlador? Um problema insidioso é a corrupção dos dados de paridade do RAID 5. É bem simples verificar um arquivo lendo-o e comparando os metadados. Verificar os dados de paridade é muito mais difícil, então você normalmente não verá erros de paridade até uma reconstrução. Então, é claro, é tarde demais.

  • Vírus são a maior ameaça aos dados digitais: Errado. Roubo e erros humanos são as principais causas de perda de dados.

Estimativa de volume de armazenamento

Os sensores de câmeras digitais estão a 1-2 pontos de abertura de distância das limitações físicas fundamentais da detecção de luz. O que queremos dizer é o seguinte: à medida que a tecnologia evolui, há um limite natural para o seu progresso. As características de sensibilidade e ruído de qualquer tipo de sensor de luz não estão muito longe desse limite.

As câmeras atuais tendem a usar sensores de 50 megapixels, embora essa resolução não seja necessariamente aparente no resultado final. Considerando o tamanho do sensor e a qualidade da óptica, 12 megapixels são ideais para câmeras compactas. Mesmo as câmeras DSLR atingem seus limites com 20-24 megapixels. Para resoluções mais altas, é preciso optar por sensores full frame (24x36 mm) ou formatos ainda maiores.

Portanto, levando em consideração a propaganda do fabricante em relação aos megapixels, parece seguro afirmar que a maioria das câmeras futuras suportará menos de 30 megapixels. Isso fornece uma base para estimar o espaço de armazenamento necessário para cada fotografia futura: <40 MB por imagem. Mesmo com a introdução do versionamento de arquivos (agrupamento de variações de uma fotografia sob uma única referência de arquivo), a tendência é registrar apenas as instruções usadas para produzir a nova versão, de modo que apenas uma pequena quantidade de dados precise ser registrada, em vez de uma cópia completa dos dados, para cada versão da imagem.

Para estimar a quantidade de espaço de armazenamento que você precisa planejar, basta determinar o número de fotos que você tira por ano (fácil com a aba da barra lateral de linha do tempo do digiKam) e multiplicar por 40 MB. A maioria dos usuários guarda menos de 2.000 fotos por ano, o que requer menos de 80 GB/ano. Supondo que você troque seu disco rígido (ou qualquer mídia no futuro) a cada 4 ou 5 anos, o aumento natural na capacidade de armazenamento deve ser suficiente para mantê-lo à frente de suas necessidades de armazenamento.

Fotógrafos ambiciosos que precisam de mais espaço, talvez muito mais, devem considerar comprar um servidor de arquivos. A GigaEthernet já vem integrada às placas-mãe e a transferência de arquivos pela rede local pode ser extremamente rápida. E se você não precisa de tantos dados, considere placas-mãe modernas com suporte para SSDs rápidos. Alguns terabytes de SSD rápido conectados via Thunderbolt 5 podem fazer sua biblioteca de imagens voar.

Backup e Recuperação

6% de todos os PCs sofrerão algum episódio de perda de dados a cada ano. Você foi avisado, então não terá mais ninguém para culpar quando uma falha de armazenamento acontecer. HDDs e SSDs multiterabytes não são muito caros. Compre um e use-o para fazer backup dos seus dados com frequência, de acordo com um plano. Melhor ainda, você deve fazer backup dos seus dados e testar o backup antes de fazer qualquer coisa drástica, como reinstalar o sistema operacional, trocar de disco, redimensionar partições e assim por diante.

Prevenção de desastres

Digamos que você faça backups religiosos todos os dias em um HD externo SATA. Aí chega o dia em que um raio cai. Feliz de você, a menos, é claro, que você seja como a maioria das pessoas e mantenha seus HDs externos sempre conectados ao computador.

Desastres que ocorrem localmente podem destruir muita coisa de uma só vez. Esqueça os acidentes de avião: incêndio, água, eletricidade, crianças e roubo são suficientemente perigosos para os nossos dados. Desastres domésticos costumam destruir um cômodo inteiro ou até mesmo a casa inteira.

Portanto, o controle de desastres significa armazenamento deslocalizado. Troque ocasionalmente os backups, movendo um para o andar de cima, para outra casa ou até mesmo para o seu local de trabalho.

Há outro bom motivo para separar fisicamente seus backups. Como mencionado acima, o pânico frequentemente leva a erros que destroem dados, até mesmo os de backup. Manter um backup remoto pode lhe dar tempo suficiente para pensar e, portanto, evitar um erro estúpido.

Tecnicalidades do backup

  • Backup Completo: Um backup completo de todos os arquivos que estão sendo copiados. É um instantâneo sem histórico, representando uma cópia completa dos seus dados em um determinado momento.

  • Backup Diferencial: Um backup apenas dos arquivos que foram alterados desde o último backup completo. Constitui um instantâneo completo de dois pontos no tempo: o backup completo e o último backup diferencial.

  • Backup Incremental: Um backup apenas dos arquivos que foram alterados desde o último em um conjunto de backups. Constitui múltiplos instantâneos. Você pode recriar o estado original a qualquer momento em que o backup foi feito. Isso se aproxima mais de um sistema de versionamento, exceto pelo fato de ser apenas por amostra e não contínuo.

Backup dos dados

A melhor prática de backup de dados é:

  • Faça um backup completo em um dispositivo de armazenamento externo.

  • Verifique a integridade dos dados e guarde-o (controle de desastres).

  • Tenha outro dispositivo de armazenamento para backups frequentes.

  • Troque os dispositivos a cada dois meses após verificar a integridade dos dados.

Uma ferramenta útil para backups

O rsync do Linux é um pequeno utilitário maravilhoso e incrivelmente fácil de configurar em suas máquinas. Em vez de ter uma sessão FTP com script ou algum outro tipo de script de transferência de arquivos, o rsync copia apenas as diferenças dos arquivos que foram realmente alterados, compactado-os e transmitindo-os via SSH (se você quiser, por segurança). É realmente muito bom.

Uma abordagem razoável de backup para imagens poderia ser:

  • Faça backup de imagens importantes imediatamente (após salvá-las em um computador) em mídia ótica.

  • Faça um backup incremental diário do espaço de trabalho.

  • Faça um backup diferencial semanal e exclua os backups integrais da semana 2 (duas semanas atrás).

  • Faça um backup diferencial mensal e exclua o backup do mês 2.

  • Se a mídia de backup ainda não estiver fisicamente separada, separe-a agora (trocando por outra unidade de backup).

Este protocolo tenta dar a você tempo suficiente para identificar perdas e se recuperar totalmente, se necessário, mantendo o volume de backup em <130% do espaço de trabalho. Você obtém uma versão diária dos últimos 7 a 14 dias, um instantâneo semanal por pelo menos um mês e um instantâneo mensal. Qualquer redução adicional deve ser feita manualmente após uma verificação completa.

Você também deve considerar medidas para preservar suas imagens durante quaisquer mudanças na tecnologia e propriedade.

Para que suas valiosas imagens sobrevivam a uma ou duas gerações, há duas estratégias a serem observadas:

  • Acompanhe a tecnologia, não fique para trás mais do que alguns anos.

  • Salve suas fotos em um padrão aberto e não proprietário.

Fique por dentro da tecnologia

Embora o futuro seja fundamentalmente imprevisível, o progresso tecnológico parece ser uma certeza inevitável. A cada 5 a 8 anos, você deve considerar a questão da compatibilidade retroativa dos sistemas atuais. Quanto menos variantes usamos no passado, menos perguntas precisarão ser respondidas no futuro.

É claro que, sempre que você muda de sistema (máquina, sistema operacional, aplicativos, DRM), precisa se fazer as mesmas perguntas. Hoje, se você quiser migrar para o Windows, precisa se perguntar três vezes se ainda pode importar suas fotos e, mais importante, se algum dia poderá movê-las para outro sistema ou máquina. Se você ficar preso a um sistema proprietário, é bem provável que não consiga. Vemos muitas pessoas enfrentando dificuldades porque o Windows impõe um regime rígido de DRM. Como você pode provar ao Windows que é realmente o proprietário dos direitos autorais das suas fotos?

A solução para esse problema é usar apenas padrões abertos que sejam suportados por vários aplicativos.

A virtualização agora está amplamente disponível para todos. Portanto, se você tem um sistema antigo que é importante para ler suas imagens, guarde-o para poder instalá-lo posteriormente como uma máquina virtual.

Caso contrário, o conselho é bem simples: sempre que você mudar a arquitetura do seu computador, a tecnologia de armazenamento e backup ou o formato do seu arquivo, revise sua biblioteca e converta para um padrão mais recente, se necessário. E mantenha os padrões abertos.

Escalabilidade

Escalabilidade é a expressão usada pelos nerds de tecnologia para a capacidade de um sistema ser redimensionado, o que sempre significa aumentar de tamanho.

Vamos supor que você planejou a escalabilidade e armazenou sua coleção de imagens em um contêiner que deseja expandir para um disco ou partição separada. Em um sistema Linux, você pode copiar e redimensionar o contêiner para o novo disco.

Use formatos de arquivo abertos

A curta história da era digital nos últimos 20 anos provou repetidamente que formatos proprietários não são o caminho a seguir quando você deseja que seus dados sejam inteligíveis daqui a 10 anos. A Microsoft é a fornecedora mais conhecida de formatos proprietários devido à sua participação de mercado dominante. Mas outras empresas podem ser piores, pois podem não permanecer no mercado por tempo suficiente ou ter apenas uma pequena base de usuários ou colaboradores. No caso da Microsoft, pelo menos ela tem a vantagem de muitas pessoas compartilharem os mesmos problemas. Isso torna muito mais provável que você encontre uma solução para um problema envolvendo seus formatos proprietários. No entanto, ainda é comum que qualquer versão do pacote MSOffice não consiga ler corretamente um documento criado com o mesmo aplicativo duas versões principais anteriores.

Felizmente, os formatos de imagem costumam ter uma vida útil mais longa que os documentos de escritório e são um pouco menos afetados pela obsolescência.

Os padrões de código aberto têm a enorme vantagem de ter uma especificação aberta. Mesmo que um dia não exista um software para ler um formato de arquivo específico, alguém poderá recriar esse software com base apenas na especificação.

Configurações padrão de salvamento do Editor de Imagem do digiKam para formatos de imagem comuns

JPEG já existe há algum tempo. É um formato com perdas que perde um pouco cada vez que você cria e salva uma versão modificada do original. O lado positivo é que o formato JPEG é onipresente, suporta metadados JFIF, Exif, IPTC e XMP, tem boas taxas de compressão e pode ser lido por todos os softwares de imagem. Devido às suas limitações de metadados, natureza com perdas, ausência de transparência e profundidade de canal de cor de 8 bits, não o recomendamos. O JPEG2000 é melhor, pode ser usado sem perdas, mas sofre com uma base de usuários menor.

GIF é um formato proprietário e patenteado que está desaparecendo lentamente do mercado. Não o utilize.

O PNG foi inventado como um padrão de código aberto para substituir o GIF, mas faz muito mais. É sem perdas, suporta metadados XMP, Exif e IPTC, possui codificação de cores de 16 bits e transparência total. O PNG pode armazenar dados de gama e cromaticidade para melhor correspondência de cores em plataformas heterogêneas. Suas desvantagens são os tamanhos de arquivo relativamente grandes (mas menores que o TIFF) e a compactação lenta. Recomendamos.

TIFF é amplamente aceito como formato de imagem. O TIFF pode existir descompactado ou em um contêiner usando um algoritmo de compactação sem perdas (Deflate). Ele mantém a alta qualidade da imagem, mas às custas de tamanhos de arquivo muito maiores. Algumas câmeras permitem salvar suas imagens neste formato. O problema é que o formato foi alterado por tantas pessoas que agora existem 50 ou mais variantes, e nem todas são reconhecíveis por todos os aplicativos.

PGF (Progressive Graphics File) é outro formato de imagem de arquivo aberto, mas não tão conhecido. Baseado em wavelets, permite a compactação de dados com e sem perdas. O PGF se compara bem ao JPEG 2000, mas foi desenvolvido para velocidade de compactação/descompactação em vez de taxa de compactação. Um arquivo PGF tem uma aparência significativamente melhor do que um arquivo JPEG do mesmo tamanho, mantendo-se também muito bom em exibição progressiva. O formato PGF é usado internamente no digiKam para armazenar miniaturas compactadas no banco de dados. Para mais informações sobre o formato PGF, consulte a página inicial do libPGF.

Ferramenta de importação RAW do Editor de Imagem do digiKam

Formato RAW. Algumas câmeras mais caras suportam fotografar em formato RAW. O formato RAW não é realmente um padrão de imagem, é um formato de contêiner que é diferente para cada marca e modelo de câmera. Imagens em formato RAW contêm dados minimamente processados ​​do sensor de imagem de uma câmera digital ou scanner de imagem. Arquivos de imagem RAW são às vezes chamados de negativos digitais, pois desempenham o mesmo papel que os negativos de filme na fotografia química tradicional. Especificamente, o negativo não é diretamente utilizável como uma imagem, mas tem todas as informações necessárias para criar uma imagem. Armazenar fotografias no formato RAW de uma câmera fornece maior alcance dinâmico e permite que você altere configurações, como balanço de branco, depois que a fotografia foi tirada. A maioria dos fotógrafos profissionais usa o formato RAW, porque ele oferece máxima flexibilidade. A desvantagem é que os arquivos de imagem RAW podem ser muito grandes.

Recomendamos que você evite arquivar em formato RAW (em vez de fotografar em formato RAW, o que recomendamos). Não há nada de bom em armazenar imagens em um formato RAW nativo. Eles vêm em muitas variedades e todos são proprietários. Também é bem provável que em alguns anos você não consiga mais usar seus arquivos RAW antigos. Já vimos pessoas trocando de câmera, perdendo seus perfis de cores e tendo grande dificuldade em trabalhar corretamente com seus arquivos RAW antigos. Sugerimos que você mude para o formato DNG.

O formato de arquivo DNG ou Negativo Digital é um formato de imagem RAW aberto e isento de royalties, originalmente desenvolvido pela Adobe Systems. O DNG foi uma resposta à demanda por um formato de arquivo RAW unificado para câmeras. Ele é baseado no formato TIFF/EP e exige o uso de metadados. Alguns fabricantes de câmeras já adotaram o DNG. Esperamos que os principais fabricantes (Canon e Nikon) também o adotem um dia. O formato Apple ProRAW, disponível desde o iPhone 12 Pro Max, é baseado em DNG.

O digiKam fornece uma ferramenta para converter RAW em lote para DNG no Gerenciador de processamento em lote

Recomendamos fortemente a conversão de arquivos RAW para DNG para arquivamento. Apesar de o DNG ter sido criado pela Adobe, ele é um padrão aberto e amplamente adotado pela comunidade Open Source (o que geralmente é um bom indicador da longevidade de um formato). Alguns fabricantes já adotaram o DNG como formato RAW. E por último, mas não menos importante, a Adobe é a fonte mais importante de software gráfico atualmente e, claro, apoia sua própria invenção. É um formato de arquivamento ideal, com os dados brutos do sensor preservados como tal em formato TIFF dentro do DNG, aliviando o risco associado aos formatos RAW proprietários. Tudo isso torna a migração para outro sistema operacional uma decisão mais fácil.

O digiKam fornece ferramentas para converter RAW em DNG durante o Download da câmera

XML para Extensible Mark-up Language ou RDF para Resource Description Framework. XML é como HTML, mas enquanto o HTML se preocupa principalmente com a apresentação de dados, o XML se preocupa com a representação de dados. Além disso, XML não é proprietário, é independente de sistema operacional, relativamente simples de interpretar, baseado em texto e barato. RDF é a solução do WC3 para integrar uma variedade de aplicações diferentes, como catálogos de bibliotecas, diretórios mundiais, feeds de notícias, software, bem como coleções de músicas, imagens e eventos, usando XML como sintaxe de intercâmbio. Juntas, as especificações fornecem um método que utiliza uma ontologia leve baseada no Dublin Core, que também suporta a “Web Semântica” (intercâmbio fácil de conhecimentos na Web).

IPTC vai migrar para o XMP

Essa é provavelmente uma das razões pelas quais, por volta de 2001, a Adobe introduziu sua tecnologia XMP baseada em XML para substituir a tecnologia Image Resource Block dos anos 90. XMP significa Extensible Metadata Platform, uma mistura de XML e RDF. É uma tecnologia de rotulagem que permite aos usuários incorporar dados sobre um arquivo no próprio arquivo. As informações do arquivo são salvas usando a extensão *.xmp* (que significa o uso de XML/RDF).

XMP: Assim como o ODF será legível para sempre (já que o texto que ele contém é escrito em texto simples), o XMP preservará seus metadados em um formato XML claramente compreensível. Não há perigo de não ser possível lê-los posteriormente. Ele pode ser incorporado aos arquivos de imagem ou como um arquivo separado, que a Adobe chama de arquivo Sidecar (tendo sido traduzido no digiKam para arquivo auxiliar). O XMP pode ser usado em arquivos PDF, JPEG, JPEG2000, GIF, PNG, HTML, TIFF, Adobe Illustrator, PSD, Postscript, Encapsulated Postscript e vídeo. Em arquivos JPEG, as informações do XMP normalmente são incluídas junto com os dados Exif e IPTC.

O digiKam pode exibir conteúdo XMP de imagem e vídeo

A incorporação de metadados diretamente nos arquivos de imagem permite o fácil compartilhamento e transferência de arquivos entre produtos, fornecedores, plataformas e clientes, sem perda de metadados. As etiquetas de metadados mais comuns registradas em dados XMP são aquelas da Dublin Core Metadata Initiative, que incluem itens como título, descrição, criador e assim por diante. O padrão foi projetado para ser extensível, permitindo que os usuários adicionem seus próprios tipos personalizados de metadados aos dados XMP. O XMP geralmente não permite a incorporação de tipos de dados binários. Isso significa que quaisquer dados binários que se queira transportar em XMP, como imagens em miniatura, devem ser codificados em algum formato compatível com XML, como o Base-64.

Muitos fotógrafos preferem manter o original de suas fotos (principalmente em RAW) para o arquivamento. O XMP se adapta a essa abordagem, pois mantém os metadados separados do arquivo de imagem. Não compartilhamos esse ponto de vista. Pode haver problemas ao vincular o arquivo de metadados ao arquivo de imagem e, como mencionado acima, os formatos RAW se tornarão obsoletos. Recomendamos usar DNG como contêiner e colocar tudo dentro de um único arquivo.

A Dublin Core Metadata Initiative (DCMI) é uma organização aberta engajada no desenvolvimento de padrões de metadados online interoperáveis ​​que atendem a uma ampla gama de propósitos e modelos de negócios. As atividades da DCMI incluem trabalho em arquitetura e modelagem, discussões e trabalho colaborativo nas Comunidades e Grupos de Trabalho da DCMI, conferências e workshops anuais, coordenação de padrões e esforços educacionais para promover a ampla aceitação de padrões e práticas de metadados.

Suporte ao digiKam para arquivos auxiliares (sidecar) com diversas opções no painel de configurações

Proteja seus dados

  • Use protetores contra surtos (padrão UL 1449), possivelmente combinados com um no-break.

  • Use memória ECC para corrigir erros de memória (mesmo ao apenas salvar arquivos).

  • Fique de olho nos seus discos rígidos (temperatura, ruído…), faça backups.

  • Mantenha os backups em outro local, trancados e use espaço de armazenamento na web.

  • Use mídias de arquivamento e gravadores.

  • Não entre em pânico em caso de perda de dados, explique seu plano de recuperação a um leigo.

  • Escolha seu sistema de arquivos, partições e pastas para fácil escalabilidade.

  • Utilize padrões abertos e não proprietários para gerenciar e salvar fotografias.

  • Faça uma revisão de tecnologia/migração pelo menos a cada 5 anos.