Anonim

Va començar un dissabte al vespre amb la meva dona preguntant per què el nostre DVR va deixar de sobte de reproduir un programa que estava veient. Li vaig dir que probablement fos només alguna cosa, però que donaria un cop d'ull. Entro a l’habitació familiar per mirar, i l’error bàsicament va afirmar que el disc subjacent ja no estava disponible. No és bó! Aquest va ser el començament de la meva història de terror de tres dies …

Una mica de fons

El meu DVR és en realitat només un programari especialitzat (SageTV per a aquells curiosos) que funciona amb un PC. El programari és molt flexible i us permet separar tots els aspectes. Tinc una màquina separada per controlar, programar i enregistrar de forma centralitzada, màquines separades per a la reproducció i la protagonista d'aquesta història, una màquina per a emmagatzematge independent. Per a l'emmagatzematge, faig servir un servidor de fitxers Linux, utilitzant LVM (Logical Volume Manager) per agrupar moltes unitats independents i no idèntiques en una unitat lògica gran (~ 6TB actualment) lògica que el sistema operatiu veu. Com que la còpia de seguretat de diverses dades de TB no és pràctica, i com que aquestes dades són programes de televisió “justos”, la meva filosofia de còpia de seguretat sempre ha estat simplement no m'importa. Fins als esdeveniments recents, aquesta filosofia no havia estat provada per un esdeveniment del món real.

Intentem recuperar les dades

Al veure l’error al DVR, de seguida començo a mirar el servidor d’emmagatzematge. El sistema de fitxers és increïblement lent i respon, de manera que pregunto a LVM sobre l'estat de les unitats físiques subjacents al seu volum lògic. Després d'un llarg retard, apareix i diu que no falta una unitat de 750 GB. UH oh! Reinicio el servidor i, sorprenentment, torna la unitat. Emet una ordre pvmove per migrar automàticament totes les dades de la unitat, però falla menys del 2% complet.

Davant d’una unitat que no és gaire cooperativa sobre la lectura de les seves dades, però com a mínim apareix a la BIOS, em dirigeixo a la meva eina de recuperació d’unitat preferida, Spinrite. Tot i que Spinrite arrenca normalment des de suports extraïbles, fa anys que vaig configurar l’arrencada de xarxa a casa meva per a diverses utilitats, així que no vaig haver de preocupar-me de fer un seguiment de qualsevol suport. Normalment només em connecto a la meva xarxa, selecciono l'arrencada de la xarxa i tinc diverses eines a la meva disposició per solucionar molts problemes. El problema és que la màquina que fa que tota aquesta màgia funcioni és la mateixa màquina que hi ha actualment. No dic gran cosa, només arrencaré des d’un CD Spinrite. Excepte un parell d’anys la unitat òptica del meu servidor d’arxius va abandonar el fantasma. En el moment que va passar, vaig decidir que mai no utilitzava suport òptic en aquesta màquina, no necessitava reemplaçar-la. No us preocupeu, em vaig dir, només trauré la unitat òptica del meu ordinador principal. Apagueu l’ordinador principal i trec la unitat òptica. A continuació, busco el meu CD d’arrencada Spinrite. No ho trobeu! Ens vam mudar a una casa nova fa uns mesos, de manera que tot està en una mica de desgràcia. Crec que només cremaré una nova còpia, però no puc trobar cap suport òptic en blanc. Al següent pla, una unitat flash iniciable! Després d’uns minuts a Google per actualitzar la meva memòria, tinc una unitat flash arrencable Spinrite. Arrenco la meva caixa de Linux fora d’això i engego Spinrite. L’ordinador es congela i sembla que s’estavella. Buscant eliminar variables, faig que el disc dolent sigui connectat a una targeta d'expansió PCI-e a que es connecti directament a la placa base. Ara Spinrite llança bé, però triga edats i enumeració de les unitats connectades a ell. Desconnecto sistemàticament totes les altres unitats excepte la dolenta, però mai no acaba d’enumerar unitats, per molt que m’espero. En el següent pla! Trec la unitat de la meva caixa de Linux, la connecto a l’ordinador principal i arrenco des de la meva brillant nova unitat flash Spinrite. Spinrite es llança i veu la unitat immediatament, i li dic que comenci a recuperar dades, satisfet que finalment estic avançant. Torno a comprovar-ho al cap de deu minuts, potser hi ha un error a la pantalla i sembla que la unitat ha tornat a desaparèixer. Frustrat, ho intento algunes vegades més, i dic a Spinrite que comenci per diverses porcions de la unitat, però obté el mateix resultat cada cop. Sembla que això no m'ajudarà al cap i a la fi.

Amb una esperança irracional, vaig tornar a posar la unitat a la caixa del Linux i la vaig encendre. Per a la meva sorpresa, la unitat apareix i LVM ho fa tot actiu. A més de provar sort, emet un altre comandament pvmove per intentar tornar a moure les dades de la unitat. Ja aviat veig missatges d’error sobre el no poder llegir des de la unitat, però sorprenentment, el pvmove continua avançant, cada vegada més i més proper al 100% finalitzat. Una barreja de confusió, alleujament i il·lusió em brollen. Em vaig a allunyar d’aquest no vençut? Malauradament, l’últim que fa LVM a les portades per acabar nítidament un pvmove és escriure un registre actualitzat a totes les unitats sota el seu control. Això, per descomptat, falla quan intenta escriure a la unitat de disc dur i, per tant, avorta tot el procés. La derrota es va arrabassar de les mandíbules de la victòria una vegada més! Em vaig endinsant a Google i descobreixo que és possible controlar la quantitat de dades que mou l'ordre pvmove en lloc de moure totes les dades d'una sola oportunitat. Experimento amb això i tinc un bon èxit movent una petita part de les meves dades alhora. Em fa ràbia i la unitat desapareix algunes vegades, però sempre torna després d’un cicle d’alimentació de l’ordinador. Teoritzant que potser només algunes porcions de la unitat són dolentes, començo a saltar al voltant en lloc de treballar a l'inici de la unitat. Després d'algunes iteracions d'això, m'he mogut amb tota seguretat de tots els 750 GB de 750 GB fora de la unitat. Per als 40 GB restants, no s'ha pogut moure, no importa el que he intentat. Ara era diumenge al vespre i estava exhaust, així que vaig decidir anar a dormir i abordar aquest problema més l'endemà.

L’endemà, després de dormir i la primera meitat del meu dia a la feina, decideixo simplement mossegar la bala perquè no em preocupaven els últims 40 GB de programes de TV enregistrats i em vaig proposar d’eliminar la unitat de la meva configuració LVM. . Ho he fet moltes vegades abans, de manera que va força bé. A continuació, a la llista de neteja es repara el forat al centre del sistema de fitxers. Crec que només amb 40 GB en lloc de 750 GB en falta, no pot ser massa dolent, oi? Mal! Després de la reparació, vaig disposar de 900 GB d’espai lliure addicional en relació amb l’inici de la prova, de manera que va picar una mica. Oh, em dic, de totes maneres, només era la televisió. El meu DVR finalment es torna a funcionar després de tres dies de caiguda, i per fi puc deixar de pensar en això amb tots els cicles cerebrals de recanvi.

Lliçons apreses

I què vaig aprendre de tot això? Hauria d’haver fet un millor treball del que realment importava. Això va passar fa unes setmanes, i en aquest temps ni tan sols he perdut cap contingut de televisió que desaparegués. Tot i així, em penedeixo d’impedir-me, i el que és més important a la meva família, de poder utilitzar el televisor durant tres dies i de posar-me en mode de crisi d’estrès durant aquests tres dies. Si hagués renunciat a recuperar les meves dades al principi, la funció s’hauria restablert en aproximadament una hora, no en tres dies. Sé ben bé que la majoria de les vegades són precioses les nostres dades, però en aquesta situació no ho va ser.

En segon lloc, si les vostres dades són realment precioses i el 99% del temps realment és necessari protegir-les! Còpia de seguretat de les vostres dades, no hi ha excuses. Per les meves dades que són insubstituïbles, com ara milers de fotografies del meu fill que tinc a l’ordinador, m’asseguro que la realitzeu una còpia de seguretat en no menys de tres llocs, un dels quals és un proveïdor de còpia de seguretat en núvol. Pel que fa a l’emmagatzematge del DVR, encara no crec que sigui pràctic fer una còpia de seguretat al núvol, però amb el preu de les unitats actuals, no tinc excusa per no tenir-lo protegit per RAID, i això és el que sóc. vaig a fer. Quan vaig establir el meu clúster d’emmagatzematge fa uns anys, crec que em va costar 10 unitats o més per arribar a una piscina de TB múltiple. Acabo de comprovar els preus i ara podeu comprar una unitat de 3 TB per menys de 100 dòlars. Simplement no tinc excusa per deixar les meves dades sense protecció, i si una pèrdua de dades com aquesta em torna a passar, és realment culpa meva.

Un relat de tristesa, frustració i pèrdua de dades