1 votos

¿Podría una diferencia de tamaño de 163 bytes entre el tgz de dos diferentes 590mb dirs ser causada sólo de metadatos de archivo? ¿O los datos del archivo son diferentes?

Mientras intento eliminar duplicados de lecturas de resonancia magnética estoy alquitranando / comprimiendo ( tgz ) el directorio de nivel superior con una mezcla de ejecutables, pdf, texto, dll, y datos en formato propietario (pero a veces con diferentes fechas de "última modificación"). Cualquier archivo tgz con el mismo tamaño en bytes, lo considero duplicado de resonancia magnética. Estoy comparando más de 10 conjuntos de datos de IRM que se han almacenado en diversos formatos de compresión en unidades locales y en la nube durante más de 10 años. Estoy seguro de que algunos son duplicados.

tar cfa mri01.tgz MRI01

tar cfa mri02.tgz MRI02

Para conjuntos de datos que, antes de la compresión tgz, suelen tener unos 615 mb con unos 135 archivos, a veces no veo ninguna diferencia de tamaño, una diferencia de tamaño de sólo 150 bytes más o menos, y diferencias de tamaño significativas en los archivos tgz. No sé qué pensar.

¿Podría una diferencia de tamaño de 150 bytes entre los tgz de conjuntos de datos tan grandes deberse sólo a los metadatos del archivo, como la "última fecha de modificación"? ¿O una diferencia de tamaño tan pequeña indica que se trata de resonancias magnéticas diferentes? ¿Hay alguna forma mejor de detectar duplicados de este tipo de datos?

1voto

Douglas Puntos 10417

¿una diferencia de tamaño tan pequeña indica que se trata de resonancias magnéticas diferentes? ¿Hay alguna forma mejor de detectar duplicados de este tipo de datos?

Una pequeña diferencia de tamaño podría significar que se trata de dos archivos completamente distintos o del mismo contenido (duplicado) con una pequeña diferencia de metadatos. Muchos programas de tratamiento de imágenes médicas crean imágenes de tamaño fijo (500 MB, por ejemplo). Dependiendo de la longitud de la exploración, puede tener 10 archivos en un caso o 50 en otro. Pero, al ser cada uno de 500 MB, todos tendrían el mismo tamaño y serían completamente diferentes.

El tamaño del archivo no debe utilizarse para determinar si los archivos difieren o no. Puede ser un buen indicador de que algo es diferente.

En su lugar, utilice diff

diff foo1.bar foo2.bar
Binary files foo1.bar and boo2.bar differ

También está el cmp mando:

cmp foo1.bar foo2.bar
foo1.bar and foo2.bar differ: char 1, line 1

AppleAyuda.com

AppleAyuda es una comunidad de usuarios de los productos de Apple en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X