Mientras intento eliminar duplicados de lecturas de resonancia magnética estoy alquitranando / comprimiendo ( tgz ) el directorio de nivel superior con una mezcla de ejecutables, pdf, texto, dll, y datos en formato propietario (pero a veces con diferentes fechas de "última modificación"). Cualquier archivo tgz con el mismo tamaño en bytes, lo considero duplicado de resonancia magnética. Estoy comparando más de 10 conjuntos de datos de IRM que se han almacenado en diversos formatos de compresión en unidades locales y en la nube durante más de 10 años. Estoy seguro de que algunos son duplicados.
tar cfa mri01.tgz MRI01
tar cfa mri02.tgz MRI02
Para conjuntos de datos que, antes de la compresión tgz, suelen tener unos 615 mb con unos 135 archivos, a veces no veo ninguna diferencia de tamaño, una diferencia de tamaño de sólo 150 bytes más o menos, y diferencias de tamaño significativas en los archivos tgz. No sé qué pensar.
¿Podría una diferencia de tamaño de 150 bytes entre los tgz de conjuntos de datos tan grandes deberse sólo a los metadatos del archivo, como la "última fecha de modificación"? ¿O una diferencia de tamaño tan pequeña indica que se trata de resonancias magnéticas diferentes? ¿Hay alguna forma mejor de detectar duplicados de este tipo de datos?