Git encuentra todos los archivos binarios en la historia

Lo siento si este es un duplicado de la pregunta anterior, pero no pude encontrar exactamente lo que estoy buscando. Estoy en el proceso de convertir un gran conjunto de códigos cvs (más de 20 repositorios con 15 años de historia - 10-15 GB de tamaño) a git. Gran parte del tamaño se debe a los archivos binarios que se comprometieron junto con el código en el pasado. Si bien algunos de los archivos binarios son archivos que se pueden eliminar por completo, es deseable mantener muchos de ellos, así como su historial. Sin embargo, no queremos que el repositorio se hinche.

Actualmente estamos planeando usargit-fat para almacenar los archivos binarios, pero estoy en el proceso de escribir un script para convertir automáticamente los archivos. Mi primer paso es tratar de identificar todos los archivos en el repositorio (incluidos los archivos eliminados) que son binarios. ¿Hay algún enfoque simple para lograr esto? Gracias por tu ayuda

Editar

De hecho, creo que encontré un enfoque razonable donde solo corro

git log --numstat <first commit hash> HEAD

Esto imprime una lista de todos los archivos con dos columnas al frente, el primero contiene el número de cambios en el archivo (no estoy seguro de si está en bytes o líneas). Pero las partes importantes son para archivos binarios, es '-'. Al seleccionar líneas con esta etiqueta y "unificarlas", creo que obtengo la lista completa de archivos binarios.

¿Hay alguna falla con esta estrategia?

Respuestas a la pregunta(3)

Su respuesta a la pregunta