Git найти все двоичные файлы в истории

Извините, если это дубликат предыдущего вопроса, но я не смог найти именно то, что искал. Я нахожусь в процессе преобразования большого кодового набора cvs (20+ репозиториев с 15-летней историей - 10-15 ГБ) в git. Большая часть размера связана с двоичными файлами, которые были зафиксированы вместе с кодом в прошлом. Хотя некоторые двоичные файлы представляют собой файлы, которые можно полностью удалить, желательно сохранить многие из них, а также их историю. Однако мы не хотим, чтобы репо вздулось.

В настоящее время мы планируем использоватьГИТ-жир для хранения двоичных файлов, но я нахожусь в процессе написания сценария для автоматического преобразования файлов. Мой первый шаг - просто попытаться определить все файлы репо (включая удаленные файлы), которые являются двоичными файлами. Есть ли простые подходы для достижения этой цели? Спасибо за вашу помощь

редактировать

Я действительно думаю, что нашел разумный подход, когда я просто бегу

git log --numstat <first commit hash> HEAD

Это распечатывает список всех файлов с двумя столбцами впереди, первый содержит количество изменений в файле (я не уверен, что это в байтах или строках). Но важными частями для двоичных файлов является «-». Выбирая строки с этим тегом и «уникализуя» их, я считаю, что получаю полный список двоичных файлов.

Есть ли недостатки этой стратегии?

Ответы на вопрос(3)

Ваш ответ на вопрос