R и контроль версий для аналитика данных соло
Многие аналитики данных, которых я уважаю, используют контроль версий. Например:
http://github.com/hadley/Смотрите комментарии наhttp://permut.wordpress.com/2010/04/21/revision-control-statistics-bleg/Тем не менее, я оцениваю целесообразность внедрения системы контроля версий, такой как git.
Краткий обзор: Я социолог, который использует R для анализа данных для научных публикаций. В настоящее время я не делаю R пакетов. Мой R-код для проекта обычно включает несколько тысяч строк кода для ввода данных, очистки, манипуляции, анализа и генерации вывода. Публикации обычно пишутся с использованием LaTeX.
Что касается контроля версий, есть много преимуществ, о которых я читал, но они кажутся менее значимыми для индивидуального аналитика данных.
Резервное копирование: У меня уже есть резервная система.Форкировка и перемотка: Я никогда не чувствовал необходимости делать это, но я вижу, как это может быть полезно (например, вы готовите несколько журнальных статей на основе одного и того же набора данных; вы готовите отчет, который обновляется ежемесячно и т. Д.)Сотрудничество: Большую часть времени я анализирую данные самостоятельно, поэтому я не получаю преимуществ совместной работы по управлению версиями.Существует также несколько потенциальных затрат, связанных с внедрением контроля версий:
Время оценить и изучить систему контроля версийВозможное увеличение сложности по сравнению с моей нынешней системой управления файламиОднако у меня все еще есть чувство, что я что-то упускаю. Общие руководства по контролю версий, похоже, больше адресованы ученым, чем аналитикам данных.
Таким образом, конкретнопо отношению к данным аналитикам в обстоятельствах, аналогичных перечисленным выше:
Стоит ли контролировать версию?Каковы основные плюсы и минусы принятия контроля версий?Какова хорошая стратегия для начала работы с контролем версий для анализа данных с помощью R (например, примеры, идеи рабочего процесса, программное обеспечение, ссылки на руководства)?