эта тема

вопрос был частично заданВот а такжеВот без последующих действий, так что, возможно, это не место, где можно задать этот вопрос, но я выяснил немного больше информации, которая, я надеюсь, может получить ответ на эти вопросы.

Я пытался обучить object_detection моей собственной библиотеке примерно 1 тыс. Фотографий. Я использовал предоставленный файл конфигурации конвейера "ssd_inception_v2_pets.config". Я считаю, что я правильно настроил данные тренировок. Программа, кажется, начинает тренироваться просто отлично. Когда он не мог прочитать данные, он предупредил об ошибке, и я исправил это.

Мои настройки train_config следующие, хотя я изменил некоторые цифры, чтобы попытаться запустить его с меньшим количеством ресурсов.

train_config: {
  batch_size: 1000 #also tried 1, 10, and 100
  optimizer {
    rms_prop_optimizer: {
      learning_rate: {
        exponential_decay_learning_rate {
          initial_learning_rate: 0.04  # also tried .004
          decay_steps: 800 # also tried 800720. 80072
          decay_factor: 0.95
        }
      }
      momentum_optimizer_value: 0.9
      decay: 0.9
      epsilon: 1.0
    }
  }
  fine_tune_checkpoint: "~/Downloads/ssd_inception_v2_coco_11_06_2017/model.ckpt" #using inception checkpoint
  from_detection_checkpoint: true
  data_augmentation_options {
    random_horizontal_flip {
    }
  }
  data_augmentation_options {
    ssd_random_crop {
    }
  }
}

По сути, я думаю, что компьютер очень быстро истощает ресурсы, и мне интересно, есть ли у кого-нибудь оптимизация, которая требует больше времени для сборки, но использует меньше ресурсов?

ИЛИ Я ошибаюсь из-за того, что процесс убивается, и есть ли способ получить больше информации об этом из ядра?

Это информация о Dmesg, которую я получаю после завершения процесса.

[711708.975215] Out of memory: Kill process 22087 (python) score 517 or sacrifice child
[711708.975221] Killed process 22087 (python) total-vm:9086536kB, anon-rss:6114136kB, file-rss:24kB, shmem-rss:0kB

Ответы на вопрос(1)

Ваш ответ на вопрос