Deep-Learning Nan razões de perda

Talvez seja uma pergunta muito geral, mas alguém pode explicar o que causaria a divergência de uma Rede Neural Convolucional?

Específicos:

Estou usando o modelo iris_training do Tensorflow com alguns dos meus próprios dados e continuo recebendo

ERRO: fluxo tensor: modelo divergiu com perda = NaN.

Traceback ...

tensorflow.contrib.learn.python.learn.monitors.NanLossDuringTrainingError: perda de NaN durante o treinamento.

Traceback originado com a linha:

 tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
                                        hidden_units=[300, 300, 300],
                                        #optimizer=tf.train.ProximalAdagradOptimizer(learning_rate=0.001, l1_regularization_strength=0.00001),                                                          
                                        n_classes=11,
                                        model_dir="/tmp/iris_model")

Tentei ajustar o otimizador, usando um zero para taxa de aprendizado e sem otimizador. Quaisquer informações sobre as camadas da rede, tamanho dos dados etc. são apreciadas.

questionAnswers(5)

yourAnswerToTheQuestion