balanceamento de carga do Google app engine

Eu tenho um aplicativo pago no motor do Google app. Como todos sabem, o Google cobrará pelos seus horários de instância.

A única coisa que não consegui entender é qual é a lógica que faz com que o google aqueça outra instância, ou como eles decidem como balancear o tráfego entre essas instâncias.

Como você pode ver noscreenshot da tela de instâncias do appengine (desculpe pelo link, sou novo no stackoverflow e não tive permissão para postar uma imagem real), para garantir que meus usuários não sofram com uma solicitação de carregamento longa, tenho uma instância residente em todos os momentos.

O engraçado é que parece que nenhum tráfego está chegando à instância residente, todo o tráfego está realmente indo para uma das instâncias dinâmicas. Além disso, suponhamos que, de acordo com o algoritmo de balanceamento de carga, que a instância dinâmica esteja sobrecarregada, em vez de direcionar o tráfego para a instância residente, eles aqueceram outra instância dinâmica que parece não receber muito tráfego.

Se eu não estivesse pagando pelas horas de instância do tripple, eu não me importaria. Infelizmente, eu preciso pagar por essas horas :)

Eu apreciarei se alguém puder compartilhar um pouco mais sobre o seguinte:
1. Como funciona o balanceamento de carga do GAE?
2. O que posso fazer para obter uma melhor distribuição do tráfego nas minhas instâncias (e reduzir a quantidade de instâncias dinâmicas em um determinado momento)

Obrigado pela ajuda!

questionAnswers(1)

yourAnswerToTheQuestion