TDD: ¿Por qué solo hay una prueba por función?

Me cuesta entender por qué solo hay una prueba por función en la mayoría de los códigos profesionales TDD que he visto. Cuando me acerqué a TDD inicialmente tendía a agrupar 4-5 pruebas por función si estaban relacionadas, pero veo que no parece ser el estándar. Sé que es más descriptivo tener solo una prueba por función porque puede restringir más fácilmente cuál es el problema, pero me cuesta mucho encontrar nombres de funciones para diferenciar las diferentes pruebas, ya que muchas son muy similares.

Entonces, mi pregunta es: ¿es realmente una mala práctica poner varias pruebas en una función y, en caso afirmativo, por qué? ¿Hay un consenso por ahí? Gracias

Edit: wow toneladas de grandes respuestas. Estoy convencido. Necesitas realmente separarlos a todos. Pasé por algunas pruebas recientes que había escrito y las separé todas y he aquí que era mucho más fácil de leer y me ayudó a entender MUCHO mejor lo que estaba probando. Además, al dar a las pruebas sus propios nombres largos y verbosos, me dieron ideas como "Oh, espera, no probé esta otra cosa", por lo que creo que es el camino a seguir.

Grandes respuestas. Va a ser difícil elegir un ganador

Respuestas a la pregunta(8)

Su respuesta a la pregunta