Acceso a dependencias disponibles en Scala pero no en PySpark
Estoy tratando de acceder a las dependencias de un RDD. En Scala es un código bastante simple:
scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2)
myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24
scala> myRdd.dependencies
res0: Seq[org.apache.spark.Dependency[_]] = List(org.apache.spark.ShuffleDependency@6c427386)
Pero las dependencias no están disponibles en PySpark. ¿Alguna sugerencia sobre cómo puedo acceder a ellos?
>>> myRdd.dependencies
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'PipelinedRDD' object has no attribute 'dependencies'