Resultados de la búsqueda a petición "apache-spark"
Spark / Scala: llene nan con la última buena observación
Estoy usando la chispa 2.0.1 y quiero llenar los valores nan con el último valor conocido en la columna. La única referencia para chispa que pude encontrarSpark / Scala: relleno hacia adelante con la última ...
(nulo) entrada en la cadena de comando excepción en saveAsTextFile () en Pyspark
Estoy trabajando en PySpark en un cuaderno Jupyter (Python 2.7) en Windows 7. Tengo un RDD de tipopyspark.rdd.PipelinedRDD llamadoidSums. Al intentar ejecutaridSums.saveAsTextFile("Output"), Recibo el siguiente error: Py4JJavaError: An error ...
Convertir fecha de cadena a formato de fecha en marcos de datos
Estoy tratando de convertir una columna que está en formato de cadena a formato de fecha usando elto_date funciona pero devuelve valores nulos. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | ...
Conjunto de datos Spark 2.0 vs DataFrame
comenzando con la chispa 2.0.1 Tengo algunas preguntas. Leí mucha documentación pero hasta ahora no pude encontrar suficientes respuestas: Cuál es la diferencia entredf.select("foo")df.select($"foo")entiendo correctamente ...
Escalando cada columna de un marco de datos
Estoy tratando de escalar cada columna de un marco de datos. Primero convierto cada columna en un vector y luego uso el ml MinMax Scaler. ¿Existe una manera mejor / más elegante de aplicar la misma función a cada columna que no sea simplemente ...
¿Por qué falla la aplicación Spark con "ClassNotFoundException: no se pudo encontrar la fuente de datos: kafka" como uber-jar con el ensamblaje sbt?
Estoy tratando de ejecutar una muestra ...
¿Diferencia entre SparkContext, JavaSparkContext, SQLContext y SparkSession?
Cuál es la diferencia entreSparkContext, JavaSparkContext, SQLContext ySparkSession?¿Hay algún método para convertir o crear un contexto usando unSparkSession?¿Puedo reemplazar completamente todos los contextos usando una sola ...
Configuración y configuración de JanusGraph para un clúster Spark y Cassandra
Estoy ejecutando JanusGraph (0.1.0) con Spark (1.6.1) en una sola máquina. Hice mi configuración como se describeaquí [https://stackoverflow.com/questions/40105047/setup-and-configuration-of-titan-for-a-spark-cluster-and-cassandra] . Al acceder ...
Acceda a la tabla en un esquema distinto al predeterminado (base de datos) desde sparklyr
Después de que logré conectarme a nuestro (nuevo) clúster usandosparklyr conyarn-client método, ahora puedo mostrar solo las tablas del esquema predeterminado. ¿Cómo me puedo conectar ascheme.table? UtilizandoDBI está funcionando p. con la ...
Spark Structured Stream recibe mensajes de solo una partición de Kafka
Tengo la situación cuando la chispa puede transmitir y recibir mensajes de solo una partición del tema de Kafka 2-patition. Mis temas:C:\bigdata\kafka_2.11-0.10.1.1\bin\windows>kafka-topics --create --zookeeper localhost:2181 --partitions 2 ...