Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Por qué Apache Spark está realizando los filtros en el cliente

Ser novato en apache spark, enfrentando un problema al buscar datos de Cassandra en Spark. List<String> dates = Arrays.asList("2015-01-21","2015-01-22"); CassandraJavaRDD<A> aRDD = CassandraJavaUtil.javaFunctions(sc). cassandraTable("testing", ...

1 la respuesta

¿Qué significa "streaming" en Apache Spark y Apache Flink?

Como fui aApache Spark Streaming [https://spark.apache.org/streaming/]Sitio web, vi una oración: Spark Streaming facilita la creación de aplicaciones de transmisión escalables y tolerantes a fallas. Y enApache Flink ...

1 la respuesta

PySpark - Superposición de tiempo para objeto en RDD

Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...

1 la respuesta

¿Chispa almacena automáticamente algunos resultados?

Ejecuté una acción dos veces, y la segunda toma muy poco tiempo, por lo que sospecho que la chispa almacena automáticamente algunos resultados. Pero encontré alguna fuente. Estoy usando Spark1.4. doc = sc.textFile('...') doc_wc = ...

3 la respuesta

error al iniciar la carcasa de la chispa

Acabo de descargar la última versión de spark y cuando comencé el shell de chispa recibí el siguiente error: java.net.BindException: Failed to bind to: /192.168.1.254:0: Service 'sparkDriver' failed after 16 retries! ...

1 la respuesta

Crear estructura de datos de chispa a partir de registros multilínea

Estoy tratando de leer en el archivo de eventos retrosheet en chispa. El archivo de eventos está estructurado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...

2 la respuesta

¿Cómo agregar un número de línea en cada línea?

supongamos que estos son mis datos: ‘Maps‘ and ‘Reduces‘ are two phases of solving a query in HDFS. ‘Map’ is responsible to read data from input location. it will generate a key value pair. that is, an intermediate output in local machine. ...

5 la respuesta

Igualdad de DataFrame en Apache Spark

Asumirdf1 ydf2 son dosDataFrames en Apache Spark, calculado utilizando dos mecanismos diferentes, por ejemplo, Spark SQL frente a la API Scala / Java / Python. ¿Hay alguna forma idiomática de determinar si los dos marcos de datos ...

4 la respuesta

Instalación de SparkR

Tengo la última versión de R - 3.2.1. Ahora quiero instalar SparkR en R. Después de ejecutar: > install.packages("SparkR")Regresé: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in ...

1 la respuesta

¿Cómo se puede llamar a PySpark en modo de depuración?

Tengo IntelliJ IDEA configurado con Apache Spark 1.4. Quiero poder agregar puntos de depuración a mis scripts de Spark Python para poder depurarlos fácilmente. Actualmente estoy ejecutando este bit de Python para inicializar el proceso ...