Resultados de la búsqueda a petición "apache-spark"
Por qué Apache Spark está realizando los filtros en el cliente
Ser novato en apache spark, enfrentando un problema al buscar datos de Cassandra en Spark. List<String> dates = Arrays.asList("2015-01-21","2015-01-22"); CassandraJavaRDD<A> aRDD = CassandraJavaUtil.javaFunctions(sc). cassandraTable("testing", ...
¿Qué significa "streaming" en Apache Spark y Apache Flink?
Como fui aApache Spark Streaming [https://spark.apache.org/streaming/]Sitio web, vi una oración: Spark Streaming facilita la creación de aplicaciones de transmisión escalables y tolerantes a fallas. Y enApache Flink ...
PySpark - Superposición de tiempo para objeto en RDD
Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...
¿Chispa almacena automáticamente algunos resultados?
Ejecuté una acción dos veces, y la segunda toma muy poco tiempo, por lo que sospecho que la chispa almacena automáticamente algunos resultados. Pero encontré alguna fuente. Estoy usando Spark1.4. doc = sc.textFile('...') doc_wc = ...
error al iniciar la carcasa de la chispa
Acabo de descargar la última versión de spark y cuando comencé el shell de chispa recibí el siguiente error: java.net.BindException: Failed to bind to: /192.168.1.254:0: Service 'sparkDriver' failed after 16 retries! ...
Crear estructura de datos de chispa a partir de registros multilínea
Estoy tratando de leer en el archivo de eventos retrosheet en chispa. El archivo de eventos está estructurado como tal. id,TEX201403310 version,2 info,visteam,PHI info,hometeam,TEX info,site,ARL02 info,date,2014/03/31 info,number,0 ...
¿Cómo agregar un número de línea en cada línea?
supongamos que estos son mis datos: ‘Maps‘ and ‘Reduces‘ are two phases of solving a query in HDFS. ‘Map’ is responsible to read data from input location. it will generate a key value pair. that is, an intermediate output in local machine. ...
Igualdad de DataFrame en Apache Spark
Asumirdf1 ydf2 son dosDataFrames en Apache Spark, calculado utilizando dos mecanismos diferentes, por ejemplo, Spark SQL frente a la API Scala / Java / Python. ¿Hay alguna forma idiomática de determinar si los dos marcos de datos ...
Instalación de SparkR
Tengo la última versión de R - 3.2.1. Ahora quiero instalar SparkR en R. Después de ejecutar: > install.packages("SparkR")Regresé: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in ...
¿Cómo se puede llamar a PySpark en modo de depuración?
Tengo IntelliJ IDEA configurado con Apache Spark 1.4. Quiero poder agregar puntos de depuración a mis scripts de Spark Python para poder depurarlos fácilmente. Actualmente estoy ejecutando este bit de Python para inicializar el proceso ...