Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cuál es la diferencia entre spark.eventLog.dir y spark.history.fs.logDirectory?

En Spark, ¿cuál es la diferencia entre el directorio de registro de eventos y el directorio de registro del servidor de historial? spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps

2 la respuesta

Spark SQL - Cadena de consulta de escape

No puedo creer que te pregunte esto pero ... ¿CÓMO ESCAPAR UNA CADENA DE CONSULTA SQL EN SPARK SQL UTILIZANDO SCALA? He cansado todo y buscado en todas partes. Pensé que la biblioteca de apache commons lo haría, pero no tuve suerte: import ...

3 la respuesta

Filtrar un marco de datos de chispa basado en la fecha

Tengo un marco de datos de date, string, stringQuiero seleccionar fechas antes de un cierto período. He intentado lo siguiente sin suerte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Recibo un error que ...

9 la respuesta

¿Apache spark puede funcionar sin hadoop?

¿Hay alguna dependencia entreChispa - chispearyHadoop? Si no, ¿hay alguna característica que extrañaré cuando corro?Chispa - chispear sinHadoop?

1 la respuesta

PySpark, importando esquema a través del archivo JSON

tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

1 la respuesta

Problema con la creación de una lista global desde el mapa usando PySpark

Tengo este código donde estoy leyendo un archivo enipython utilizandopyspark. Lo que estoy tratando de hacer es agregarle una pieza que forme una lista basada en una columna particular leída del archivo, pero cuando intento ejecutarlo, la lista ...

1 la respuesta

¿Cómo definir y usar una función agregada definida por el usuario en Spark SQL?

Sé cómo escribir un UDF en Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)¿Puedo hacer algo similar para definir una función agregada? ¿Cómo se hace ...

2 la respuesta

Cómo convertir un mapa a RDD de Spark

Tengo un conjunto de datos que tiene la forma de algunos mapas anidados, y su tipo Scala es: Map[String, (LabelType,Map[Int, Double])]El primeroString La clave es un identificador único para cada muestra, y el valor es una tupla que contiene ...

6 la respuesta

Encontrar el número total de líneas en el archivo distribuido hdfs usando la línea de comando

Estoy trabajando en un clúster donde se guarda un conjunto de datoshdfs de manera distribuida Esto es lo que tengo: [hmi@bdadev-5 ~]$ hadoop fs -ls /bdatest/clm/data/ Found 1840 items -rw-r--r-- 3 bda supergroup 0 2015-08-11 00:32 ...

1 la respuesta

Ejecute más de 3000 modelos de bosque aleatorio por grupo utilizando Spark MLlib Scala API

Estoy tratando de construir modelos de bosque aleatorios por grupo (School_ID, más de 3 mil) en un archivo csv de entrada de modelo grande usando Spark Scala API. Cada uno de los grupos contiene alrededor de 3000-4000 registros. Los recursos que ...