Resultados de la búsqueda a petición "apache-spark"
¿Cuál es la diferencia entre spark.eventLog.dir y spark.history.fs.logDirectory?
En Spark, ¿cuál es la diferencia entre el directorio de registro de eventos y el directorio de registro del servidor de historial? spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps
Spark SQL - Cadena de consulta de escape
No puedo creer que te pregunte esto pero ... ¿CÓMO ESCAPAR UNA CADENA DE CONSULTA SQL EN SPARK SQL UTILIZANDO SCALA? He cansado todo y buscado en todas partes. Pensé que la biblioteca de apache commons lo haría, pero no tuve suerte: import ...
Filtrar un marco de datos de chispa basado en la fecha
Tengo un marco de datos de date, string, stringQuiero seleccionar fechas antes de un cierto período. He intentado lo siguiente sin suerte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Recibo un error que ...
¿Apache spark puede funcionar sin hadoop?
¿Hay alguna dependencia entreChispa - chispearyHadoop? Si no, ¿hay alguna característica que extrañaré cuando corro?Chispa - chispear sinHadoop?
PySpark, importando esquema a través del archivo JSON
tbschema.json Se ve como esto: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Lo cargo usando el siguiente código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...
Problema con la creación de una lista global desde el mapa usando PySpark
Tengo este código donde estoy leyendo un archivo enipython utilizandopyspark. Lo que estoy tratando de hacer es agregarle una pieza que forme una lista basada en una columna particular leída del archivo, pero cuando intento ejecutarlo, la lista ...
¿Cómo definir y usar una función agregada definida por el usuario en Spark SQL?
Sé cómo escribir un UDF en Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)¿Puedo hacer algo similar para definir una función agregada? ¿Cómo se hace ...
Cómo convertir un mapa a RDD de Spark
Tengo un conjunto de datos que tiene la forma de algunos mapas anidados, y su tipo Scala es: Map[String, (LabelType,Map[Int, Double])]El primeroString La clave es un identificador único para cada muestra, y el valor es una tupla que contiene ...
Encontrar el número total de líneas en el archivo distribuido hdfs usando la línea de comando
Estoy trabajando en un clúster donde se guarda un conjunto de datoshdfs de manera distribuida Esto es lo que tengo: [hmi@bdadev-5 ~]$ hadoop fs -ls /bdatest/clm/data/ Found 1840 items -rw-r--r-- 3 bda supergroup 0 2015-08-11 00:32 ...
Ejecute más de 3000 modelos de bosque aleatorio por grupo utilizando Spark MLlib Scala API
Estoy tratando de construir modelos de bosque aleatorios por grupo (School_ID, más de 3 mil) en un archivo csv de entrada de modelo grande usando Spark Scala API. Cada uno de los grupos contiene alrededor de 3000-4000 registros. Los recursos que ...