Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

De DataFrame a RDD [La LabelPoint]

Estoy tratando de implementar un clasificador de documentos usando Apache Spark MLlib y tengo algunos problemas para representar los datos. Mi código es el siguiente: import org.apache.spark.sql.{Row, SQLContext} ...

2 la respuesta

Spark DataFrames: registerTempTable vs not

Ayer empecé con DataFrame y hasta ahora me gusta mucho. Sin embargo, no entiendo una cosa ... (haciendo referencia al ejemplo en "Especificación programática del esquema" ...

2 la respuesta

¿Cómo configuro Pyspark en Python 3 con spark-env.sh.template?

Debido a que tengo este problema en mi computadora portátil ipython3, creo que tengo que cambiar "spark-env.sh.template" de alguna manera. Excepción: Python en el trabajador tiene una versión 2.7 diferente a la del controlador 3.4, PySpark no ...

2 la respuesta

chispa + localidad de datos hadoop

Obtuve un RDD de nombres de archivo, así que un RDD [String]. Lo consigo paralelizando una lista de nombres de archivo (de archivos dentro de hdfs). Ahora mapeo este rdd y mi código abre una secuencia de hadoop usando FileSystem.open (ruta). ...

1 la respuesta

Requisitos para convertir el marco de datos de Spark en el marco de datos de Pandas / R

Estoy ejecutando Spark en HADOop's YARN. ¿Cómo funciona esta conversión? ¿Se realiza un collect () antes de la conversión? ¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar ...

1 la respuesta

agregar filtro de idioma a twitter popularhashtags - scala

Soy nuevo en Spark y Scala. Ejecuté las etiquetas de hash populares de trabajo de transmisión de Spark-twitter. Agregué un filtro para algunas palabras y pude filtrar los tweets: val filter = Array("spark", "Big Data") val stream ...

5 la respuesta

Escribir RDD como archivo de texto usando Apache Spark

Estoy explorando Spark para el procesamiento por lotes. Estoy ejecutando la chispa en mi máquina local usando el modo independiente. Estoy tratando de convertir el Spark RDD como archivo único [salida final] usando el método saveTextFile (), ...

8 la respuesta

Spark: al intentar ejecutar spark-shell, pero obtener 'cmd' no se reconoce como una función interna o

Estoy tratando de instalar Spark en mi escritorio de Windows. Todo debería funcionar bien, pero recibo un error "'cmd' no se reconoce como un comando interno o externo ..." Instalé Scala, Java JDK y descomprimí Spark tgz en C: \, pero por alguna ...

3 la respuesta

¿Cómo usar la fuente JDBC para escribir y leer datos en (Py) Spark?

El objetivo de esta pregunta es documentar: pasos necesarios para leer y escribir datos utilizando conexiones JDBC en PySpark posibles problemas con las fuentes JDBC y las soluciones conocidas Con pequeños cambios, estos métodos deberían ...

3 la respuesta

fusionar múltiples archivos pequeños en unos pocos archivos más grandes en Spark

Estoy usando la colmena a través de Spark. Tengo una consulta Insertar en tabla particionada en mi código de chispa. Los datos de entrada están en 200 + gb. Cuando Spark está escribiendo en una tabla particionada, está escupiendo archivos muy ...