Resultados de la búsqueda a petición "apache-spark"
De DataFrame a RDD [La LabelPoint]
Estoy tratando de implementar un clasificador de documentos usando Apache Spark MLlib y tengo algunos problemas para representar los datos. Mi código es el siguiente: import org.apache.spark.sql.{Row, SQLContext} ...
Spark DataFrames: registerTempTable vs not
Ayer empecé con DataFrame y hasta ahora me gusta mucho. Sin embargo, no entiendo una cosa ... (haciendo referencia al ejemplo en "Especificación programática del esquema" ...
¿Cómo configuro Pyspark en Python 3 con spark-env.sh.template?
Debido a que tengo este problema en mi computadora portátil ipython3, creo que tengo que cambiar "spark-env.sh.template" de alguna manera. Excepción: Python en el trabajador tiene una versión 2.7 diferente a la del controlador 3.4, PySpark no ...
chispa + localidad de datos hadoop
Obtuve un RDD de nombres de archivo, así que un RDD [String]. Lo consigo paralelizando una lista de nombres de archivo (de archivos dentro de hdfs). Ahora mapeo este rdd y mi código abre una secuencia de hadoop usando FileSystem.open (ruta). ...
Requisitos para convertir el marco de datos de Spark en el marco de datos de Pandas / R
Estoy ejecutando Spark en HADOop's YARN. ¿Cómo funciona esta conversión? ¿Se realiza un collect () antes de la conversión? ¿También necesito instalar Python y R en cada nodo esclavo para que la conversión funcione? Estoy luchando por encontrar ...
agregar filtro de idioma a twitter popularhashtags - scala
Soy nuevo en Spark y Scala. Ejecuté las etiquetas de hash populares de trabajo de transmisión de Spark-twitter. Agregué un filtro para algunas palabras y pude filtrar los tweets: val filter = Array("spark", "Big Data") val stream ...
Escribir RDD como archivo de texto usando Apache Spark
Estoy explorando Spark para el procesamiento por lotes. Estoy ejecutando la chispa en mi máquina local usando el modo independiente. Estoy tratando de convertir el Spark RDD como archivo único [salida final] usando el método saveTextFile (), ...
Spark: al intentar ejecutar spark-shell, pero obtener 'cmd' no se reconoce como una función interna o
Estoy tratando de instalar Spark en mi escritorio de Windows. Todo debería funcionar bien, pero recibo un error "'cmd' no se reconoce como un comando interno o externo ..." Instalé Scala, Java JDK y descomprimí Spark tgz en C: \, pero por alguna ...
¿Cómo usar la fuente JDBC para escribir y leer datos en (Py) Spark?
El objetivo de esta pregunta es documentar: pasos necesarios para leer y escribir datos utilizando conexiones JDBC en PySpark posibles problemas con las fuentes JDBC y las soluciones conocidas Con pequeños cambios, estos métodos deberían ...
fusionar múltiples archivos pequeños en unos pocos archivos más grandes en Spark
Estoy usando la colmena a través de Spark. Tengo una consulta Insertar en tabla particionada en mi código de chispa. Los datos de entrada están en 200 + gb. Cuando Spark está escribiendo en una tabla particionada, está escupiendo archivos muy ...