Resultados de la búsqueda a petición "pyspark"

1 la respuesta

KeyError: 'SPARK_HOME' en pyspark en Jupyter en Google-Cloud-DataProc

Cuando intento mostrar un SparkDF (Prueba), obtengo un KeyError, como se muestra a continuación. Probablemente algo salga mal en la función que usé antesTest.show(3). KeyError dice: KeyError: 'SPARK_HOME'. Supongo que SPARK_HOME no está ...

1 la respuesta

Factor desequilibrado de KMeans?

Editar: La respuesta de estas preguntas se discute ampliamente en:Suma en chispa ido mal [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] EnCalcular el costo de ...

2 la respuesta

pyspark: NameError: el nombre 'spark' no está definido

Estoy copiando el ejemplo pyspark.ml del sitio web oficial del ...

4 la respuesta

¿Cómo seleccionar la última fila y también cómo acceder al marco de datos PySpark por índice?

Desde un marco de datos SQL PySpark como name age city abc 20 A def 30 BCómo obtener la última fila. (Al igual que df.limit (1) puedo obtener la primera fila del marco de datos en un nuevo marco de datos). ¿Y cómo puedo acceder a las filas del ...

1 la respuesta

Agrupación de conexiones en una aplicación de streaming pyspark

¿Cuál es la forma correcta de usar grupos de conexión en una aplicación de streaming ...

1 la respuesta

Spark 2.0: ruta relativa en URI absoluto (almacén de chispas)

Estoy tratando de migrar de Spark 1.6.1 a Spark 2.0.0 y recibo un error extraño al intentar leer un archivo csv en SparkSQL. Anteriormente, cuando leía un archivo del disco local en pyspark, hacía: Spark 1.6 df = sqlContext.read \ ...

2 la respuesta

Asociación de computación FPgrowth en pyspark vs scala

Utilizando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código de Python: from pyspark.mllib.fpm import FPGrowth model = ...

3 la respuesta

Cómo ejecutar un script en PySpark

Estoy tratando de ejecutar un script en el entorno pyspark pero hasta ahora no he podido. ¿Cómo puedo ejecutar un script como python script.py pero en pyspark? Gracias

1 la respuesta

Cree un marco de datos en pyspark que contenga una sola columna de tuplas

Tengo un RDD que contiene lo siguiente [('columna 1', valor), ('columna 2', valor), ('columna 3', valor), ..., ('columna 100', valor)]. Quiero crear un marco de datos que contenga una sola columna con tuplas. Lo más cerca que he llegado ...

1 la respuesta

Cómo cargar datos en fragmentos desde un marco de datos de pandas a un marco de datos de chispa

He leído datos en fragmentos sobre una conexión pyodbc usando algo como esto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Ahora quiero ...