Resultados de la búsqueda a petición "pyspark"
Genere la forma más rápida para crear RDD de matrices numpy
Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y está representado como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ...
java.lang.IllegalArgumentException en org.apache.xbean.asm5.ClassReader. <init> (fuente desconocida) con Java 10
Comencé a recibir el siguiente error cada vez que intento recopilar mis rdd. Sucedió después de instalar Java 10.1. Por supuesto, lo saqué y lo reinstalé, el mismo error. Luego instalé Java 9.04 mismo error. Luego arranqué python 2.7.14, apache ...
¿Cómo enumerar los RDD definidos en Spark Shell?
Tanto en los shells "spark-shell" como en "pyspark", creé muchos RDD, pero no pude encontrar ninguna manera de enumerar todos los RDD disponibles en mi sesión actual de Spark Shell.
¿Cómo afecta el número de particiones a `wholeTextFiles` y` textFiles`?
En la chispa, entiendo cómo usarwholeTextFiles ytextFiles, pero no estoy seguro de qué usar cuando. Esto es lo que sé hasta ahora: Cuando se trata de archivos que no están divididos por línea, uno debe usarwholeTextFiles, de lo contrario ...
Cómo cargar dependencias jar en IPython Notebook
Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] me inspiró a probar spark-csv para leer el archivo .csv en PySpark. Encontré un par de publicaciones ...
Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark
Tengo un conjunto de datos muy grande que se carga en Hive. Consiste en aproximadamente 1.9 millones de filas y 1450 columnas. Necesito determinar la "cobertura" de cada una de las columnas, es decir, la fracción de filas que tienen valores no ...
Error de Numpy al imprimir un RDD en Spark con Ipython
Estoy tratando de imprimir unRDD utilizandoSpark enIpython y cuando hago eso me sale este error: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...
SparkSQL: suma condicional usando dos columnas
Espero me puedas ayudar con esto. Tengo un DF de la siguiente manera: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
¿Cómo cambiar los nombres de columna del marco de datos en pyspark?
Vengo de antecedentes de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de columna a algo útil usando el comando simple: df.columns = new_column_name_listSin embargo, lo ...
¿Cómo guardar un marco de datos de chispa como un archivo de texto sin filas en pyspark?
Tengo un marco de datos "df" con las columnas ['nombre', 'edad']. Guardé el marco de datos usandodf.rdd.saveAsTextFile("..") para guardarlo como un rdd. Cargué el archivo guardado y luego collect () me da el siguiente resultado. a = ...