Resultados da pesquisa a pedido "pyspark"
Saída VectorAssembler apenas para DenseVector?
Há algo muito irritante com a função do VectorAssembler. Atualmente, estou transformando um conjunto de colunas em uma única coluna de vetores e, em seguida, uso a função StandardScaler para aplicar a escala aos recursos incluídos. No entanto, ...
sobrescrevendo uma saída de faísca usando o pyspark
Estou tentando substituir um quadro de dados Spark usando a seguinte opção no PySpark, mas não tenho êxito spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)o comando mode = ...
Embrulhando uma função java no pyspark
Eu estou tentando criar uma função agregada definida pelo usuário que eu possa chamar de python. Eu tentei seguir a resposta ...
Filtrando um Pyspark DataFrame com a cláusula IN do tipo SQL
Eu quero filtrar um Pyspark DataFrame com um SQLIN cláusula, como em sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')Ondea é a tupla(1, 2, 3). Estou recebendo este ...
Adicionando coluna ao PySpark DataFrame, dependendo se o valor da coluna está em outra coluna
Eu tenho um PySpark DataFrame com estrutura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items')Eu preciso adicionar uma coluna adicional com 1 ou 0, dependendo se 'item' está em 'fav_items' ou não. Então eu ...
Como filtrar com base no valor do array no PySpark?
Meu esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...
Pyspark: preenchimento para frente com última observação para um DataFrame
Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...
Fazendo histograma com a coluna Spark DataFrame
Estou tentando fazer um histograma com uma coluna de um dataframe que se parece com DataFrame[C0: int, C1: int, ...]Se eu fizesse um histograma com a coluna C1, o que devo fazer? Algumas coisas que eu tentei ...
Tabela de consulta HIVE no pyspark
Estou usando CDH5.5 Eu tenho uma tabela criada no banco de dados padrão do HIVE e capaz de consultá-la no comando HIVE. Resultado hive> use default; OK Time taken: 0.582 seconds hive> show tables; OK bank Time taken: 0.341 seconds, Fetched: 1 ...
java.lang.OutOfMemoryError no pyspark
Hy, Eu tenho um dataframe em um sparkcontext com 400k linhas e 3 colunas. O driver possui 143.5 de memória de armazenamento 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB RAM, ...