Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Número de partições de quadro de dados após a classificação?

Como o spark determina o número de partições depois de usar umorderBy? Eu sempre pensei que o dataframe resultante temspark.sql.shuffle.partitions, mas isso não parece ser verdade: val df = (1 to 10000).map(i => ...

1 a resposta

Como usar a função de ordem superior da transformação?

É sobretransform função de ordem superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). Existe alguma maneira de usá-lo como uma função padrão ...

3 a resposta

Como encontrar elementos comuns entre duas colunas da matriz?

Tenho duas colunas de string separadas por vírgula sourceAuthors etargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Gostaria de adicionar outra colunanCommonAuthors com o número de ...

1 a resposta

Insira Json no Hbase como JSON - Scala

Gostaria de inserir um objeto json em uma escala Hbase cellusing, atualmente sou capaz de inserir valores usando o código abaixo, mas gostaria de saber como posso inserir todo o objeto Json em uma célula Hbas import ...

3 a resposta

Apache Spark e erro de Java - Causados por: java.lang.StringIndexOutOfBoundsException: begin 0, end 3, length 2

Sou novo no framework spark. Eu tentei criar um aplicativo de exemplo usando spark e java. Eu tenho o seguinte códig Pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.1</version> ...

1 a resposta

pyspark converte linha para json com valores nulos

Objetivo Para um quadro de dados com esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

2 a resposta

Eficiente pyspark join

Eu li muito sobre como fazer junções eficientes no pyspark. As maneiras de obter junções eficientes que encontrei são basicamente: Use uma junção de transmissão, se puder. Normalmente não posso porque os quadros de dados são muito grandes) ...

2 a resposta

PySpark: como criar um JSON aninhado a partir do quadro de dados do spar

Estou tentando criar um json aninhado do meu spark dataframe que possui dados na seguinte estrutura. O código abaixo está criando um json simples com chave e valor. Poderia ajudar por ...

1 a resposta

Produto cartesiano detectado para junção INNER na coluna literal no PySpark

O código a seguir gera a exceção "Produto cartesiano detectado para junção INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...

1 a resposta

Existe uma maneira de enviar trabalho de faísca em diferentes servidores executando o mestre

Temos um requisito para agendar trabalhos de faísca, já que estamos familiarizados com o apache-airflow, queremos prosseguir com ele para criar diferentes fluxos de trabalho. Pesquisei na web, mas não encontrei um guia passo a passo para agendar ...