Resultados da pesquisa a pedido "apache-spark"

2 a resposta

PySpark: como criar um JSON aninhado a partir do quadro de dados do spar

Estou tentando criar um json aninhado do meu spark dataframe que possui dados na seguinte estrutura. O código abaixo está criando um json simples com chave e valor. Poderia ajudar por ...

2 a resposta

Eficiente pyspark join

Eu li muito sobre como fazer junções eficientes no pyspark. As maneiras de obter junções eficientes que encontrei são basicamente: Use uma junção de transmissão, se puder. Normalmente não posso porque os quadros de dados são muito grandes) ...

1 a resposta

pyspark converte linha para json com valores nulos

Objetivo Para um quadro de dados com esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

3 a resposta

Apache Spark e erro de Java - Causados por: java.lang.StringIndexOutOfBoundsException: begin 0, end 3, length 2

Sou novo no framework spark. Eu tentei criar um aplicativo de exemplo usando spark e java. Eu tenho o seguinte códig Pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.1</version> ...

1 a resposta

Insira Json no Hbase como JSON - Scala

Gostaria de inserir um objeto json em uma escala Hbase cellusing, atualmente sou capaz de inserir valores usando o código abaixo, mas gostaria de saber como posso inserir todo o objeto Json em uma célula Hbas import ...

3 a resposta

Como encontrar elementos comuns entre duas colunas da matriz?

Tenho duas colunas de string separadas por vírgula sourceAuthors etargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Gostaria de adicionar outra colunanCommonAuthors com o número de ...

1 a resposta

Como usar a função de ordem superior da transformação?

É sobretransform função de ordem superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). Existe alguma maneira de usá-lo como uma função padrão ...

2 a resposta

Número de partições de quadro de dados após a classificação?

Como o spark determina o número de partições depois de usar umorderBy? Eu sempre pensei que o dataframe resultante temspark.sql.shuffle.partitions, mas isso não parece ser verdade: val df = (1 to 10000).map(i => ...

2 a resposta

PySpark: criar dict de dicts a partir do datafra

Tenho dados no seguinte formato, que são obtidos do Hive em um dataframe: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Onde a data é a época da ...

2 a resposta

Como inserir o DataFrame de fluxo estruturado spark na tabela / localização externa do Hiv

ma consulta na integração de streaming estruturado spark com a tabela HIV Tentei fazer alguns exemplos de streaming estruturado com faísc aqui é meu exemplo val spark =SparkSession.builder().appName("StatsAnalyzer") ...