Resultados da pesquisa a pedido "apache-spark"
PySpark: como criar um JSON aninhado a partir do quadro de dados do spar
Estou tentando criar um json aninhado do meu spark dataframe que possui dados na seguinte estrutura. O código abaixo está criando um json simples com chave e valor. Poderia ajudar por ...
Eficiente pyspark join
Eu li muito sobre como fazer junções eficientes no pyspark. As maneiras de obter junções eficientes que encontrei são basicamente: Use uma junção de transmissão, se puder. Normalmente não posso porque os quadros de dados são muito grandes) ...
pyspark converte linha para json com valores nulos
Objetivo Para um quadro de dados com esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...
Apache Spark e erro de Java - Causados por: java.lang.StringIndexOutOfBoundsException: begin 0, end 3, length 2
Sou novo no framework spark. Eu tentei criar um aplicativo de exemplo usando spark e java. Eu tenho o seguinte códig Pom.xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.1</version> ...
Insira Json no Hbase como JSON - Scala
Gostaria de inserir um objeto json em uma escala Hbase cellusing, atualmente sou capaz de inserir valores usando o código abaixo, mas gostaria de saber como posso inserir todo o objeto Json em uma célula Hbas import ...
Como encontrar elementos comuns entre duas colunas da matriz?
Tenho duas colunas de string separadas por vírgula sourceAuthors etargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Gostaria de adicionar outra colunanCommonAuthors com o número de ...
Como usar a função de ordem superior da transformação?
É sobretransform função de ordem superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). Existe alguma maneira de usá-lo como uma função padrão ...
Número de partições de quadro de dados após a classificação?
Como o spark determina o número de partições depois de usar umorderBy? Eu sempre pensei que o dataframe resultante temspark.sql.shuffle.partitions, mas isso não parece ser verdade: val df = (1 to 10000).map(i => ...
PySpark: criar dict de dicts a partir do datafra
Tenho dados no seguinte formato, que são obtidos do Hive em um dataframe: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Onde a data é a época da ...
Como inserir o DataFrame de fluxo estruturado spark na tabela / localização externa do Hiv
ma consulta na integração de streaming estruturado spark com a tabela HIV Tentei fazer alguns exemplos de streaming estruturado com faísc aqui é meu exemplo val spark =SparkSession.builder().appName("StatsAnalyzer") ...