Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Spark: qual é a melhor estratégia para unir um RDD de duas tuplas com RDD de chave única?

Eu tenho dois RDD's que quero juntar e eles se parecem com isso:

1 a resposta

Definindo textinputformat.record.delimiter em faísca

No Spark, é possível definir algumas configurações de hadoop como, por ex.

2 a resposta

Filtre o quadro de dados spark / scala se a coluna estiver presente no conjunto

Estou usando o Spark 1.4.0, é o que tenho até agora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))A funçãoaceso [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] converte um ...

1 a resposta

Fator desequilibrado de KMeans?

Edit: A resposta desta pergunta é fortemente discutida em:A soma no Spark foi ruim [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] NoCalcular o custo de ...

1 a resposta

Use mais de um collect_list em uma consulta no Spark SQL

Eu tenho o seguinte quadro de dadosdata: root |-- userId: string |-- product: string |-- rating: doublee a seguinte consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...

1 a resposta

Spark lendo o arquivo WARC com InputFormat customizado

Preciso processar um arquivo .warc através do Spark, mas não consigo encontrar uma maneira direta de fazer isso. Eu preferiria usar Python e não ler o arquivo inteiro em um RDD atravéswholeTextFiles() (porque o arquivo inteiro seria processado em ...

1 a resposta

Spark: número de desempenho inconsistente no número de núcleos de escala

Estou fazendo um teste de escala simples no Spark usando classificação de classificação - de 1 núcleo até 8 núcleos. Percebo que 8 núcleos são mais lentos que 1 núcleo. //run spark using 1 core spark-submit --master local[1] --class ...

1 a resposta

Como implementar o incremento automático no spark SQL (PySpark)

Eu preciso implementar uma coluna de incremento automático na minha tabela sql spark, como eu poderia fazer isso. Por favor, me guie. eu estou usando o pyspark 2.0 Obrigado Kalyan

1 a resposta

Extrair partição de tabela de seção no Spark - java

Existe alguma maneira no Spark extrair apenas os nomes das colunas da partição? A solução alternativa que estou usando é executar "show extended table like table_name"usandoHiveContext

3 a resposta

Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas

Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...