Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

O que significam as colunas 'rawPrediction' e 'probabilidade' do DataFrame no Spark MLlib '

Depois de treinar um LogisticRegressionModel, eu transformei os dados de teste DF com eles e obtive a previsão DF. E quando chamo prediction.show (), os nomes das colunas de saída são:[label | features | rawPrediction | probability | prediction]. ...

1 a resposta

Spark - SELECIONE ONDE ou filtrando?

Qual é a diferença entre selecionar com uma cláusula where e filtrar no Spark? Existem casos de uso em que um é mais apropriado que o outro? Quando eu uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))e quando ...

1 a resposta

O pipeline do Spark ML causa java.lang.Exception: falha ao compilar… Código… cresce além de 64 KB

Usando o Spark 2.0, estou tentando executar um simples VectorAssembler em um pipeline pyspark ML, da seguinte maneira: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

2 a resposta

Spark equivalente a IF Then ELSE

Eu já vi essa pergunta aqui anteriormente e tirei lições disso. No entanto, não sei por que estou recebendo um erro quando acho que deve funcionar. Eu quero criar uma nova coluna no Spark existenteDataFrame por algumas regras. Aqui está o que eu ...

1 a resposta

Buscando valores distintos em uma coluna usando o Spark DataFrame

Usando o Spark 1.6.1, preciso buscar valores distintos em uma coluna e, em seguida, executar alguma transformação específica em cima dela. A coluna contém mais de 50 milhões de registros e pode aumentar. Eu entendo que fazer umdistinct.collect() ...

4 a resposta

Converter string pyspark em formato de data

Eu tenho um dataframe pyspark de data com uma coluna de string no formato deMM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() e recebo uma sequência de ...

1 a resposta

Compreendendo a representação da coluna vetorial no Spark SQL

Antes de usar o VectorAssembler () para consolidar alguns recursos categóricos do OneHotEncoded ... Meu quadro de dados era assim: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

1 a resposta

Lendo vários arquivos do S3 no Spark por período de data

DescriçãoEu tenho um aplicativo que envia dados para o AWS Kinesis Firehose e isso grava os dados no meu bucket S3. O Firehose usa o formato "aaaa / MM / dd / HH" para gravar os arquivos. Como neste caminho S3 de ...

1 a resposta

Como dividir Vector em colunas - usando PySpark

Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...

1 a resposta

Alteração de propriedade anulável da coluna Spark Dataframe

Desejo alterar a propriedade anulável de uma coluna específica em um Spark Dataframe. Se eu imprimir o esquema do quadro de dados atualmente, ele será exibido abaixo.col1: string (nullable = false) col2: string (nullable = true) col3: string ...