Результаты поиска по запросу "apache-spark"

1 ответ

Подход, показанный в связанном посте, показывает, как обобщить это для произвольных преобразований.

оложим, у меня есть следующий spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Который может быть создан с использованием следующего ...

1 ответ

Все ли двоичные столбцы имеют максимальную статистику в паркете?

новной ветке спарк - я пытался записать один столбец с "a", "b", "c" в файл паркетаf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Но сохраненный файл не имеет статистики (мин, макс) $ ls ...

1 ответ

Например, если вы только что оснастили модель конвейера тремя этапами и хотите установить некоторые параметры на втором этапе, вы можете просто сделать что-то вроде:

исал собственный ML PipelineEstimator а такжеTransformer для моего собственного алгоритма Python, следуя показанной схемеВот [https://stackoverflow.com/a/37279526/1843329]. Однако в этом примере все параметры, необходимые для_transform() были ...

ТОП публикаций

1 ответ

Я надеюсь, что ответ полезен

я есть ниже XML, который я пытаюсь загрузить, чтобы зажечь фрейм данных. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...

2 ответа

Это не решает более тонкие проблемы модулей, которые имеют определенные привязки C. Хотя в статье упоминается numpy (одна из этих специальных библиотек), она не имеет отношения к оператору ImportError, который испытывает.

аюсь запустить работу PySpark, которая зависит от определенных библиотек python3. Я знаю, что могу установить эти библиотеки в Spark Cluster, но, поскольку я повторно использую кластер для нескольких заданий, я бы предпочел объединить все ...

2 ответа

):

я есть метка времени в UTC и ISO8601, но при использовании структурированной потоковой передачи она автоматически конвертируется в местное время. Есть ли способ остановить это преобразование? Я хотел бы иметь это в UTC. Я читаю данные JSON от ...

1 ответ

 который принимает только одно имя столбца за раз. Вы знаете об обходном пути?

ли создать UDF, который будет возвращать набор столбцов? То есть имея фрейм данных следующим образом: | Feature1 | Feature2 | Feature 3 | | 1.3 | 3.4 | 4.5 |Теперь я хотел бы извлечь новую особенность, которую можно описать как вектор, скажем, ...

2 ответа

Вы можете объединить ваши требования к фильтрации, некоторые примеры ниже:

отаю над фреймом данных, созданным JSON, а затем хочу применить условие фильтра к фрейму данных. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = sc.parallelize(Seq(jsonStr)) val df ...

1 ответ

Вы можете продолжать так долго ...

новичок здесь. Недавно я начал играть с помощью spark на моей локальной машине на двух ядрах с помощью команды. pyspark - мастер местный [2] У меня есть 393 Мб текстового файла, который содержит почти миллион строк. Я хотел выполнить некоторые ...

0 ответов

java.lang.IllegalStateException: не удалось получить экземпляр HMACSHA256. в com.microsoft.azure.documentdb.internal.BaseAuthorizationTokenProvider.generateKeyAuthorizationSignature (BaseAuthorizationTokenProvider.java:146) в com.microsoft.azure.documentdb.internal.BaseAuthorizationToken.Zure .DocumentClient.getAuthorizationToken (DocumentClient.java:3379) в com.microsoft.azure.documentdb.DocumentClient.putMoreContentIntoDocumentServiceRequest (DocumentClient.java:3356) в com.microsoft.azure.documentdb.DavaDentmentAjentjjentClientClientClient com.microsoft.azure.documentdb. (DocumentClient.java:327) на com.microsoft.azure.documentdb.DocumentClient. (Документация tClient.java:233) на com.microsoft.azure.documentdb.DocumentClient. (DocumentClient.java:135)

аюсь записать кадр данных Spark в Azure CosmosDB и настроил все правильные настройки, но при попытке записи данных получаю следующую ошибку. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := "2.10.7" libraryDependencies ++= Seq( ...