Результаты поиска по запросу "apache-spark"

2.2 представил структурированный потоковый источник Kafka. Как я понимаю, он использует каталог контрольных точек HDFS для хранения смещений и гарантии доставки сообщений «точно один раз». Но старые доки ...

pyspark python apache-spark-sql

3 ответа

если хочешь. Очевидно, что он не может пережить родительский переводчик, над которым вы не имеете никакого контроля. В противном случае вы можете легко добавить ведение журнала и использовать отладчик, чтобы увидеть, что инициализация применяется только при первом вызове.

апуске следующего фрагмента кода PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...

sql dataframe apache-spark-sql

2 ответа

но следует упомянуть, что у udf могут быть потери производительности, так как они могут предотвратить нажатие фильтров. конечно, это не всегда так, но хорошей практикой является как можно больше придерживаться нативных функций spark.

ужно реализовать приведенную ниже логику SQL в SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Мой вкладDataFrame как показано ниже: val dataset1 = Seq((66, ...

ТОП публикаций

Test Test Test Test Test Test

21 Startup Ideas to Start Profitable Business in 2020

How To Build E-Learning Platform From Scratch: The Complex Guide From Idea to MVP

How to Raise Your Own SaaS Product off the Ground and Avoid Common Pitfalls

scala dataframe

3 ответа

@ViduraMudalige это не правда, у него нет проверки во время компиляции на наличие столбцов

ираюсь добавить новый столбец в фрейм данных с выражением. например, у меня есть датафрейм +-----+----------+----------+-----+ | C1 | C2 | C3 |C4 | +-----+----------+----------+-----+ |steak|1 |1 | 150| |steak|2 |2 | 180| | fish|3 |3 | 100| ...

group-by null sql apache-spark-sql

2 ответа

Если указан COUNT, то результатом является мощность TXA.

я есть спарк DataFrame, который сгруппирован по столбцу, агрегированному с количеством: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...

yarn hadoop apache-zeppelin docker

1 ответ

Нам не нужно использовать Dockerized Zeppelin, давайте сначала попробуем бинарный файл на вашей локальной машине, чтобы убрать сложности.

ользую этот учебникискровой кластер на режиме пряжи в док-контейнере [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] запустить цеппелин в искровом кластере в режиме пряжи. Однако я застрял на шаге 4. Я ...

spark-dataframe pyspark

1 ответ

Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.

я есть существующий фрейм данных Spark, который имеет столбцы как таковые: -------------------- pid | response -------------------- 12 | {"status":"200"} ответ является строковым столбцом. Есть ли способ привести его в JSON и извлечь конкретные ...

spark-dataframe apache-spark-sql

2 ответа

@ Бхарат Нет, это не закруглится. Для этого проверьте документы Spark на функцию округления или вы можете создать для нее отдельный UDF.

учаю ошибку: org.apache.spark.sql.analysisexception: cannot resolve 'year'Мои входные данные: 1,2012-07-21,2014-04-09Мой код: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...

python pyspark

2 ответа

test = test.flatMap (лямбда-xs: [(x [0], x [1]) для x в xs])

я есть списки кортежей, которые я хочу объединить в один список. Я был в состоянии обрабатывать данные с использованием лямбда-выражений и понимания списков там, где я близок к возможности использовать reduByKey, но не уверен, как объединить ...

sparklyr dplyr r

1 ответ

spark.rstudio.com/articles/guides-dplyr.html#sql-translation

ичок в sparklyr (но знаком с spark и pyspark), и у меня есть действительно простой вопрос. Я пытаюсь отфильтровать столбец на основе частичного совпадения. В dplyr я бы написал свою операцию так: businesses %>% filter(grepl('test', biz_name)) ...

Страница 142 из 167

140 141142143 144

Результаты поиска по запросу "apache-spark"

@dnaumenko Возможно не смещение, а общие метаданные источника :)

Популярные теги

ТОП публикаций

@ViduraMudalige это не правда, у него нет проверки во время компиляции на наличие столбцов

Если указан COUNT, то результатом является мощность TXA.

Нам не нужно использовать Dockerized Zeppelin, давайте сначала попробуем бинарный файл на вашей локальной машине, чтобы убрать сложности.

@ Бхарат Нет, это не закруглится. Для этого проверьте документы Spark на функцию округления или вы можете создать для нее отдельный UDF.

test = test.flatMap (лямбда-xs: [(x [0], x [1]) для x в xs])

spark.rstudio.com/articles/guides-dplyr.html#sql-translation

Вы очень активны! Это здорово!

Результаты поиска по запросу "apache-spark"

Популярные теги

ТОП публикаций