Результаты поиска по запросу "apache-spark"
@dnaumenko Возможно не смещение, а общие метаданные источника :)
2.2 представил структурированный потоковый источник Kafka. Как я понимаю, он использует каталог контрольных точек HDFS для хранения смещений и гарантии доставки сообщений «точно один раз». Но старые доки ...
если хочешь. Очевидно, что он не может пережить родительский переводчик, над которым вы не имеете никакого контроля. В противном случае вы можете легко добавить ведение журнала и использовать отладчик, чтобы увидеть, что инициализация применяется только при первом вызове.
апуске следующего фрагмента кода PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...
но следует упомянуть, что у udf могут быть потери производительности, так как они могут предотвратить нажатие фильтров. конечно, это не всегда так, но хорошей практикой является как можно больше придерживаться нативных функций spark.
ужно реализовать приведенную ниже логику SQL в SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Мой вкладDataFrame как показано ниже: val dataset1 = Seq((66, ...
@ViduraMudalige это не правда, у него нет проверки во время компиляции на наличие столбцов
ираюсь добавить новый столбец в фрейм данных с выражением. например, у меня есть датафрейм +-----+----------+----------+-----+ | C1 | C2 | C3 |C4 | +-----+----------+----------+-----+ |steak|1 |1 | 150| |steak|2 |2 | 180| | fish|3 |3 | 100| ...
Если указан COUNT, то результатом является мощность TXA.
я есть спарк DataFrame, который сгруппирован по столбцу, агрегированному с количеством: df.groupBy('a').agg(count("a")).show +---------+----------------+ |a |count(a) | +---------+----------------+ | null| 0| | -90| ...
Нам не нужно использовать Dockerized Zeppelin, давайте сначала попробуем бинарный файл на вашей локальной машине, чтобы убрать сложности.
ользую этот учебникискровой кластер на режиме пряжи в док-контейнере [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] запустить цеппелин в искровом кластере в режиме пряжи. Однако я застрял на шаге 4. Я ...
Дополнительное замечание для будущих читателей: если у вас нестандартный текст json, то все, что вы получите после использования этих функций, это NULL, поэтому проверьте недопустимые поля и предпочтите подход схемы, поскольку он работает как для двойных, так и для одинарных кавычек в схеме json.
я есть существующий фрейм данных Spark, который имеет столбцы как таковые: -------------------- pid | response -------------------- 12 | {"status":"200"} ответ является строковым столбцом. Есть ли способ привести его в JSON и извлечь конкретные ...
@ Бхарат Нет, это не закруглится. Для этого проверьте документы Spark на функцию округления или вы можете создать для нее отдельный UDF.
учаю ошибку: org.apache.spark.sql.analysisexception: cannot resolve 'year'Мои входные данные: 1,2012-07-21,2014-04-09Мой код: val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import ...
test = test.flatMap (лямбда-xs: [(x [0], x [1]) для x в xs])
я есть списки кортежей, которые я хочу объединить в один список. Я был в состоянии обрабатывать данные с использованием лямбда-выражений и понимания списков там, где я близок к возможности использовать reduByKey, но не уверен, как объединить ...
spark.rstudio.com/articles/guides-dplyr.html#sql-translation
ичок в sparklyr (но знаком с spark и pyspark), и у меня есть действительно простой вопрос. Я пытаюсь отфильтровать столбец на основе частичного совпадения. В dplyr я бы написал свою операцию так: businesses %>% filter(grepl('test', biz_name)) ...