Nov 18, 2016, 11:20 AM

apache-spark multithreading emr pyspark amazon-s3

Apache Spark читает для S3: не может выбирать объекты thread.lock

Поэтому я хочу, чтобы мое приложение Spark считывало текст с Amazon S3. Я написал следующий простой скрипт:

import boto3
s3_client = boto3.client('s3')
text_keys = ["key1.txt", "key2.txt"]
data = sc.parallelize(text_keys).flatMap(lambda key: s3_client.get_object(Bucket="my_bucket", Key=key)['Body'].read().decode('utf-8'))

Когда я делаюdata.collect Я получаю следующую ошибку:

TypeError: can't pickle thread.lock objects

и я не вижу никакой помощи в Интернете. Возможно, кому-то удалось решить вышесказанное?

Ответы на вопрос(2)

Популярные вопросы

0 ответов

Объединить 2 вложенных массива в один с несколькими значениями

0 ответов

Атрибут класса выпадающего списка лезвия Laravel 4

0 ответов

Как мне сделать цепочку обратного вызова с q?

0 ответов

cURL многопоточность с PHP

0 ответов

Почему этот метод python выдает ошибку, говоря, что глобальное имя не определено?