Создать список из строки с правильной кодировкой (UTF-8)
я с трудом пытаюсь сгенерировать список из строки с правильной кодировкой UTF-8, яя использую Python (яЯ только учусь программировать, поэтому обнажусь с моим глупым вопросом / ужасным кодированием).
Исходный файл представляет собой канал твита (формат JSON), после его успешного анализа и извлечения сообщения со всего остального мне удается получить текст с правильной кодировкой только после печати (в виде строки). Если я попытаюсь поместить пакет в формы списка, он возвращается к незашифрованномуu\000000
форма.
Мой код:
import json
with open("file_name.txt") as tweets_file:
tweets_list = []
for a in tweets_file:
b = json.loads(a)
tweets_list.append(b)
tweet = []
for i in tweets_list:
key = "text"
if key in i:
t = i["text"]
tweet.append(t)
for k in tweet:
print k.encode("utf-8")
В качестве альтернативы я попытался использовать кодировку в начале (при извлечении файла):
import json
import codecs
tweets_file = codecs.open("file_name.txt", "r", "utf-8")
tweets_list = []
for a in tweets_file:
b = json.loads(a)
tweets_list.append(b)
tweets_file.close()
tweet = []
for i in tweets_list:
key = "text"
if key in i:
t = i["text"]
tweet.append(t)
for k in tweet:
print k
Мой вопрос: как я могу положить результирующие k строк, в список? С каждой k строкой как предметом?