Python 3 - чтение и запись значений в .csv
Я читаю файл .csv, хочу извлечь из него определенные значения и записать их в новый файл result.csv (B). Я попытался сделать это с кодом (A), который работает только частично.
В определении я поместил все переменные, из которых я хочу в конечном итоге извлечь совпадающие значения из файла .csv, который я читаю. (кроме «record_id» и «abbreviation», потому что я заполню их вручную)
Теперь, запустив код (A), он генерирует следующий результат в result.csv:
Токовый выход
record_id abbreviation patient_id step_count distance ambulation_time velocity cadence normalized_velocity step_time_differential step_length_differential cycle_time_differential step_time step_length step_extremity cycle_time stride_length hh_base_support swing_time stance_time single_supp_time double_supp_time toe_in_out
70520161453 3 292,34 1,67 , 107,8 , 0,004 1,051 0,008 , 96,746 , 1,116 , 2,988 , , , ,
Как видите, пропущено много значений по сравнению с желаемым выходом (B), а также некоторые из них, которые показаны, но неверны.
Теперь проблемы, с которыми я сталкиваюсь, следующие:
Проблема 1
Так как я сравниваю имена в файле .csv, который я читаю, с именами в моем определении (A). Некоторые из них не совсем совпадают или путаются с другими, которые частично имеют одно и то же имя.
Это проблема для:
patient_id, velocity, step_time, stride_length, swing_time, stance_time, single_supp_time, double_supp_time, toe_in_out
Например, скорость из моего определения совпадает со скоростью из файла .csv, который я читаю, но она также совпадает с stridevelocitystddev. Это вызывает недостающее значение для скорости.
Проблема 2
Все следующие переменные содержат 2 значения вместо 1, например, step_time содержит значения 0,558 и 0,554. Для всех этих переменных, содержащих 2 значения, я хочу вычислить среднее из двух, а затем записать только среднее значение (в этом примере среднее 0,558 и 0,554 = 0,56) в файл result.csv, принадлежащий step_time.
step_time, step_length, cycle_time, stride_length, hh_base_support, swing_time, stance_time, single_supp_time, double_supp_time, toe_in_out
Надеюсь, кто-то может помочь мне решить эти проблемы, будет оценено!
Не стесняйтесь играть с файлом экспорта, который я использую, вы можете скачать его здесь:CSV-файл экспорта
(A) код Python
import csv
from collections import defaultdict
from datetime import datetime
data = defaultdict(str)
result = 'path/to/file/result_%s.csv'%datetime.now().strftime('%b-%d-%Y_%H%M')
#Make a list with the predefined variables
definition = ["record_id", "abbreviation", "patient_id", "step_count", "distance", "ambulation_time", "velocity", "cadence", "normalized_velocity", "step_time_differential", "step_length_differential", "cycle_time_differential", "step_time", "step_length", "step_extremity", "cycle_time", "stride_length", "hh_base_support", "swing_time", "stance_time", "single_supp_time", "double_supp_time", "toe_in_out"]
#Read the GaitRite .csv
with open('path/to/file/Export 4.csv', 'r') as f, open(result, 'w') as outfile:
reader = csv.reader(f, delimiter=';')
next(reader, None) # skip the headers
writer = csv.DictWriter(outfile, fieldnames=definition, lineterminator='\n')
writer.writeheader()
#Read the .csv row by row
for row in reader:
for item in definition:
h = item.replace('_', '')
r0 = row[0].lower().replace(' ', '')
if h in r0:
try:
avg = round((float(row[1].replace(',', '.')) + float(row[2].replace(',', '.'))) / 2, 2)
data[item] = avg
except ValueError:
avg = 0 # for cases with entry strings or commas
data[item] = row[1]
data['record_id'] = datetime.now().strftime('%m%d%Y%H%M')
# Write the clean result.csv
writer.writerow(data)
(B) Желаемый выход .csv
record_id abbreviation patient_id step_count distance ambulation_time velocity cadence normalized_velocity step_time_differential step_length_differential cycle_time_differential step_time step_length step_extremity cycle_time stride_length hh_base_support swing_time stance_time single_supp_time double_supp_time toe_in_out
70520161453 25 3 292,34 1,67 175,1 107,8 0,004 1,051 0,008 0,56 97,27 1,11 194,64 4,65 0,47 0,65 0,47 0,18 1,45