Советы по чтению в сложном файле - Python
У меня есть сложные, переменные текстовые файлы, которые я хочу прочитать в Python, но я не уверен, какая будет лучшая стратегия. Я не ищу, чтобы вы что-то кодировали для меня, просто несколько советов о том, какие модули лучше всего соответствуют моим потребностям / советы и т. Д.
Файлы выглядят примерно так:
Program
Username: X Laser: X Em: X
exp 1
sample 1
Time: X Notes: X
Read 1 X data
Read 2 X data
# unknown number of reads
sample 2
Time: X Notes: X
Read 1 X data
...
# Unknown number of samples
exp 2
sample 1
...
# Unknown number of experiments, samples and reads
# The 4 spaces between certain words represent tabs
Чтобы проанализировать эти данные, мне нужно получить данные для каждого чтения и узнать, из какого образца и эксперимента они получены. Кроме того, я могу изменить формат выходного файла, но я думаю, что способ, которым я написал это здесь, легче всего читать.
Для чтения этого файла в Python лучший способ, которым я могу придумать, - это читать его построчно и искать ключевые слова с помощью регулярных выражений. Например, найдите в строке ключевое слово «exp», а затем запишите число после него, затем найдите образец в следующей строке и так далее. Однако, конечно, это не сработает, если в разделе «Примечания» будет использовано ключевое слово.
Итак, я немного озадачен тем, что лучше всего соответствует моим потребностям (трудно что-то использовать, если вы не знаете, что это существует!)
Спасибо за ваше время.