Потоковые данные для панд DF
Я пытаюсь смоделировать использование панд для доступа к постоянно меняющемуся файлу.
У меня есть один файл, читающий CSV-файл, добавляющий в него строку и затем спящий в течение произвольного времени для имитации объемного ввода.
import pandas as pd
from time import sleep
import random
df2 = pd.DataFrame(data = [['test','trial']], index=None)
while True:
df = pd.read_csv('data.csv', header=None)
df.append(df2)
df.to_csv('data.csv', index=False)
sleep(random.uniform(0.025,0.3))
Второй файл проверяет изменение данных, выводя форму информационного кадра:
import pandas as pd
while True:
df = pd.read_csv('data.csv', header=None, names=['Name','DATE'])
print(df.shape)
Проблема в том, что пока я получаю правильную форму DF, есть определенные моменты, когда он выводит(0x2)
.
т.е .:
...
(10x2)
(10x2)
...
(10x2)
(0x2)
(11x2)
(11x2)
...
Это происходит внемного но не междукаждый изменение формы (добавление файла в фрейм данных).
Знание этого происходит, когда первый скрипт открывает файл для добавления данных, а второй скрипт не может получить к нему доступ, следовательно (0x2), произойдет ли потеря данных?
Я не могу получить прямой доступ к потоку, только выходной файл. Или есть другие возможные решения?
редактировать
Цель этого - загрузить только новые данные (у меня есть код, который это делает) и выполнить анализ «на лету». Часть анализа будет включать в себя производительность / сек, графики (аналогично графику потока) и несколько других численных расчетов.
Самая большая проблема заключается в том, что у меня есть доступ только к CSV-файлу, и мне нужно иметь возможность анализировать данные по мере их поступления без потерь или задержек.