Cython: Como mover objetos grandes sem copiá-los?
Eu uso o Cython para quebrar o código C ++ e expô-lo ao Python para trabalho interativo. Meu problema é que eu preciso ler grandes gráficos (vários gigabytes) do arquivo e eles acabam duas vezes na memória. Alguém pode me ajudar a diagnosticar e resolver esse problema?
Meu wrapper do Cython para a classe de gráficos se parece com isto:
cdef extern from "../src/graph/Graph.h":
cdef cppclass _Graph "Graph":
_Graph() except +
_Graph(count) except +
count numberOfNodes() except +
count numberOfEdges() except +
cdef class Graph:
"""An undirected, optionally weighted graph"""
cdef _Graph _this
def __cinit__(self, n=None):
if n is not None:
self._this = _Graph(n)
# any _thisect which appears as a return type needs to implement setThis
cdef setThis(self, _Graph other):
#del self._this
self._this = other
return self
def numberOfNodes(self):
return self._this.numberOfNodes()
def numberOfEdges(self):
return self._this.numberOfEdges()
Se um gráfico do Python precisa ser retornado, ele precisa ser criado vazio e, em seguida, osetThis
método é usado para definir o nativo_Graph
instância. Isso acontece, por exemplo, quando umGraph
é lido a partir do arquivo. Este é o trabalho desta classe:
cdef extern from "../src/io/METISGraphReader.h":
cdef cppclass _METISGraphReader "METISGraphReader":
_METISGraphReader() except +
_Graph read(string path) except +
cdef class METISGraphReader:
""" Reads the METIS adjacency file format [1]
[1]: http://people.sc.fsu.edu/~jburkardt/data/metis_graph/metis_graph.html
"""
cdef _METISGraphReader _this
def read(self, path):
pathbytes = path.encode("utf-8") # string needs to be converted to bytes, which are coerced to std::string
return Graph(0).setThis(self._this.read(pathbytes))
O uso interativo é assim:
>>> G = graphio.METISGraphReader().read("giant.metis.graph")
Depois que a leitura do arquivo é feita e X GB de memória são usados, há uma fase em que, obviamente, ocorre a cópia e, depois disso, são usados 2X GB de memória. Toda a memória é liberada quandodel G
é chamado.
Onde está o meu erro que leva ao gráfico sendo copiado e existente duas vezes na memória?