Спасибо, Ричи, я собираюсь попробовать оба метода и посмотреть, как сравнивается скорость.
я есть огромный файл HTML, сохраненный в моей системе, который содержит данные из каталога продуктов. Данные структурированы так, что для каждой записи продукта имя находится между двумя тегами (имя) и (/ имя).
Каждый продукт имеет до 3 атрибутов: имя, productID и цвет, но не все продукты будут иметь все эти атрибуты.
Как мне извлечь эти данные для каждого продукта, не смешивая атрибуты продукта? Файл также 50 мегабайт!
Пример кода ....
<name>'hat'</name>
blah blah blah
<prodId>'1829493'</prodId>
blah blah blah
<color>'cyan'</color>
blah blah
blah blah blah
blah blah blah
<name>'shirt'</name>
blah blah blahblah blah blah
<prodId>'193'</prodId>
<name>'dress'</name>
blah blah blah
blah blah blah
<prodId>'18'</prodId>
<color>'dark purple'</color>