Спасибо, Ричи, я собираюсь попробовать оба метода и посмотреть, как сравнивается скорость.

я есть огромный файл HTML, сохраненный в моей системе, который содержит данные из каталога продуктов. Данные структурированы так, что для каждой записи продукта имя находится между двумя тегами (имя) и (/ имя).

Каждый продукт имеет до 3 атрибутов: имя, productID и цвет, но не все продукты будут иметь все эти атрибуты.

Как мне извлечь эти данные для каждого продукта, не смешивая атрибуты продукта? Файл также 50 мегабайт!

Пример кода ....

<name>'hat'</name>
blah blah blah
<prodId>'1829493'</prodId>
blah blah blah
<color>'cyan'</color>

blah blah 
blah blah blah
blah blah blah

<name>'shirt'</name>
blah blah blahblah blah blah
<prodId>'193'</prodId>

<name>'dress'</name>
blah blah blah
blah blah blah
<prodId>'18'</prodId>
<color>'dark purple'</color>

Ответы на вопрос(0)

Ваш ответ на вопрос