четверг, 12 марта 2009 г.

парсер (дополнение_1)

Дополняю ранее написанную статью о парсере товаров, и приведу несколько примеров для XPath для yandex.market.ru:

//полная таблица содержащая XML краткой характеристики товара (проще записывать целиком
//табличку, а не бегать по нодам
string xpathExpressionTYPEc = ("//div[@id='main-spec-cont']/table");
//полная таблица содержащая XML подробного описания товара
string xpathExpressionTYPE = ("//div[@id='full-spec-cont']//table");
//большое изображение
string xpathExpressionFOTO = "//table[@class='modelpict']//a/@href";
//маленькое изображение
string xpathExpressionIMG = "//table[@class='modelpict']//img/@src";

Полное описание товара выглядит так:

Краткое описание товара соответственно:

Т. е. если устраивает дизайн описания товара предложенный от yandex.market.ru, то можно обойтись и предложенным мной выше XPath, гораздо интереснее использовать свой дизайн в описании товара, но для этого необходимо "бегать по каждым нодам" в полученном коде странички товара.



Я не привожу весь код странички товара с yandex.market.ru, но перед тем как что-то парсить необходимо взглянуть на этот код, открыть его в отдельном редакторе и т. д., найти тот участок кода который необходимо извлечь. Посмотреть в какие тэги он заключен, а так же пробежаться по всей страничке и выявить повторяющиеся тэги, только затем писать XPath. Если будут вопросы по парсингу какой-то странички с примерами, готов расмотреть это в следующих статьях.