Парсинг контента при помощи Screaming Frog SEO Spider

Содержание

Парсим контент программой Screaming Frog SEO Spider
Парсинг карточек с шаблонами
Тестовый парсинг одной страницы
Парсинг офферов
Работа с excel

Screaming Frog SEO Spider (лягушка) — это SEO краулер при помощи которого обычно производят аудиты сайтов, так же им можно парсить контент с других сайтов.

Сразу оговорюсь в бесплатной версии программы это сделать нельзя, но вы можете получить ключ бесплатно, подписавшись на рассылку в конце данного урока.

Скачиваем Screaming Frog SEO Spider, устанавливаем его и запускаем. После чего активируем программу (как это сделать есть в материалах рассылки).

Парсим контент программой Screaming Frog SEO Spider

Я сейчас создаю 2 сайта пока на копипасте. В общем мне сейчас нужно спарсить шаблоны сайтов (где есть партнерские ссылки — заработок на партнерках) и залить контент на сайт под управлением MODX. И в рамках курса по MODX + Fenom делаю витрину офферов — партнерский катаорг под микрозаймы, в который нужно спарсить офферов. Рассмотрим как это сделать на реальных примерах.

Парсинг карточек с шаблонами

Буду парсить карточки партнерских товаров с сайта https://wrapbootstrap.com/.

Запускаем лягушку и настраиваем поля для парсинга к примеру вот пример карточки https://wrapbootstrap.com/theme/onekit-bootstrap-5-landing-page-WB0X617B2

Т.е. есть картинка, описание, стоимость и прочие характеристики, спарсим их. + лягушка автоматом спарсит title, description, h1

В общем идем в Configuration > Custom > Extractions

И добавляем XPath элементы, щелкнув по кнопке ADD

Теперь нам нужно получить XPath нужных элементов на самой странице карточки, идем на нее и по нужному элементу щелкаем правой кнопкой мыши (пользуюсь браузером гугл хром) и выбираем Посмотреть код элемента.

Откроется код данного элемента, нам нужна обвертка всего этого описания (если навести на нее мышкой, то выделится весь текст описания), щелкаем по ней правой кнопкой мыши и копируем XPath элемента

И вставляем его в скримин фрог, так же обзываем его для удобства, так как там HTML и заливать мы будем это описание вместе с html, то оставляем тип Exhtract Inner HTML

Давайте покажу еще пару полей — остальное делается по принципу и подобию

Цена в данном случае просто число, поэтому тип выбираем Exhtract Text

С этим думаю понятно, а вот для того чтобы спарсить URL картинки — без обвертки img src (многие CMS могут загружать себе эти картинки по ссылкам), нам нужно точно также скопировать XPath изображения

вставляем в лягушки и добавляем в конце /@src (для ссылок /@href)

Добавляем все и сохраняем, нажав OK.

Тестовый парсинг одной страницы

Чтобы попробовать как работает парсинг на 1 странице (под которую делали настройку), переключаем стандартный режим Spider на List (Mode — List)

После чего копируем из адресной строки браузера адрес страницы

и вставляем в лягушку

потом ок,

после этого начнется парсинг (если не начался, то старт) и вы получите результаты, пробегаемся по ним и смотрим, либо сразу в эксель экспортируем и смотрим

Если все нормально можно парсить весь сайт или его категории.

Если сайт огромный (с тясячами страниц), а вам нужно из них всего пару сотен, то на его парсинг уйдет много времени (да и у других типов страниц не будет нужных полей) можно спарсить только определенные разделы например взяв их и sitemap.xml, в моем случае сайтмап у сайта я не нащел, поэтому буду его парсить целиком, переключившись в режим Spider (Mode — Spider см. выше).

Парсинг офферов

Раз я частично копирую в курсе дизайн с https://xn--80aacjqiv0a.xn--p1ai/ спаршу с него и карточки (хотя далеко не лучший сайт для парсинга — в плане что спарсится не все что нужно).

Открываем любую карточку там видим отдельные поля которые можно спарсить, в моем случае их всего 8 (отметил их на скриншоте).

Кнопки и ссылки отмечать не стал, так как там конкретно их партнерские ссылки (они нам не нужны). У первых 6 парсить буду только значения (которые выделены). Для этого щелкаем по очереди по выделениям правой кнопкой мыши и выделяем посмотреть код.

Откроется консоль браузера и в ней нужно скопировать XPach этого элемента, делается это просто: щелкаем в консоле по коду этого элемента правой кнопкой мыши, в спалывающем меню выбираем Copy — Copy XPach.

И выписываем их в блокнот.

И все остальные поля таким же образом, в конечном итоге должно получиться следующее:

Процентная ставка //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[1]/b 
Повторный займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[3]/b
Рассмотрение //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[5]/b
Первый займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[2]/b
Срок займа //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[4]/b
Заявок в этом месяце //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[6]/b
Изображение //*[@id="dle-content"]/div/div[2]/div[1]/div[2]/img
Контент //*[@id="tarif"]/div

Теперь запускаем лягушку и идем в: Configuration > Custom > Extractions и добавляем туда все выписанные XPach

для поля изображения в конце добавил /@src, чтобы получить только адрес картинки. Далее можно протестировать парсинг одно страницы (как это сделано есть выше), ну а потом уже запустить для всего сайта или каких то определенных страниц.

Работа с excel

Скримин фрог вместе с требуемыми параметрами парсит так же общие параметры (Status Code, Indexability и другие), которые 90% в дальнейшем при загрузке на сайт не понадобиться, поэтому можно смело от них избавляться.

Я оставляю следующее: Title 1, Meta Description 1, H1-1 и поля которые указали в Extractions. Да т.к. в моем случае пути изображений спарсились так: /progect/1601230075_creditplus.png, я делаю для них полные пути (чтобы можно было открыть в браузере): https://xn--80aacjqiv0a.xn--p1ai/progect/1601025056_creditter.png. В конечном итоге получаем примерно такую таблицу:

Теперь получившиеся данные можно импортировать в CMS. В следующем уроке покажу как наполнить CMS MODX + Minishop2 при помощи дополнения MsImportExport.

< Источник файлов для MsGallery: настройка путей, превью, перегенерация превью + наложение watermark

MODX импорт и экспорт для miniShop2 при помощи msImportExport >

Добавить комментарий

Аноним 19.10.2022 в 09:26

Спасибо! Хотелось бы также увидеть обзор SiteAnalyzer — вполне достойный бесплатный аналог Screaming Frog

Ответить
1. Голягин Алексей 19.10.2022 в 11:26
  
  У него есть русскоязычный мануал по работе так сказать и довольно не плохой.
  
  Ответить
Ізолон Вест 11.02.2022 в 15:22

Не все так просто. Уже давно на серваках блочат подозрительно много запрсов. Много нормальных сайтов жабкой спарсить не возможно. Идет блокировка.

Ответить
1. Голягин Алексей 12.02.2022 в 12:55
  
  Возможно. Но мне таких пока не попадалось) Если даже блокируют, то после того как лягушка спарсит более 1к страниц, в таком случае в несколько подходов можно все равно все спарсить)
  
  Ответить