Парсинг контента при помощи Screaming Frog SEO Spider

Парсинг контента при помощи Screaming Frog SEO Spider Программы

Screaming Frog SEO Spider (лягушка) — это SEO краулер при помощи которого обычно производят аудиты сайтов, так же им можно парсить контент с других сайтов.

Сразу оговорюсь в бесплатной версии программы это сделать нельзя, но вы можете получить ключ бесплатно, подписавшись на рассылку в конце данного урока.

Скачиваем Screaming Frog SEO Spider, устанавливаем его и запускаем. После чего активируем программу (как это сделать есть в материалах рассылки).

Парсим контент программой Screaming Frog SEO Spider

Я сейчас создаю 2 сайта пока на копипасте. В общем мне сейчас нужно спарсить шаблоны сайтов (где есть партнерские ссылки — заработок на партнерках) и залить контент на сайт под управлением MODX. И в рамках курса по MODX + Fenom делаю витрину офферов — партнерский катаорг под микрозаймы, в который нужно спарсить офферов. Рассмотрим как это сделать на реальных примерах.

Парсинг карточек с шаблонами

Буду парсить карточки партнерских товаров с сайта https://wrapbootstrap.com/.

Запускаем лягушку и настраиваем поля для парсинга к примеру вот пример карточки https://wrapbootstrap.com/theme/onekit-bootstrap-5-landing-page-WB0X617B2

пример карточки

Т.е. есть картинка, описание, стоимость и прочие характеристики, спарсим их. + лягушка автоматом спарсит title, description, h1

В общем идем в Configuration > Custom > Extractions

Configuration > Custom > Extractions

И добавляем XPath элементы, щелкнув по кнопке ADD

Добавляем XPath элементы

Теперь нам нужно получить XPath нужных элементов на самой странице карточки, идем на нее и по нужному элементу щелкаем правой кнопкой мыши (пользуюсь браузером гугл хром) и выбираем Посмотреть код элемента.

Смотрим код элемента

Откроется код данного элемента, нам нужна обвертка всего этого описания (если навести на нее мышкой, то выделится весь текст описания), щелкаем по ней правой кнопкой мыши и копируем XPath элемента

Копируем XPath элемента

И вставляем его в скримин фрог, так же обзываем его для удобства, так как там HTML и заливать мы будем это описание вместе с html, то оставляем тип Exhtract Inner HTML

Добавляем XPath в скримин фрог

Давайте покажу еще пару полей — остальное делается по принципу и подобию

Копируем XPath элемента - цена

Цена в данном случае просто число, поэтому тип выбираем Exhtract Text

Добавляем XPath цены в скримин фрог

С этим думаю понятно, а вот для того чтобы спарсить URL картинки — без обвертки img src (многие CMS могут загружать себе эти картинки по ссылкам), нам нужно точно также скопировать XPath изображения

Копируем XPath изображения

вставляем в лягушки и добавляем в конце /@src (для ссылок /@href)

Добавляем XPath изображения в лягушке

Добавляем все и сохраняем, нажав OK.

Тестовый парсинг одной страницы

Чтобы попробовать как работает парсинг на 1 странице (под которую делали настройку), переключаем стандартный режим Spider на List (Mode — List)

Переключаемся в режим List

После чего копируем из адресной строки браузера адрес страницы

Копируем URL адрес страницы

и вставляем в лягушку

Upload - Paste

потом ок,

ok

после этого начнется парсинг (если не начался, то старт) и вы получите результаты, пробегаемся по ним и смотрим, либо сразу в эксель экспортируем и смотрим

Смотрим что спарсила лягушка

Если все нормально можно парсить весь сайт или его категории.

Если сайт огромный (с тясячами страниц), а вам нужно из них всего пару сотен, то на его парсинг уйдет много времени (да и у других типов страниц не будет нужных полей) можно спарсить только определенные разделы например взяв их и sitemap.xml, в моем случае сайтмап у сайта я не нащел, поэтому буду его парсить целиком, переключившись в режим Spider (Mode — Spider см. выше).

Парсинг офферов

Раз я частично копирую в курсе дизайн с https://xn--80aacjqiv0a.xn--p1ai/ спаршу с него и карточки (хотя далеко не лучший сайт для парсинга — в плане что спарсится не все что нужно).

Открываем любую карточку там видим отдельные поля которые можно спарсить, в моем случае их всего 8 (отметил их на скриншоте).

8 полей которые можно спарсить

Кнопки и ссылки отмечать не стал, так как там конкретно их партнерские ссылки (они нам не нужны). У первых 6 парсить буду только значения (которые выделены). Для этого щелкаем по очереди по выделениям правой кнопкой мыши и выделяем посмотреть код.

Просмотр кода

Откроется консоль браузера и в ней нужно скопировать XPach этого элемента, делается это просто: щелкаем в консоле по коду этого элемента правой кнопкой мыши, в спалывающем меню выбираем Copy — Copy XPach.

Копируем XPach

И выписываем их в блокнот.

Выписываем поля XPath

И все остальные поля таким же образом, в конечном итоге должно получиться следующее:

Процентная ставка //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[1]/b 
Повторный займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[3]/b
Рассмотрение //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[5]/b
Первый займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[2]/b
Срок займа //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[4]/b
Заявок в этом месяце //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[6]/b
Изображение //*[@id="dle-content"]/div/div[2]/div[1]/div[2]/img
Контент //*[@id="tarif"]/div

Теперь запускаем лягушку и идем в: Configuration > Custom > Extractions и добавляем туда все выписанные XPach

Конфигурация

для поля изображения в конце добавил /@src, чтобы получить только адрес картинки. Далее можно протестировать парсинг одно страницы (как это сделано есть выше), ну а потом уже запустить для всего сайта или каких то определенных страниц.

Работа с excel

Скримин фрог вместе с требуемыми параметрами парсит так же общие параметры (Status Code, Indexability и другие), которые 90% в дальнейшем при загрузке на сайт не понадобиться, поэтому можно смело от них избавляться.

Я оставляю следующее: Title 1, Meta Description 1, H1-1 и поля которые указали в Extractions. Да т.к. в моем случае пути изображений спарсились так: /progect/1601230075_creditplus.png, я делаю для них полные пути (чтобы можно было открыть в браузере): https://xn--80aacjqiv0a.xn--p1ai/progect/1601025056_creditter.png. В конечном итоге получаем примерно такую таблицу:

Пример получившейся таблицы

Теперь получившиеся данные можно импортировать в CMS. В следующем уроке покажу как наполнить CMS MODX + Minishop2 при помощи дополнения MsImportExport.

Поделиться с друзьями
Алексей

Веб-дизайнер и SEO оптимизатор. Занимаюсь созданием сайтов с 2010 года и их продвижение с 2012 года!

Оцените автора
( 1 оценка, среднее 5 из 5 )
Web-Revenue.ru
Добавить комментарий

  1. Аноним

    Спасибо! Хотелось бы также увидеть обзор SiteAnalyzer — вполне достойный бесплатный аналог Screaming Frog

    Ответить
    1. Голягин Алексей

      У него есть русскоязычный мануал по работе так сказать и довольно не плохой.

      Ответить
  2. Ізолон Вест

    Не все так просто. Уже давно на серваках блочат подозрительно много запрсов. Много нормальных сайтов жабкой спарсить не возможно. Идет блокировка.

    Ответить
    1. Голягин Алексей

      Возможно. Но мне таких пока не попадалось) Если даже блокируют, то после того как лягушка спарсит более 1к страниц, в таком случае в несколько подходов можно все равно все спарсить)

      Ответить