Screaming Frog SEO Spider (лягушка) — это SEO краулер при помощи которого обычно производят аудиты сайтов, так же им можно парсить контент с других сайтов.
Сразу оговорюсь в бесплатной версии программы это сделать нельзя, но вы можете получить ключ бесплатно, подписавшись на рассылку в конце данного урока.
Скачиваем Screaming Frog SEO Spider, устанавливаем его и запускаем. После чего активируем программу (как это сделать есть в материалах рассылки).
Парсим контент программой Screaming Frog SEO Spider
Я сейчас создаю 2 сайта пока на копипасте. В общем мне сейчас нужно спарсить шаблоны сайтов (где есть партнерские ссылки — заработок на партнерках) и залить контент на сайт под управлением MODX. И в рамках курса по MODX + Fenom делаю витрину офферов — партнерский катаорг под микрозаймы, в который нужно спарсить офферов. Рассмотрим как это сделать на реальных примерах.
Парсинг карточек с шаблонами
Буду парсить карточки партнерских товаров с сайта https://wrapbootstrap.com/.
Запускаем лягушку и настраиваем поля для парсинга к примеру вот пример карточки https://wrapbootstrap.com/theme/onekit-bootstrap-5-landing-page-WB0X617B2
Т.е. есть картинка, описание, стоимость и прочие характеристики, спарсим их. + лягушка автоматом спарсит title, description, h1
В общем идем в Configuration > Custom > Extractions
И добавляем XPath элементы, щелкнув по кнопке ADD
Теперь нам нужно получить XPath нужных элементов на самой странице карточки, идем на нее и по нужному элементу щелкаем правой кнопкой мыши (пользуюсь браузером гугл хром) и выбираем Посмотреть код элемента.
Откроется код данного элемента, нам нужна обвертка всего этого описания (если навести на нее мышкой, то выделится весь текст описания), щелкаем по ней правой кнопкой мыши и копируем XPath элемента
И вставляем его в скримин фрог, так же обзываем его для удобства, так как там HTML и заливать мы будем это описание вместе с html, то оставляем тип Exhtract Inner HTML
Давайте покажу еще пару полей — остальное делается по принципу и подобию
Цена в данном случае просто число, поэтому тип выбираем Exhtract Text
С этим думаю понятно, а вот для того чтобы спарсить URL картинки — без обвертки img src (многие CMS могут загружать себе эти картинки по ссылкам), нам нужно точно также скопировать XPath изображения
вставляем в лягушки и добавляем в конце /@src (для ссылок /@href)
Добавляем все и сохраняем, нажав OK.
Тестовый парсинг одной страницы
Чтобы попробовать как работает парсинг на 1 странице (под которую делали настройку), переключаем стандартный режим Spider на List (Mode — List)
После чего копируем из адресной строки браузера адрес страницы
и вставляем в лягушку
потом ок,
после этого начнется парсинг (если не начался, то старт) и вы получите результаты, пробегаемся по ним и смотрим, либо сразу в эксель экспортируем и смотрим
Если все нормально можно парсить весь сайт или его категории.
Если сайт огромный (с тясячами страниц), а вам нужно из них всего пару сотен, то на его парсинг уйдет много времени (да и у других типов страниц не будет нужных полей) можно спарсить только определенные разделы например взяв их и sitemap.xml, в моем случае сайтмап у сайта я не нащел, поэтому буду его парсить целиком, переключившись в режим Spider (Mode — Spider см. выше).
Парсинг офферов
Раз я частично копирую в курсе дизайн с https://xn--80aacjqiv0a.xn--p1ai/ спаршу с него и карточки (хотя далеко не лучший сайт для парсинга — в плане что спарсится не все что нужно).
Открываем любую карточку там видим отдельные поля которые можно спарсить, в моем случае их всего 8 (отметил их на скриншоте).
Кнопки и ссылки отмечать не стал, так как там конкретно их партнерские ссылки (они нам не нужны). У первых 6 парсить буду только значения (которые выделены). Для этого щелкаем по очереди по выделениям правой кнопкой мыши и выделяем посмотреть код.
Откроется консоль браузера и в ней нужно скопировать XPach этого элемента, делается это просто: щелкаем в консоле по коду этого элемента правой кнопкой мыши, в спалывающем меню выбираем Copy — Copy XPach.
И выписываем их в блокнот.
И все остальные поля таким же образом, в конечном итоге должно получиться следующее:
Процентная ставка //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[1]/b
Повторный займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[3]/b
Рассмотрение //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[5]/b
Первый займ //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[2]/b
Срок займа //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[4]/b
Заявок в этом месяце //*[@id="dle-content"]/div/div[2]/div[1]/div[1]/div[6]/b
Изображение //*[@id="dle-content"]/div/div[2]/div[1]/div[2]/img
Контент //*[@id="tarif"]/div
Теперь запускаем лягушку и идем в: Configuration > Custom > Extractions и добавляем туда все выписанные XPach
для поля изображения в конце добавил /@src, чтобы получить только адрес картинки. Далее можно протестировать парсинг одно страницы (как это сделано есть выше), ну а потом уже запустить для всего сайта или каких то определенных страниц.
Работа с excel
Скримин фрог вместе с требуемыми параметрами парсит так же общие параметры (Status Code, Indexability и другие), которые 90% в дальнейшем при загрузке на сайт не понадобиться, поэтому можно смело от них избавляться.
Я оставляю следующее: Title 1, Meta Description 1, H1-1 и поля которые указали в Extractions. Да т.к. в моем случае пути изображений спарсились так: /progect/1601230075_creditplus.png, я делаю для них полные пути (чтобы можно было открыть в браузере): https://xn--80aacjqiv0a.xn--p1ai/progect/1601025056_creditter.png. В конечном итоге получаем примерно такую таблицу:
Теперь получившиеся данные можно импортировать в CMS. В следующем уроке покажу как наполнить CMS MODX + Minishop2 при помощи дополнения MsImportExport.
Спасибо! Хотелось бы также увидеть обзор SiteAnalyzer — вполне достойный бесплатный аналог Screaming Frog
У него есть русскоязычный мануал по работе так сказать и довольно не плохой.
Не все так просто. Уже давно на серваках блочат подозрительно много запрсов. Много нормальных сайтов жабкой спарсить не возможно. Идет блокировка.
Возможно. Но мне таких пока не попадалось) Если даже блокируют, то после того как лягушка спарсит более 1к страниц, в таком случае в несколько подходов можно все равно все спарсить)