Як сканувати великий сайт і витягувати дані за допомогою SEO Spider, що кричить

Кричати Frog SEO павук

Зараз ми допомагаємо кільком клієнтам Ринкові міграції. Оскільки великі компанії використовують подібні корпоративні рішення, це як павутина, яка роками вплітається у процеси та платформи ... до того моменту, що компанії навіть не знають про кожну точку дотику.

З такою платформою автоматизації маркетингу, як Marketo, форми є точкою входу даних на сайти та цільові сторінки. Компанії часто мають тисячі сторінок і сотні форм на своїх сайтах, які потрібно визначити для оновлення.

Чудовим інструментом для цього є Вереск жаби SEO Spider... мабуть, найпопулярніша платформа на ринку для сканування, аудиту та вилучення даних із сайту. Платформа багата функціями і пропонує сотні варіантів практично для кожного завдання, яке вам потрібно.

Кричущий жабний SEO-павук: сканування та витяг

Ключовою особливістю Screaming Frog SEO Spider є те, що ви можете виконувати власні витяжки на основі Регекс, XPathабо CSSPath специфіку. Це надзвичайно корисно, оскільки ми хочемо сканувати веб-сайти клієнта та перевіряти та фіксувати значення MunchkinID та FormId зі сторінок.

За допомогою інструменту відкрийте Конфігурація> Спеціальні> Вилучення щоб визначити елементи, які ви хочете витягти.

кричача жаба на замовлення

Екран вилучення дозволяє практично необмежений збір даних:

Правила видобутку павуків, що кричать Жаба

Видобуток регулярних виразів, XPath та CSSPath

Для MunchkinID ідентифікатор знаходиться у сценарії форми, який знаходиться на сторінці:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Потім ми застосовуємо a Правило регулярного виразу щоб захопити ідентифікатор із тегу сценарію, який вставлений на сторінку:

Regex: ["']id["']: *["'](.*?)["']

Для ідентифікатора форми дані містяться у вхідному тегу у формі Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Ми застосовуємо Правило XPath щоб захопити ідентифікатор із форми, яка вставлена ​​на сторінку. Запит XPath шукає форму із введенням з ім'ям грізний, тоді екстракція зберігає значення:

XPath: //form/input[@name="formid"]/@value

Кричущий жаба SEO Spider Javascript візуалізації

Ще одним чудовим варіантом Screaming Frog є те, що ви не обмежуєтесь HTML-кодом на сторінці, ви можете зробити будь-який JavaScript, який збирається вставити форми на ваш сайт. Всередині Конфігурація> Павук, Ви можете перейти на вкладку "Рендеринг" і включити це.

Кричущий жаба SEO Spider Javascript візуалізації

Звичайно, сканування сайту займає трохи більше часу, але ви отримаєте форми, які відображаються на стороні клієнта за допомогою JavaScript, а також форми, які вставляються на стороні сервера.

Хоча це дуже специфічний додаток, він неймовірно корисний під час роботи з великими сайтами. Ви точно захочете перевірити, де ваші форми вбудовані на весь сайт.

Завантажте кричущий жаба SEO Spider

Що ви думаєте?

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.