Як сканувати великі сайти за допомогою Screaming Frog

Які причини сканування веб-сайту?
Як сканувати дуже великий веб-сайт?
1. Збільшення оперативної пам'яті комп'ютера
2. Збільшення доступності RAM RAM
3. Збільшення швидкості сканування крику жаби
4. Сегментуйте веб-сайт на об'ємні шматки
5. Включіть цільові каталоги
6. Виключіть непотрібні URL-адреси
Додаткові поради

Один з перших кроків при проведенні SEO-аудиту або підготовці до редизайну веб-сайту - це «сканування» (так званий «вискоблювання») веб-сайту. Сканування веб-сайту може надати важливу інформацію про потенційні проблеми та можливі сфери вдосконалення.

Моїм персональним інструментом для сканування веб-сайту є Кричала жаба . Програмне забезпечення є недорогим, простим у використанні та надзвичайно універсальним. Протягом багатьох років я оцінив багато інших варіантів, але я ще не знайшов той, який дійсно конкурує, коли всі міркування враховані.

Які причини сканування веб-сайту?

Є багато різних речей, які можна виконати за допомогою Screaming Frog. Нижче наведено деякі способи використання, які я вважаю особливо корисними.

Створіть список всіх URL / сторінок на веб-сайті
Знайти 302 перенаправлення
Виконання QA для реалізацій 301 перенаправлення
Перевірка Google Analytics знаходиться на кожній сторінці
Знайти непрацюючі посилання (внутрішні та зовнішні)
Знайти відсутні мета-вміст і атрибути alt
Пошук дубльованого вмісту
Знайдіть або перевірте вміст схеми
Пошук шкідливих програм або спаму
Знайдіть сторінки повільного завантаження
Створіть XML-карту сайту
Перевірити список URL-адрес PPC

Знову ж таки, це лише невеликий список можливих варіантів сканування веб-сайту. Є ще багато речей, які ви можете зробити, як тільки ви отримаєте повне розуміння можливостей Screaming Frog.

Як сканувати дуже великий веб-сайт?

Налаштування за замовчуванням Screaming Frog відмінно підходить для роботи з веб-сайтами, які мають менше ніж 10 000 сторінок, але що ви робите, коли ви запускаєте веб-сайт, подібний до наведеного нижче?

На сайті зображено понад 3 мільйони індексованих сторінок, що робить найменш важким завданням повзання. Приймаючи на сайті цей розмір вимагає декількох важливих налаштувань до конфігурацій Screaming Frog. Нижче наведено посібник з налаштування Screaming Frog для сканування дуже великих веб-сайтів.

1. Збільшення оперативної пам'яті комп'ютера

Збільшення оперативної пам'яті комп'ютера

Цей крок є необов'язковим, але надзвичайно рекомендованим. Програмне забезпечення Screaming Frog спирається на оперативну пам'ять для зберігання даних під час сканування сайту. Чим більше ОЗП на вашому комп'ютері, тим більше сторінок можна сканувати. Доброю новиною є те, що оперативна пам'ять стала надзвичайно недорогою. Для більшості комп'ютерів карта пам'яті ємністю 8 Гб коштує близько $ 50.

Вам потрібно зробити невелике дослідження про те, скільки оперативної пам'яті ваш комп'ютер може тримати, оскільки він коливається від 4 Гб до 64 ГБ. Як тільки ви дізнаєтеся, скільки оперативної пам'яті ви можете додати, переконайтеся, що ви купуєте RAM карти, сумісні з вашим комп'ютером.

Встановлення оперативної пам'яті зазвичай займає близько 30 секунд. Все, що вам потрібно зробити, це вискочити з задньої частини комп'ютера і пересунути картки пам'яті в доступні слоти. Ви можете виконати швидкий пошук на YouTube для вашої комп'ютерної моделі + "RAM Upgrade", щоб знайти підручник, як виконати цей процес у випадку, якщо з вашим комп'ютером є певні нюанси.

Найкраща частина щодо збільшення оперативної пам'яті це більше, ніж просто можливість сканування веб-сайтів. Якщо ви подібні до мене, і у вас завжди є безліч програм, які одночасно виконуються, а також відскакують між 1000 різними вкладками Chrome, ви будете приємно здивовані поліпшенням щоденної швидкості комп'ютера.

2. Збільшення доступності RAM RAM

За замовчуванням для Screaming Frog можна отримати доступ до 512 Мб оперативної пам'яті. Додавання додаткової оперативної пам'яті до комп'ютера не призведе до зміни кількості сторінок, які можна сканувати, доки ви не попередить програмне забезпечення, яке може використовувати більше доступного місця для зберігання.

Для цього вам спочатку потрібно відкрити папку Screaming Frog, яку було завантажено. Потім використовуйте текстовий редактор, наприклад Notepad, щоб відкрити файл з ім'ям “ScreamingFrogSEOSpider.l4j”.

l4j”

Файл дуже простий і містить лише два рядки інформації. Номер, розташований на другому рядку, є той, який потрібно оновити.

Номер, розташований на другому рядку, є той, який потрібно оновити

Номер за замовчуванням при першому відкритті цього файлу буде "-Xmx512M". Це означає, що Screaming Frog може використовувати 512 Мб (0.5 ГБ) оперативної пам'яті комп'ютера. Додайте 1024 для кожного додаткового 1 Гб оперативної пам'яті, до якого ви хочете мати доступ до Screaming Frog. Наприклад, щоб виділити 15 ГБ (зображене на наведеному вище скріншоті), просто змініть номер на "15360" (1024 x 15 = 15360). Переконайтеся, що залишили текст "-Xmx" і "M", які з'являються навколо номера. Потім збережіть файл, і ви повинні бути готові використовувати додаткову оперативну пам'ять.

ПОРАДА 1: Я рекомендую виділити щонайменше 3 ГБ менше, ніж загальна кількість доступних ОЗУ веб-сайту. Якщо ви виділите повну доступну оперативну пам'ять веб-сайту, то для великого сканування веб-сайту можна заморозити комп'ютер, коли він наблизиться до максимальної кількості оперативної пам'яті. Наприклад, якщо на комп'ютері встановлено 16 ГБ оперативної пам'яті, можна лише отримати доступ до 13 Гб. Ви завжди можете зменшити обсяг оперативної пам'яті в цьому буфері, якщо визначите, що це більше, ніж ваш комп'ютер насправді потребує.

ПОРАДА 2: Щоб перевірити, чи було успішно збільшено розподіл ОЗП: перезапустіть Screaming Frog, натисніть “Довідка”, а потім натисніть “Debug”. У рядку, позначеному як "Пам'ять", ваша нова кількість оперативної пам'яті повинна бути вказана безпосередньо за словом "Макс".

3. Збільшення швидкості сканування крику жаби

Сканування великих веб-сайтів потребує часу, але є способи прискорити процес. Щоб звести до мінімуму час, який потрібно, потрібно збільшити швидкість сканування на вкладці конфігурації.

Після натискання кнопки "Speed" з'явиться вікно налаштування швидкості павука. Номер, вказаний поруч із написом "Макс. Потік", визначає швидкість сканування веб-сайту.

Збільшення цього числа значно покращить час, необхідний для сканування веб-сайтів. Протестуйте за допомогою декількох різних максимальних значень потоків і перевірте, як впливає швидкість сканування (наприклад, 10, 50, 100, 200, 500, 1000 тощо)

Варто зазначити, що встановлення великої кількості потоків збільшить кількість запитів http на сервер, що може вплинути на час відповіді веб-сайту. Я ніколи не стикався з цією проблемою з будь-яким нашим клієнтом, але не заважає звернутися до веб-майстра сайту, щоб у будь-якому випадку затвердити швидкість сканування. Інший варіант - відстежувати час відгуку та регулювати швидкість, якщо ви помітили будь-які проблеми.

4. Сегментуйте веб-сайт на об'ємні шматки

Незалежно від того, скільки оперативної пам'яті ви розмістили на комп'ютері, завжди буде декілька веб-сайтів із занадто багато сторінок для сканування в одному сеансі. Щоб сканувати веб-сайти такого розміру, потрібно розділити їх на фрагменти, які можна сканувати.

Перше, що вам потрібно зробити, це запустити тестовий сканування, щоб дізнатися максимальну кількість URL-адрес, які може працювати ваш комп'ютер. Максимальна кількість URL-адрес, які можна сканувати, допоможе визначити стратегію сегментації. Як довідник, на моєму досвіді, комп'ютер з 15 Гб оперативної пам'яті, виділений для Screaming Frog, може сканувати 600,000-900,000 URL-адрес за сеанс.

Визначивши максимальну кількість URL-адрес, потрібно визначити веб-сайт, розбивши його на піддомени або каталоги, які не перевищують максимальну кількість URL-адрес. Використовуйте команду пошуку сайту в Google, щоб визначити кількість індексованих сторінок у кожному розділі (наприклад: "Сайт: http://yourdomain.com/targeted-directory/ ” ).

Як ви можете бачити на наведеному вище знімку, цей каталог містить лише 304 000 індексованих сторінок, хоча веб-сайт в цілому містив понад 3 мільйони.

Важливо відзначити, що команда пошуку сайту відображатиме лише кількість індексованих сторінок у каталозі. Він не відображає загальну кількість сторінок, які існують у каталозі. Сторінки можуть існувати в каталозі, який зараз не проіндексовано. З цієї причини надайте собі буфер між максимальною кількістю сторінок, на яких може працювати ваш комп'ютер, та кількістю індексованих сторінок у розділі, який ви намагаєтеся сканувати. Наприклад, якщо ваш комп'ютер може обробляти близько 700 000 сторінок на сканування, спробуйте розділити веб-сайт на розділи, які містять 500 000 або менше індексованих сторінок. Це дасть вам 200000 буфер сторінок для обліку будь-яких неіндексованих сторінок.

Порада: Ви можете запустити ситуації, коли піддомен або каталог має більше індексованих сторінок, ніж може сканувати комп'ютер. Пояснення щодо того, як обробляти цю ситуацію, включено до розділу 6 цього підручника.

5. Включіть цільові каталоги

Наступний крок у процесі налаштування - дозволити Screaming Frog знати, який конкретний вміст ви хочете сканувати. Для цього потрібно натиснути кнопку "Включити" у спадному меню конфігурації.

Відкриється вікно, яке дозволяє використовувати регулярні вирази (regex) для обмеження програмного забезпечення лише для сканування певного вмісту. Якщо ви не знайомі з регулярними виразами Microsoft має досить хороший список того, для чого може використовуватися кожен символ.

Наведений нижче приклад показує регулярний вираз, який використовується для обмеження сканування лише до каталогу / foodscores /.

Наведений нижче приклад показує регулярний вираз, який використовується для обмеження сканування лише до каталогу / foodscores /

Важливо переконатися, що ви починаєте сканування зі сторінки, яка має принаймні одне внутрішнє посилання, яке вказує на ваш цільовий вміст. Якщо ні, сканування завершиться лише після однієї сторінки.

6. Виключіть непотрібні URL-адреси

Функція виключення схожа на функцію включення, за винятком, як ви вже здогадалися, вона видаляє розділи, які ви не бажаєте використовувати у результатах.

Це дуже корисно при розбитті веб-сайтів, які мають вкладені каталоги, або при розбитті самих каталогів, коли вони мають більше сторінок, ніж ваш комп'ютер може працювати на одному скануванні.

Ця функціональність також надзвичайно корисна при роботі з CMS, що автоматично генерує динамічні сторінки. Якщо ви розпочнете сканування, і почнете помічати, що велика кількість URL-адрес, які витягуються, мають динамічні сегменти, такі як "? Search =" або "? Tag =", ви, швидше за все, захочете додати ці сегменти URL-адреси до розділу виключення, щоб очистити збільште результати і зменшіть кількість непотрібних сканованих сторінок.

Нижче наведено кілька прикладів регулярних виразів функцій виключення, які висвітлюють Screaming Frog на своєму веб-сайті.

Нижче наведено кілька прикладів регулярних виразів функцій виключення, які висвітлюють Screaming Frog на своєму веб-сайті

ПОРАДА: Іноді може бути складно розбити окремі каталоги з більшою кількістю індексованих сторінок, ніж може працювати ваш комп'ютер. Щоб виконати це завдання, потрібно використовувати як функцію включення, так і виключення.

Одним з можливих рішень є розбиття каталогу за допомогою використання ключового слова URL. Якщо велика частина URL-адрес у каталозі містить певне ключове слово, ви можете скористатися нею. Виконайте один сканування, включаючи URL-адреси в каталозі, у якому міститься цільове ключове слово, а потім запустіть окреме сканування, де ви включите каталог і виключіть ключове слово.

Найкраще вирішення цієї проблеми зазвичай залежить від конкретного веб-сайту, який ви намагаєтеся сканувати. Витратьте час на знайомство з регулярними виразами. Якщо ви це зробите, ви відкриєте для себе багато різних варіантів розбиття великих каталогів на скановані фрагменти.

Додаткові поради

Ось кілька додаткових порад, які можуть бути корисними для налаштування Screaming Frog і сканування великих веб-сайтів.

Якщо у вас є 64-розрядна машина, переконайтеся, що ви завантажуєте та встановлюєте 64-бітну версію Java. Якщо ви не зробите, ви зіткнетеся з помилкою, показаною нижче.

Якщо ви не зробите, ви зіткнетеся з помилкою, показаною нижче

Зберігайте резервні копії для сканування, коли наближаєтеся до максимального використання оперативної пам'яті. Наприклад, якщо ваш комп'ютер зазвичай обробляє 700 000 URL-адрес на сканування, а ви перебуваєте в середині сканування, який пройшов 600 000 URL-адрес, це гарна ідея призупинити і зберегти, якщо високий обсяг оперативної пам'яті зрештою призведе до зависання комп'ютера. Там в налаштування за замовчуванням Screaming Frog, який повинен призупинити програмне забезпечення на високий рівень використання пам'яті, але я відчував ситуації, коли він не завжди працює.

Як зазначалося раніше, чим більше оперативної пам'яті доступно для Screaming Frog, тим більше URL-адрес можна сканувати. Це означає, що може бути корисно зменшити обсяг оперативної пам'яті, що вимагається іншими програмами. Якщо ви користуєтеся Chrome, і ви відкриваєте багато відкритих вкладок відразу, буде викликано безкоштовне розширення "Велика призупинка" що тимчасово зависає вкладки, які ви не використовували через деякий час. Потім вона дозволяє швидко розморожувати вкладки, коли ви знову потребуєте їх. Розширення допомагає зменшити обсяг оперативної пам'яті Chrome, і я особисто знайшов це надзвичайно корисним.

Сканування величезних веб-сайтів, безумовно, може бути проблемою, але це процес, який є життєво важливим для SEO, обслуговування веб-сайту і під час процесу редизайну. На щастя, як тільки ви закінчите реалізацію всіх вищезгаданих конфігурацій, ви все-таки зможете налаштувати сканування веб-сайтів розміром з гори Еверест.

У вас є власні поради щодо сканування великих веб-сайтів? Або у вас є додаткові запитання? Ви можете розмістити свої запитання та коментарі нижче або зверніться до мене безпосередньо за адресою: [email protected] або @BrianRogel

Удачі, і щасливі повзати!

Чи читали ви весь цей блог? Якщо так, то ми вражені вашою відданістю (давайте будемо чесними, це досить довга посада). Ви можете бути просто типом людини, яку ми шукаємо. Обов'язково перевірте наші відкриті позиції і зверніться до нас за адресою: [email protected] . Ми з нетерпінням чекаємо від вас!

Які причини сканування веб-сайту?
Як сканувати дуже великий веб-сайт?
Які причини сканування веб-сайту?
Як сканувати дуже великий веб-сайт?
Якщо ви розпочнете сканування, і почнете помічати, що велика кількість URL-адрес, які витягуються, мають динамічні сегменти, такі як "?
Search =" або "?
У вас є власні поради щодо сканування великих веб-сайтів?
Або у вас є додаткові запитання?
Чи читали ви весь цей блог?