# Жизненный цикл парсера

ВНИМАНИЕ

В этом разделе документации представлена информация для продвинутых пользователей, которые хотят лучше понимать, как работает парсер Wordstat Deep v2

Принцип действия Wordstat Deep v2 основан на парсинге — автоматическом сборе данных с двух сайтов — Яндекс Вордстат и поисковые подсказки Яндекса.

Алгоритм работы парсера подчиняется определенному жизненному циклу, разделенному на этапы.

По умолчанию в парсере работа разбита на 4 этапа:

  1. сбор первого уровня Wordstat (от 1 до 41 страницы, в зависимости от частотности фразы) — от 0 до 25% прогресса
  2. сбор второго уровня Wordstat (от 1 до 41 страницы для фраз, собранных на первом этапе) — от 26 до 50% прогресса
  3. сбор поисковых подсказок для всех фраз, собранных на первом и втором этапе — от 51 до 75% прогресса
  4. проверка частоты показов собранных на третьем этапе поисковых подсказок — от 76 до 100% прогресса

За количество этапов жизненного цикла отвечают три настройки во вкладке Расширенных настроек:

  • Глубина сбора Wordstat (этапы 1 и 2)
  • Собирать подсказки (этап 3)
  • Проверять частоту показов (этап 4)

Например, если вы установите глубину парсинга 1 — второй этап парсинга будет пропущен и в жизненном цикле останутся три этапа. Если при этом отключить, например, сбор подсказок (вместе с ним отключается и проверка частоты) — то в жизненном цикле парсера останется только один этап — сбор фраз из вордстата на глубине 1.

На первых трех этапах жизненного цикла в задание могут добавляться новые фразы, на последнем этапе жизненного цикла фразы не добавляются — происходит проверка добавленных ранее фраз — поэтому число добавленных фраз в таблице не растет, но меняется значение прогресса.

Возможен также сценарий, когда не растет количество фраз на этапе парсинга подсказок. Если в расширенных настройках установлена опция “Оставлять только фразы с ненулевой частотой показов”, то при парсинге подсказок количество фраз расти не будет (поскольку все подсказки не имеют проверенной частоты по умолчанию), а расти оно будет на этапе проверки частоты показов, причем добавляться в задание будут только фразы с ненулевой частотой.