Автоматическое составления семантического ядра по URL. Как собрать семантическое ядро в Key Collector: полное руководство Собирать информацию о конкурентах

И использует для этого Key Collector предлагаю воспользоваться базой стоп-слов для очистки мусора. Для всех остальных рекомендую обратиться ко мне и , и тогда вам не придётся мучиться, разгребать и группировать тысячи фраз, всё это сделаю за вас я 🙂

Базы стоп-слов для Key Collector

Эту базу я собрал из обрывков и осколков стоп-слов для Кей Коллектора, которые можно найти на просторах Интернета. На мой взгляд это наиболее полный список всех минус-слов, который есть на сегодняшний день, поэтому настоятельно рекомендую воспользоваться им для чистки семантического ядра.

  1. Список стоп-слов для KeyCollector по всем городам России, Украины и Беларусии.
  2. Списки минус-слов для фильтрации: XXX-тематики, “Сделай сам”, ремонт, юмор и т.д.
  3. Список мужских и женских имён.
  4. Стоп-слова для Кей Коллектора разбитые по тематикам (!) – тематик правда не много, но тем не менее.

Этих баз действительно хватит для очистки 95% мусора, который встречается при сборе семантики, но руками всё же придётся поработать всё равно. Тем не менее благодаря использованию этих стоп-слов я начал экономить часы времени на очистку ядер, раньше это была откровенная попоболь!

Сергей Арсентьев

KeyCollector (Кей Коллектор): профессиональное составление семантического ядра.

Семантическое ядро - основа успешного продвижения любого интернет-проекта. Поэтому важно уделить этому этапу максимально пристальное внимание. Для этого можно воспользоваться наиболее популярной программой для сбора ключевых поисковых запросов - KeyCollector.

КейКоллектор - это платная программа , но стоит каждого потраченного на ее приобретение доллара.

Это действительно отличный и мощный парсер самых разных показателей, начиная от ключевых слов, ставок в Яндекс.Директ и Google.Adwords, проверки геозависимости и корректности словоформ, уровня конкуренции и заканчивая расширенным анализом данных ведущих SEO-агрегаторов.

В одном статье просто невозможно описать все возможности программы, поэтому сейчас я остановлюсь на важнейшей из них – профессиональное составление семантического ядра.

Методов подбора, фильтрации и группировки запросов может быть довольно много, но я опишу процесс подбора ключей с помощью Кей Коллектора именно так, как я «наловчился» делать с минимальными затратами времени и с достижением необходимого результата. Обычно на подбор ключей для одной продвигаемой темы у меня уходит около 10-15 минут. Итак, приступим.

Сразу же при открытии Key Collector предложит создать новый проект или открыть старый. В одном проекте целесообразно подбирать и хранить ключевые запросы для всего сайта, если он относительно небольшой, например, до 1000 страниц. Поэтому у меня названием проект обычно является название сайта.

Так что создаем новый проект, сохраняем его под любым именем и первым делом указываем адрес сайта вверху страницы в поле URL.

Далее указываем регион, где нужно собирать запросы. Для этого кликаем внизу программы на каждую кнопку Регионы (всего их 4) и выбираем в появившемся окне нужный регион. Первая кнопка будет нам нужна для сбора статистики и словоформ из Яндекс.Вордстат, вторая – для получения частотностей из Яндекс.Директа, третья – для анализа уровня конкурентности и последняя для сбора статистики из Google.

Основные настройки.

Теперь нужно настроить съем статистики с Яндекс. Он и по умолчанию настроен, но нужно внести небольшие изменения в зависимости от конкретной задачи по составлению семантического ядра.

Во-первых, укажите нижнюю границу частотностей для добавляемых фраз. Это делается в пункте «Добавлять в таблицу фразы с частотностями от». Если ваша цель собрать тысячи низкочастотных запросов – ставьте примерный диапазон 5-50 . Если нужно собирать высокочастотные запросы, то ставьте нижнюю границу частотностей от 50 . Во всех остальных случаях подойдет параметр по умолчанию – от 10 .

Имеет смысл поставить флажок «Автоматически записывать 0». В этом случае при сборе некоторых низкочастотных запросов не будет пустых результатов.

Вы наверное обратили внимание, что глубину парсинга мы оставили равной 0. Нет смысла при сборе обычных региональных запросов использовать большую глубину, так как запросов обычно меньше, чем 40 страниц, которые установлены по умолчанию. Глубину 1 имеет смысл ставить только если стоит задача собрать максимум релевантных ключей по очень высокочастотным запросам и при этом обязательно нужно указать приличное значение, например, 100 в пункте «Не добавлять фразы для глубинного исследования с базовой частотностью равной или ниже, чем».

Я обычно немного повышаю задержки между запросами. При значениях 8000-15000 у меня каптча без всяких прокси-серверов ни разу не появлялась, а скорость работы более чем приемлемая.

Но если каптча будет выскакивать слишком часто, то самый разумный выбор, конечно, использовать прокси-серверы, вот тут есть прокси специально для Keycollector https://proxy-sale.com

Остается только открыть в этих же настройках вкладку Yandex.Direct и добавить 5-6 специально созданных фейковых аккаунтов в виде адрес:пароль.

Программа настроена и готова к сбору ключевых слов.

Сбор ключевых фраз.

Лично мне наиболее удобно собирать ключевые слова для определенной страницы . Хотя некоторые SEO-оптимизаторы предпочитают сначала собрать тысячи фраз, а затем раскидать их по страницам с помощью фильтров.

Я в данной статье рассмотрю именно первый вариант, так как он более простой и, на мой взгляд, более правильный и предпочтительный при составлении ядра для продвижения обычных бизнес-сайтов или того же блога.

Кликаем на иконку сбора статистики Яндекс.Вордстат и вводим список ключей, которые подходят для продвигаемой страницы или раздела сайта. Тут нужно немного проявить фантазию и придумать всевозможные слова, которые могут отражать суть вашей страницы и по которым потенциальные посетители могут искать продвигаемые сайт в поиске.

Если с фантазией туго, просто вручную найдите примеры подобных поисковых запросов в том же Яндексе, .

Конечно, можно собрать подсказки с помощью этой же программы KeyCollector, но при составлении семантического ядра для конкретного раздела или страницы обычно это излишне и быстрее просто вбить несколько общих слов, обычно их немного, всего 5-10 для каждой продвигаемой страницы.

Заботиться об окончаниях или словоформах не нужно, программа найдет все варианты – просто вбивайте максимально общие, но подходящие по смыслу и исключающие другие трактования слова.

Для статьи по обзору бирж вечных ссылок я изначально использовал вот такие слова:

Если бы я использовал только слово «биржа», то программа бы выдала много мусора, который не подходит по содержанию к моей статье, например, про акции, биржевые спекуляции, биржи труда и т.п. А по запросу «биржа ссылок» были найдены самые разные сочетания, при этом хорошо подходящие для моей страницы, в том числе, «лучшая биржа ссылок», «биржи вечных ссылок» и т.п.

В то же время, общее слово «miralinks» лучше всего использовать одно, чтобы найти максимально большое количество вариантов запросов с этим словом: ведь его набирают только те, кто в принципе интересуется именно этой темой и никакой другой.

Отсеиваем лишнее.

После сбора ключевых слов с помощью программы КейКоллектор на текущей вкладке появится список из всех найденных в поисковой статистике фраз, соответствующих настроенным параметрам.

Среди них есть два типа ключей, которые не подойдут для продвижения:

  • Ключи, с небольшим количеством прямых вхождений.
  • Ключи, содержащие минус-слова.

Ключи с небольшим количеством прямых вхождений.

Я уже писал ранее что это такое, сейчас лишь немного повторюсь. Изначально программа собирает ключевые запросы с базовой частотностью . Это означает, что выдаваемое количество того или иного запроса в месяц будет включать в себя все словоформы с этим запросом.

Например, запрос «биржа покупки ссылок» = 55 показов в месяц. Но в число этих показов будет входить много вариаций этого запроса, например, «отзывы о бирже покупки ссылок» или «sape биржа покупки ссылок» и т.п.
Для продвижения сайта нет возможности использовать сразу все эти варианты, ведь ключевые запросы нужно будет прописать в метатегах, которые очень невелики по объемам, добваить в заголовки и подзаголовки страниц, которые также не резиновый и без переспама с нормальной плотностью вписать в текст.

Поэтому логично выбрать наиболее часто встречающиеся запросы и оптимизировать страницу именно под них, чтобы на продвигаемый сайт заходило как можно больше человек. А сколько было показов именно «биржа покупки ссылок» без всяких дополнений и вариаций? Для этого нужно собрать данные с так называемой частотностью «!».

Приступаем.
Кликаем на иконку Директа, проверяем установку флажка около “!слово” и нажимаем «Получить данные».

Как вы видите, количество прямых запросов ключа «биржа покупки ссылок» совсем невелико – всего 3 (!) запроса в месяц, вместо 55. Значит оптимизировать страницу под этот запрос лично я не вижу смысла.

Поэтому важно отсетить все запросы, которые имеют мало прямых точных вхождений в поиске, например, менее 5. Чтобы сделать это быстро, просто отсортируем все собранные ключи по точной частотности «!».

Затем выделим строки, которые содержат слова с недостаточной частотностью и удалим их.
10 секунд, и список из сотен слов обычно сокращается в 3-5 раз. Теперь имеет смысл отбросить оставшиеся нерелевантные ключи.

Ключи с минус-словами.

Что это такое? Это поисковый запрос, по которому ищут не продвигаемую страницу и очевидно не потенциальные клиенты.
Например, для магазина по продаже пылесосов такими нерелевантными запросами могут быть ключи со словами «инструкция», «отзывы»,
То есть запрос «инструкция к пылесосу самсунг» - вряд ли будет полезен для владельца рядового интернет-магазина, ведь даже если по нему придет много людей, то максимум что они сделают – скачают эту инструкцию, а вовсе не купят новый пылесос.

В моем случае имел смысл удалить ключи со словами «скрипт», «www» и т.п.

Приступаем.
Кликаем на кнопку «Стоп-слова». В появившемся окне вводим минус-слова, убеждаемся что внизу тип поиска вхождений стоит «Независимый от словоформы стоп-слова». Это нужно, чтобы не писать каждое минус-слово в точном соответствии, а использовать более общие минус-слова.
В этом случае при использовании, например, минус-слова «инструкц» будут удалены поисковые запросы «пылесосы инструкция», «скачать инструкции к пылесосам» и т.п., то есть запросы с любой словоформой.

Жмем на «Отметить в таблице» и в результате все ключевые запросы, содержащие минус-слова, становятся отмеченными флажками.

Теперь остается только удалить их.
Открывайте вверху вкладку «Данные», выбирайте «Удалить отмеченные фразы» и все – теперь вы имеете список ключей без посторонних запросов.

Определяем уровень конкуренции.

Отличной возможность программы KeyCollector является парсинг данных о количестве найденных проиндексированных страниц по каждому поисковому запросу, число сайтов в ТОП-10, которые содержат эту ключевую фразу в заголовке страницы Title, а также сколько страниц из первой десятке по этим запросам являются главными страницами.

Понятно, что чем больше проиндексированных страниц, оптимизированных заголовков и главных страниц в выдаче, тем сложнее с ними будет конкурировать.

Однако очень часто бывает ситуация, когда хорошие высокочастотные запросы имеют сравнительно небольшой уровень конкуренции. Поэтому очень важно проанализировать все собранные ключевые запросы на уровень конкуренции для того, чтобы выбрать и продвигаться по самым выгодным и еще незанятым ключам.

Для этого кликаем на иконку «KEI» и выбираем «Получить данные для ПС Яндекс».
Можно, конечно, уточнять уровень конкуренции и в других поисковых системах, это зависит от задания на продвижение, но в большинстве случаев Яндекса хватает, чтобы получить объективную картину сложности продвижения того или иного запроса.

Конечно, этот уровень определения конкуренции несовершенен. Было бы просто идеально, чтобы программа умела также парсить по каждому запросу:

  • Средний тИЦ и PR сайтов в ТОП-10.
  • Средний объем страниц.
  • Среднее количество внешних ссылок на конкурента и т.п.

В этом случае результат был бы точнее.
Но как показывает практика даже такого «беглого» анализа конкуренции достаточно для того, чтобы успешно находить выгодные ключи и быстро по ним продвигаться, так как многие оптимизаторы его не проводят вовсе и в итоге многие сайты продвигаются по сложным конкурентным запросам, хотя рядом «лежат» запросы с не меньшей частотой и с полным отсутствием оптимизированных конкурентов.

Дорогие друзья, сегодня я хочу рассказать о том, как эффективно чистить поисковые запросы в программе Key Collector http://www.key-collector.ru/ .

Чтобы почистить семантическое ядро, я использую следующие способы:

  1. Чистка семантического ядра с помощью регулярных выражений.
  2. Удаление с помощью списка стоп-слов.
  3. Удаление с помощью групп слов.
  4. Чистка по фильтру.

Их использование позволит вам быстро и эффективно почистить список собранных ключевых слов и удалить все фразы, которые не подходят для вашего сайта.

Чтобы все наглядно показать, я решил записать видеоурок:

Обзор лучше смотреть в полноэкранном режиме в качестве 720 HD. Также не забывайте подписываться на мой канал на Youtube, чтобы не пропустить новые видео.

Я покажу несколько способов это сделать. Если вы знаете еще способы – черкните в комментариях. Все описанные методы я сам использую. Они экономят мне массу времени.

Итак, поехали.

Регулярные выражения значительно расширяют возможности по выборке запросов и экономят время.

Допустим, нам нужно выбрать все поисковые запросы, которые содержат цифры.

Для этого кликаем на указанной иконке в колонке "Фраза":

Выбираем опцию "удовлетворяет рег. выражению" и вставляем в поле такое регулярное выражение:

Остается нажать кнопку "Применить", и вы получите список всех запросов, которые содержат цифры.

Я люблю применять регулярные выражения для поиска поисковых запросов, которые представляют собой вопросы.

Например, если указать такое регулярное выражение:

То получим список всех запросов, которые начинаются со слова "как" (а также со слов "какой", "какие", "какая"):

Такие запросы отлично подходят для информационных статей, даже если сайт коммерческий.

Если задействовать такое выражение:

бесплатно$

То получим все запросы, которые заканчиваются на слово "бесплатно":

Таким образом, можно сразу избавиться от любителей халявы 🙂 . Нет, как можно набирать запрос "кондиционер бесплатно"? Жажда халявы не имеет границ. Это как в том анекдоте "Приму Бентли в дар" 😉 . Ладно, надо серьезнее.

Если нам нужно найти все фразы, которые содержат буквы латинского алфавита, то пригодится такое выражение:

Приведу примеры других регулярных выражений, которые я использую:

^(\S+?\s\S+?)$ - все запросы, состоящие из 2 слов

^(\S+?\s\S+?\s\S+?)$ - состоящие из 3 слов

^(\S+?\s\S+?\s\S+?\s\S+?)$ - состоящие из 4 слов

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$ - из 5 слов

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$ - из 6 слов

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$ - из 7 слов

^(\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?\s\S+?)$ - из 8 слов

Поиск по запросам, состоящих из 6 и более слов полезен, так как часто они содержат много мусорных фраз.

В программе имеется и другая возможность найти такие запросы – просто выберите в выпадающем меню нужный пункт ниже:

2. Список стоп-слов

Для чистки поисковых запросов имеет смысл создать список нежелательных слов, которые вы хотите удалить в собранных запросах.

Например, если у вас коммерческий сайт, то можно использовать такие стоп-слова:

бесплат

качат

реферат

Я специально пишу некоторые слова только частично, чтобы охватить все возможные варианты. Например, использование стоп-слова "бесплат" позволит не собирать запросы, содержащие:

бесплатно

бесплатный

Стоп-слово "качат" даст возможность не собирать запросы, которые включают в себя:

скачать

качать

В программе Кей Коллектор во вкладке "Сбор данных" переходим в пункт "Стоп-слова":

И добавляем нежелательные слова через опции "Добавить списком" или "Загрузить из файла":

Перейдя в основное окно программы, мы увидим, сколько запросов отмечено по указанным стоп-словам:

Останется только найти отмеченные запросы, кликнуть по ним правой мышкой и выбрать "Удалить отмеченные строки":

Товарищи, которые хотят кондиционеры бесплатно, нас не интересуют 🙂 .

Можно даже не искать пример отмеченного запроса, а сразу кликнуть правой мышкой на любом запросе, даже который не отмечен, и выбрать "Удалить отмеченные строки".

Я также активно использую в качестве стоп-слов названия городов. Например, мне нужно собрать запросы только для Москвы. Поэтому использование стоп-слов с названиями городов позволит не собирать запросы, которые содержат в себе названия других городов.

Приведу примеры таких стоп-слов:

санкт

петер

питер

Все эти слова позволят не собирать запросы, содержащие различные варианты названия Санкт-Петербурга. Как и в предыдущем примере, я использую сокращенные варианты названий городов.

Также советую использовать в качестве стоп-слов цифры предыдущих годов, так как запросы с ними практически никто набирать не будет:

Поделюсь с вами своим списком стоп-слов, который содержит:

  • города России
  • города Украины
  • города Белоруссии
  • города Казахстана

А также мой список общих стоп-слов (бесплат, качат, реферат, pdf и т.д.).

Полный список стоп-слов может получить любой желающий абсолютно бесплатно.

Этот метод я использую очень активно. В любой тематике будут запросы, которые не получится удалить с помощью тех же стоп-слов или групп слов.

Например, стоп-слова не учитывают всего разнообразия словоформ, которые могут быть.

Допустим, ваша компания занимается продажей кондиционеров. При этом такие услуги, как заправка и ремонт не предоставляет.

Можно при просмотре запросов отправлять неподходящие слова в список стоп-слов с помощью указанной иконки:

Но при этом не будут охвачены запросы, которые содержат слова "заправить", "заправки" и т.д.

Для того, чтобы задействовать весь спектр подобных запросов, которые вы хотите удалить, и избавить себя от ненужной работы, делаем следующее.

При просмотре списка запросов часть слов не будет охвачена, как в примере выше.

Я открываю текстовый файл и вписываю в него только часть от слова "заправка", чтобы охватить все возможные словоформы на его основе:

В результате получу список поисковых запросов со всеми возможными вариантами слова "заправка":

Для сброса быстрого фильтра нажмите на указанную галочку:

Данный метод позволяет прямо в процессе работы удалять все словоформы тех запросов, которые вам не подходят. Главное – использовать сокращенные варианты слов для максимального охвата.

Во многих тематиках некоторые методы сбора ключевых слов с таких источников, как, например, поисковые подсказки, в итоге дают много мусорных запросов. Подсказки тоже нужно использовать, в них попадаются отличные ключевые слова, но и чистить их тоже необходимо.

Для быстрой очистки таких запросов имеет смысл воспользоваться данным способом.

Кликаем по указанной иконке в верхней части колонки "Источник":

После этого выбираете нужный источник. Я обычно работаю с подсказками разных поисковых систем:

Можно работать с подсказками каждого поисковика по отдельности, а можно добавить условие:

Применить "ИЛИ" вместо "И" и выбрать сразу несколько источников подсказок:

В итоге получите список запросов из поисковых подсказок сразу из нескольких источников – Яндекса, Гугла и т.д.

По своему опыту могу сказать, что чистить запросы по такому списку на основе источников намного быстрее и эффективнее.

Этот способ знают все. Он заключается в обычном выделении одного или нескольких запросов галочкой, клике правой мышкой и выборе пункта "Удалить отмеченные строки":

Этот метод я использую на заключительной стадии. После всех чисток нужно еще раз просмотреть все запросы и вручную удалить те, которые не подходят, но прошли все предыдущие фильтры.

Так сказать, это финальная "полировка" семантического ядра 🙂 .

Начал писать эту статью довольно давно, но перед самой публикацией оказалось, что меня опередили соратники по профессии и выложили практически идентичный материал.

Поначалу я решил, что публиковать свою статью не буду, так как тему и без того прекрасно осветили более опытные коллеги. Михаил Шакин рассказал о 9-ти способах чистки запросов в KC , а Игорь Бакалов отснял видео об анализе неявных дублей . Однако, спустя какое-то время, взвесив все за и против, пришел к выводу, что возможно моя статья имеет право на жизнь и кому-то может пригодиться – не судите строго.

Если вам необходимо отфильтровать большую базу ключевых слов, состоящую из 200к или 2 миллионов запросов, то эта статья может вам помочь. Если же вы работаете с малыми семантическими ядрами, то скорее всего, статья не будет для вас особо полезной.

Рассматривать фильтрацию большого семантического ядра будем на примере выборки, состоящей из 1 миллиона запросов по юридической теме.

Что нам понадобится?

  • Key Collector (Далее KC)
  • Минимум 8гб оперативной памяти (иначе нас ждут адские тормоза, испорченное настроение, ненависть, злоба и реки крови в глазных капиллярах)
  • Общие Стоп-слова
  • Базовое знание языка регулярных выражений

Если вы совсем новичок в этом деле и с KC не в лучших друзьях, то настоятельно рекомендую ознакомиться с внутренним функционалом , описанным на официальных страницах сайта. Многие вопросы отпадут сами собой, также вы немножечко разберетесь в регулярках.

Итак, у нас есть большая база ключей, которые необходимо отфильтровать. Получить базу можно посредством самостоятельного парсинга, а также из различных источников, но сегодня не об этом.

Всё, что будет описано далее актуально на примере одной конкретной ниши и не является аксиомой! В других нишах часть действий и этапов могут существенно отличаться ! Я не претендую на звание Гуру семантика, а лишь делюсь своими мыслями, наработками и соображениями на данный счет.

Шаг 1. Удаляем латинские символы

Удаляем все фразы, в которых встречаются латинские символы. Как правило, у таких фраз ничтожная частотка (если она вообще есть) и они либо ошибочны, либо не относятся к делу.

Все манипуляции с выборками по фразам проделываются через вот эту заветную кнопку

Если вы взяли миллионное ядро и дошли до этого шага – то здесь глазные капилляры могут начать лопаться, т.к. на слабых компьютерах/ноутбуках любые манипуляции с крупным СЯ могут, должны и будут безбожно тормозить.

Выделяем/отмечаем все фразы и удаляем.

Шаг 2. Удаляем спец. Символы

Операция аналогична удалению латинских символов (можно проводить обе за раз), однако я рекомендую делать все поэтапно и просматривать результаты глазами, а не «рубить с плеча», т.к. порой даже в нише, о которой вы знаете, казалось бы, все, встречаются вкусные запросы, которые могут попасть под фильтр и о которых вы могли попросту не знать.

Небольшой совет, если у вас в выборке встречается множество хороших фраз, но с запятой или другим символом, просто добавьте данный символ в исключения и всё.

Еще один вариант (самурайский путь)

  • Выгрузите все нужные фразы со спецсимволами
  • Удалите их в KC
  • В любом текстовом редакторе замените данный символ на пробел
  • Загрузите обратно.

Теперь фразоньки чисты, репутация их отбелена и выборка по спец. символам их не затронет.

Шаг 3. Удаляем повторы слов

И снова воспользуемся встроенным в KC функционалом, применив правило

Тут и дополнить нечем – все просто. Убиваем мусор без доли сомнения.

Если перед вами стоит задача произвести жесткую фильтрацию и удалить максимум мусора, при этом пожертвовав какой-то долей хороших запросов, то можете все 3 первых шага объединить в один .

Выглядеть это будет так:

ВАЖНО: Не забудьте переключить «И» на «ИЛИ»!

Шаг 4. Удаляем фразы, состоящие из 1 и 7+ слов

Кто-то может возразить и рассказать о крутости однословников, не вопрос – оставляйте, но в большинстве случаев ручная фильтрация однословников занимает очень много времени, как правило соотношение хороший/плохой однословник – 1/20, не в нашу пользу. Да и вбить их в ТОП посредством тех методов, для которых я собираю такие ядра из разряда фантастики. Поэтому, поскрипывая сердечком отправляем словечки к праотцам.

Предугадываю вопрос многих, «зачем длинные фразы удалять»? Отвечаю, фразы, состоящие из 7 и более слов по большей части, имеют спамную конструкцию, не имеют частотку и в общей массе образуют очень много дублей, дублей именно тематических. Приведу пример, чтоб было понятней.

К тому же частотка у подобных вопросов настолько мала, что зачастую место на сервере обходится дороже, чем выхлоп от таких запросов. К тому же, если вы просмотрите ТОП-ы по длинным фразам, то прямых вхождений ни в тексте ни в тегах не найдете, так что использование таких длинных фраз в нашем СЯ – не имеет смысла.

Шаг 5. Очистка неявных дублей

Предварительно настраиваем очистку, дополняя своими фразами, указываю ссылку на свой список, если есть, чем дополнить – пишите, будем стремиться к совершенству вместе.

Если этого не сделать, и использовать список, любезно предоставленный и вбитый в программу создателями KC по умолчанию, то вот такие результаты у нас останутся в списке, а это, по сути, очень даже дубли.

Можем выполнить умную группировку, но для того, чтобы она отработала корректно – необходимо снять частотку. А это, в нашем случае не вариант. Т.к. Снимать частотку с 1млн. кеев, да пусть хоть со 100к – понадобится пачка приватных проксей, антикапча и очень много времени. Т.к. даже 20 проксей не хватит – уже через час начнет вылезать капча, как не крути. И займет это дело очень много времени, кстати, бюджет антикапчи тоже пожрет изрядно. Да и зачем вообще снимать частотку с мусорных фраз, которые можно отфильтровать без особых усилий?

Если же вы все-таки хотите отфильтровать фразы с умной группировкой, снимая частотности и поэтапно удаляя мусор, то расписывать процесс подробно не буду – смотрите видео, на которое я сослался в самом начале статьи.

Вот мои настройки по очистке и последовательность шагов

Шаг 6. Фильтруем по стоп-словам

На мой взгляд – это самый муторный пункт, выпейте чая, покурите сигаретку (это не призыв, лучше бросить курить и сожрать печеньку) и со свежими силами сядьте за фильтрацию семантического ядра по стоп-словам.

Не стоит изобретать велосипед и с нуля начинать составлять списки стоп-слов. Есть готовые решения. В частности, вот вам , в качестве основы более, чем пойдет.

Советую скопировать табличку в закорма собственного ПК, а то вдруг братья Шестаковы решат оставить «вашу прелесть» себе и доступ к файлику прикроют? Как говорится «Если у вас паранойя, это еще не значит, что за вами не следят…»

Лично я разгрупировал стоп-слова по отдельным файлам для тех или иных задач, пример на скриншоте.

Файл «Общий список» содержит все стоп-слова сразу. В Кей Коллекторе открываем интерфейс стоп-слов и подгружаем список из файла.

Я ставлю именно частичное вхождение и галочку в пункте «Искать совпадения только в начале слов». Данные настройки особенно актуальны при огромном объеме стоп-слов по той причине, что множество слов состоят из 3-4 символов. И если поставите другие настройки, то вполне можете отфильтровать массу полезных и нужных слов.

Если мы не поставим вышеуказанную галочку, то пошлое стоп-слово «трах» найдется в таких фразах как «консультация государственного страхования» , «как застраховать вклады» и т.д. и т.п. Вот ещё пример, по стоп слову «рб» (республика Беларусь) будет отмечено огромное кол-во фраз, по типу «возмещение ущерба консультация», «предъявление иска в арбитражном процессе» и т.д. и т.п.

Иными словами — нам нужно, чтобы программа выделяла только фразы, где стоп-слова встречаются в начале слов. Формулировка ухо режет, но из песни слов не выкинешь.

Отдельно замечу, что данная настройка приводит к существенному увеличению времени проверки стоп слов. При большом списке процесс может занять и 10 и 40 минут, а все из-за этой галочки, которая увеличивает время поиска стос-слов во фразах в десять, а то и более раз. Однако это наиболее адекватный вариант фильтрации при работе с большим семантическим ядром.

После того как мы прошлись по базовым списком рекомендую глазами просмотреть не попали ли под раздачу какие-то нужные фразы, а я уверен, так оно и будет, т.к. общие списки базовых стоп-слов, не универсальны и под каждую нишу приходится прорабатывать отдельно. Вот тут и начинаются «танцы с бубном.

Оставляем в рабочем окне только выделенные стоп слов, делается это вот так.

Затем нажимаем на «анализ групп», выбираем режим «по отдельным словам» и смотрим, что лишнего попало в наш список из-за неподходящих стоп-слов.

Удаляем неподходящие стоп-слова и повторяем цикл. Таким образом через некоторое время мы «заточим» универсальный общедоступный список под наши нужды. Но это еще не все.

Теперь нам нужно подобрать стоп-слова, которые встречаются конкретно в нашей базе. Когда речь идет об огромных базах ключевиков, там всегда есть какой-то «фирменный мусор», как я его называю. Причем это может быть совершенно неожиданный набор бреда и от него приходится избавляться в индивидуальном порядке.

Для того, чтобы решить эту задачку мы снова прибегнем к функционалу Анализа групп, но на этот раз пройдемся по всем фразам, оставшимся в базе, после предыдущих манипуляций. Отсортируем по количеству фраз и глазами, да-да-да, именно ручками и глазами, просмотрим все фразы, до 30-50 в группе. Я имею в виду вторую колонку «кол-во фраз в группе».

Слабонервных поспешу предупредить, на первый взгляд бесконечный ползунок прокрутки», не заставит вас потратить неделю на фильтрацию, прокрутите его на 10% и вы уже дойдете до групп, в которых содержится не более 30 запросов, а такие фильтровать стоит только тем, кто знает толк в извращениях.

Прямо из этого же окна мы можем добавлять весь мусор в стоп слова (значок щита слева от селектбокса).

Вместо того, чтобы добавлять все эти стоп слова (а их гораздо больше, просто я не хотел добавлять длиннющий по вертикали скриншот), мы изящно добавляем корень «фильтрац» и сразу отсекаем все вариации. В результате наши списки стоп-слов не будут разрастаться до огромных размеров и что самое главное, мы не будем тратить лишнее время на их поиск . А на больших объемах — это очень важно.

Шаг 7. Удаляем 1 и 2 символьные «слова»

Не могу подобрать точное определение к данному типу сочетания символов, поэтому обозвал «словами». Возможно, кто-то из прочитавших статью подскажет, какой термин подойдет лучше, и я заменю. Вот такой вот я косноязычный.

Многие спросят, «зачем вообще это делать»? Ответ прост, очень часто в таких массивах ключевых слов встречается мусор по типу:

Общий признак у таких фраз — 1 или 2 символа, не имеющие никакого смысла (на скриншоте пример с 1 символм). Вот это мы и будем фильтровать. Здесь есть свои подводные камни, но обо всем по порядку.

Как убрать все слова, состоящие из 2-х символов?

Для этого используем регулярку

Дополнительный совет: Всегда сохраняйте шаблоны регулярок! Они сохраняются не в рамках проекта, а в рамках KC в целом . Так что будут всегда под рукой.

(^|\s+)(..)(\s+|$) или же (^|\s){1,2}(\s|$)

(ст | фз | ук | на | рф | ли | по | ст | не | ип | до | от | за | по | из | об)

Вот мой вариант, кастомизируйте под свои нужды.

Вторая строка – это исключения, если их не вписать, то все фразы, где встречаются сочетания символов из второй строки формулы, попадут в список кандидатов на удаление.

Третья строка исключает фразы, в конце которых встречается «рф», т.к. зачастую это нормальные полезные фразы.

Отдельно хочу уточнить, что вариант (^|\s+)(..)(\s+|$) будет выделять все – в том числе и числовые значения . Тогда как регулярка (^|\s){1,2}(\s|$) – затронет лишь буквенные, за неё отдельное спасибо Игорю Бакалову.

Применяем нашу конструкцию и удаляем мусорные фразы.

Как убрать все слова, состоящие из 1 символа?

Здесь все несколько интересней и не так однозначно.

Сначала я попробовал применить и модернизировать предыдущий вариант, но в результате выкосить весь мусор не получилось, тем не менее – многим подойдет именно такая схема, попробуйте.

(^|\s+)(.)(\s+|$)

(с | в | и | я | к | у | о)

Традиционно – первая строка сама регулярка, вторая – исключения, третья – исключает те фразы, в которых перечисленные символы встречаются в начале фразы. Ну, оно то и логично, ведь перед ними не стоит пробела, следовательно, вторая строка не исключит их присутствие в выборке.

А вот второй вариант при помощи которого я и удаляю все фразы с односимвольным мусором, простой и беспощадной, который в моем случае помог избавиться от очень большого объема левых фраз.

(й | ц | е | н | г | ш | щ | з | х | ъ | ф | ы | а | п | р | л | д | ж | э | ч | м | т | ь | б | ю)

Я исключил из выборки все фразы, где встречается «Москв», потому что было очень много фраз по типу:

а мне оно нужно сами догадываетесь для чего.