Как быстро выявить пустышки из выборки по ключам?

(Ответов: 9, Просмотров: 1753)
  1. Опытный Аватар для SaddamHusein
    • Регистрация: 03.10.2014
    • Сообщений: 348
    • Репутация: 4
    Какой быстро выявить пустышки из выборки по ключам?
    Дело в том, что у меня выборки сразу из нескольких источников: wordstat, пастухов(2013), кей колектор и так по мелочи. Изначально всё это добро в текстовом виде вешало 25 мб. Получилось около полтора миллиона ключей. Вчера за день удалось сократить это число до 900000) но чем дальше, тем медленнее идёт процесс. Кто работал с большой семантикой? Может есть какие-то методы, по быстрому отсеиванию пустышек, и ненужных ключей? Помогите!!! Я так сума сойду!
    • 0
  2. Гуру Аватар для ohmygod
    • Регистрация: 30.04.2011
    • Сообщений: 1,064
    • Репутация: 268
    • Webmoney BL: ?
    Ненужные - разве что, стоп-словами. Список, я так понимаю, без каких-либо значений? Тогда нужно "чекать" все ключевики в том же КК для выявления пустышек.
    В любом случае, потом желательно хотя бы мельком просмотреть все ключевики вручную.
    • 0
  3. Опытный Аватар для SaddamHusein
    • Регистрация: 03.10.2014
    • Сообщений: 348
    • Репутация: 4
    ohmygod, Стоп словами сейчас и делаю, но это очень долго... Что вы подразумеваете под "без каких либо значений"? Подскажите как быстрее их прочекать? Может быть с помощью какой-нибудь другой программы это можно сделать быстрее? Т.к. в коллекторе с уже добавленными словами не получается так быстро проверить частотность, как при пакетном сборе слов
    • 0
  4. Гуру Аватар для Vooda2012
    • Регистрация: 16.05.2012
    • Сообщений: 522
    • Репутация: 156
    Ограничить длину ключевика - например оставить только ключи от 3 до 7 слов.
    Составить хороший список стоп-слов.
    Проверить ключи на неявные дубли и удалить лишнее.
    Начать парсить частотность установив нижний порог парсинга. Например: если общая частотность ключа менее 50, то точная частотность сниматься не будет (сильно экономит время).
    Потом чекаем KEI по формуле "YandexWordstatBaseFreq / ( YandexWordstatQuotePointFreq + 0.0001 )" и убираем ключи, где параметр KEI больше 20 (для коммерческой тематики можно расширить диапазон).

    Важно! Частотность снимать через Яндекс Директ в несколько потоков. Для этого необходимо зарегистрировать нужное количество аккаунтов Я директа и настроить прокси.
    • 1

    Спасибо сказали:

    SaddamHusein(09.10.2014),
  5. Опытный Аватар для SaddamHusein
    • Регистрация: 03.10.2014
    • Сообщений: 348
    • Репутация: 4
    Vooda2012, Спасибо за совет! Некоторыми пунктами воспользуюсь. По поводу прокси.. Эх, где б еще найти эти рабочие прокси

    ---------- Сообщение добавлено 16:51 ---------- Предыдущее 15:59 ----------

    Vooda2012, Что-то у меня ничего не меняется от этого установления порога. Может быть это потому что у меня в списке все ключи без частотностей, даже базовых?

    ---------- Сообщение добавлено 16:58 ---------- Предыдущее 16:51 ----------

    Собираю сразу частотность "!"
    • 0
  6. Гуру Аватар для Vooda2012
    • Регистрация: 16.05.2012
    • Сообщений: 522
    • Репутация: 156
    SaddamHusein, Необходимо собирать как общую, так и точную частотность. Иначе в списке получатся ключи, которые имеют например общую частотность 5000, а точную 15. Это ключи пустышки. Как их отсеять я написал - через формулу KEI.
    • 0
  7. Опытный Аватар для SaddamHusein
    • Регистрация: 03.10.2014
    • Сообщений: 348
    • Репутация: 4
    Vooda2012, а смысл собирать общую, если можно сразу точную собрать?
    • 0
  8. Развиваюсь ^^, Аватар для GOODPower
    • Регистрация: 13.04.2013
    • Сообщений: 381
    • Записей в дневнике: 2
    • Репутация: 95
    • Webmoney BL: ?
    SaddamHusein, возможно потом из общей удастся найти что-то вкусное.
    • 0
  9. Гуру Аватар для Vooda2012
    • Регистрация: 16.05.2012
    • Сообщений: 522
    • Репутация: 156
    SaddamHusein, Я же написал выше. Формула KEI, по которой отсеивают пустышки, представляет собой деление общей частотности на точную. Вот соберете вы только точную, будет у вас ключ со 100 показами, а общая его частотность окажется 100000 - это явный ключ пустышка, который не следует включать в семантическое ядро.

    Плюс если вы собираете оба вида частотностей, то в коллекторе можно указать порог, по которому будет сниматься точная частотность.
    Пример: ставите в настройках "не снимать точную частотность для ключей с базовой частотностью менее 50". В этом случае, если базовая частотность меньше 50, точная частотность парситься не будет (логично, что она не может быть больше базовой). Это очень сильно экономит время, так как при работе с выборками, есть огромное количество ключей с нулевыми или крайне низкими значениями.
    • 2

    Спасибо сказали:

    igolkin(09.10.2014), SaddamHusein(09.10.2014),
  10. Опытный Аватар для SaddamHusein
    • Регистрация: 03.10.2014
    • Сообщений: 348
    • Репутация: 4
    Vooda2012, Дошло! Видимо я уже с этим отсевом 15000000 слов сума схожу уже) Надеюсь не напрасны буду все мои муки) Первый раз собираю СЯ полностью. Всегда раньше думал что лучше его делать параллельно развитию ресурса.
    • 0

Похожие темы

Темы Раздел Ответов Последний пост
Как выявить дубликаты в списке ключевых слов
Web программирование 9 30.07.2013 23:51
Как выявить дубликаты в списке ключевых слов
Вопросы от новичков 7 26.07.2013 21:23
Падение по всем ключам
Поисковые системы 10 19.12.2012 13:01
Вопрос к профи, как выявить запросы которые есть в ПС?
Вопросы от новичков 12 18.07.2011 00:49
Как выявить хостинг
Хостинг и Серверы 14 08.09.2009 00:51

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры