Как быстро выявить пустышки из выборки по ключам?

**SaddamHusein** · 09.10.2014 12:12

Какой быстро выявить пустышки из выборки по ключам?
Дело в том, что у меня выборки сразу из нескольких источников: wordstat, пастухов(2013), кей колектор и так по мелочи. Изначально всё это добро в текстовом виде вешало 25 мб. Получилось около полтора миллиона ключей. Вчера за день удалось сократить это число до 900000) но чем дальше, тем медленнее идёт процесс. Кто работал с большой семантикой? Может есть какие-то методы, по быстрому отсеиванию пустышек, и ненужных ключей? Помогите!!! Я так сума сойду!

**ohmygod** · 09.10.2014 12:34

Ненужные - разве что, стоп-словами. Список, я так понимаю, без каких-либо значений? Тогда нужно "чекать" все ключевики в том же КК для выявления пустышек.
В любом случае, потом желательно хотя бы мельком просмотреть все ключевики вручную.

**SaddamHusein** · 09.10.2014 12:42

ohmygod, Стоп словами сейчас и делаю, но это очень долго... Что вы подразумеваете под "без каких либо значений"? Подскажите как быстрее их прочекать? Может быть с помощью какой-нибудь другой программы это можно сделать быстрее? Т.к. в коллекторе с уже добавленными словами не получается так быстро проверить частотность, как при пакетном сборе слов

**Vooda2012** · 09.10.2014 12:44

Ограничить длину ключевика - например оставить только ключи от 3 до 7 слов.
Составить хороший список стоп-слов.
Проверить ключи на неявные дубли и удалить лишнее.
Начать парсить частотность установив нижний порог парсинга. Например: если общая частотность ключа менее 50, то точная частотность сниматься не будет (сильно экономит время).
Потом чекаем KEI по формуле "YandexWordstatBaseFreq / ( YandexWordstatQuotePointFreq + 0.0001 )" и убираем ключи, где параметр KEI больше 20 (для коммерческой тематики можно расширить диапазон).

Важно! Частотность снимать через Яндекс Директ в несколько потоков. Для этого необходимо зарегистрировать нужное количество аккаунтов Я директа и настроить прокси.

**SaddamHusein** · 09.10.2014 13:58

Vooda2012, Спасибо за совет! Некоторыми пунктами воспользуюсь. По поводу прокси.. Эх, где б еще найти эти рабочие прокси

---------- Сообщение добавлено 16:51 ---------- Предыдущее 15:59 ----------

Vooda2012, Что-то у меня ничего не меняется от этого установления порога. Может быть это потому что у меня в списке все ключи без частотностей, даже базовых?

---------- Сообщение добавлено 16:58 ---------- Предыдущее 16:51 ----------

Собираю сразу частотность "!"

**Vooda2012** · 09.10.2014 14:02

SaddamHusein, Необходимо собирать как общую, так и точную частотность. Иначе в списке получатся ключи, которые имеют например общую частотность 5000, а точную 15. Это ключи пустышки. Как их отсеять я написал - через формулу KEI.

**SaddamHusein** · 09.10.2014 15:06

Vooda2012, а смысл собирать общую, если можно сразу точную собрать?

**GOODPower** · 09.10.2014 15:10

SaddamHusein, возможно потом из общей удастся найти что-то вкусное.

**Vooda2012** · 09.10.2014 15:17

SaddamHusein, Я же написал выше. Формула KEI, по которой отсеивают пустышки, представляет собой деление общей частотности на точную. Вот соберете вы только точную, будет у вас ключ со 100 показами, а общая его частотность окажется 100000 - это явный ключ пустышка, который не следует включать в семантическое ядро.

Плюс если вы собираете оба вида частотностей, то в коллекторе можно указать порог, по которому будет сниматься точная частотность.
Пример: ставите в настройках "не снимать точную частотность для ключей с базовой частотностью менее 50". В этом случае, если базовая частотность меньше 50, точная частотность парситься не будет (логично, что она не может быть больше базовой). Это очень сильно экономит время, так как при работе с выборками, есть огромное количество ключей с нулевыми или крайне низкими значениями.

**SaddamHusein** · 09.10.2014 15:27

Vooda2012, Дошло!

Видимо я уже с этим отсевом 15000000 слов сума схожу уже) Надеюсь не напрасны буду все мои муки) Первый раз собираю СЯ полностью. Всегда раньше думал что лучше его делать параллельно развитию ресурса.

	09.10.2014 12:12 #1
SaddamHusein Опытный Регистрация: 03.10.2014 Сообщений: 348 Репутация: 4	Какой быстро выявить пустышки из выборки по ключам? Дело в том, что у меня выборки сразу из нескольких источников: wordstat, пастухов(2013), кей колектор и так по мелочи. Изначально всё это добро в текстовом виде вешало 25 мб. Получилось около полтора миллиона ключей. Вчера за день удалось сократить это число до 900000) но чем дальше, тем медленнее идёт процесс. Кто работал с большой семантикой? Может есть какие-то методы, по быстрому отсеиванию пустышек, и ненужных ключей? Помогите!!! Я так сума сойду!
0 SaddamHusein

	09.10.2014 12:34 #2
ohmygod Гуру Регистрация: 30.04.2011 Сообщений: 1,064 Репутация: 268 Webmoney BL: ?	Ненужные - разве что, стоп-словами. Список, я так понимаю, без каких-либо значений? Тогда нужно "чекать" все ключевики в том же КК для выявления пустышек. В любом случае, потом желательно хотя бы мельком просмотреть все ключевики вручную.
0 ohmygod

	09.10.2014 12:42 #3
SaddamHusein Опытный Регистрация: 03.10.2014 Сообщений: 348 Репутация: 4	ohmygod, Стоп словами сейчас и делаю, но это очень долго... Что вы подразумеваете под "без каких либо значений"? Подскажите как быстрее их прочекать? Может быть с помощью какой-нибудь другой программы это можно сделать быстрее? Т.к. в коллекторе с уже добавленными словами не получается так быстро проверить частотность, как при пакетном сборе слов
0 SaddamHusein

	09.10.2014 13:58 #5
SaddamHusein Опытный Регистрация: 03.10.2014 Сообщений: 348 Репутация: 4	Vooda2012, Спасибо за совет! Некоторыми пунктами воспользуюсь. По поводу прокси.. Эх, где б еще найти эти рабочие прокси ---------- Сообщение добавлено 16:51 ---------- Предыдущее 15:59 ---------- Vooda2012, Что-то у меня ничего не меняется от этого установления порога. Может быть это потому что у меня в списке все ключи без частотностей, даже базовых? ---------- Сообщение добавлено 16:58 ---------- Предыдущее 16:51 ---------- Собираю сразу частотность "!"
0 SaddamHusein

	09.10.2014 14:02 #6
Vooda2012 Гуру Регистрация: 16.05.2012 Сообщений: 522 Репутация: 156	SaddamHusein, Необходимо собирать как общую, так и точную частотность. Иначе в списке получатся ключи, которые имеют например общую частотность 5000, а точную 15. Это ключи пустышки. Как их отсеять я написал - через формулу KEI.
0 Vooda2012

Как быстро выявить пустышки из выборки по ключам?

Опции темы

Спасибо сказали:

Спасибо сказали:

Тэги топика:

Похожие темы

Как выявить дубликаты в списке ключевых слов

Как выявить дубликаты в списке ключевых слов

Падение по всем ключам

Вопрос к профи, как выявить запросы которые есть в ПС?

Как выявить хостинг

Тем:

Сообщений:

Пользователей:

Сейчас на сайте:

Вход

Сайт

Разделы

Прочее

Следите за нами

Витрина ссылок

У нас проходит

У кого попросить инвайт?

Золотые темы форума

Последние новости

Популярные темы

Информеры

	09.10.2014 15:06 #7
SaddamHusein Опытный Регистрация: 03.10.2014 Сообщений: 348 Репутация: 4	Vooda2012, а смысл собирать общую, если можно сразу точную собрать?
0 SaddamHusein

	09.10.2014 15:10 #8
GOODPower Развиваюсь ^^, Регистрация: 13.04.2013 Сообщений: 381 Записей в дневнике: 2 Репутация: 95 Webmoney BL: ?	SaddamHusein, возможно потом из общей удастся найти что-то вкусное.
0 GOODPower

	09.10.2014 15:27 #10
SaddamHusein Опытный Регистрация: 03.10.2014 Сообщений: 348 Репутация: 4	Vooda2012, Дошло! Видимо я уже с этим отсевом 15000000 слов сума схожу уже) Надеюсь не напрасны буду все мои муки) Первый раз собираю СЯ полностью. Всегда раньше думал что лучше его делать параллельно развитию ресурса.
0 SaddamHusein

Темы	Раздел	Ответов	Последний пост
Как выявить дубликаты в списке ключевых слов	Web программирование	9	30.07.2013 23:51
Как выявить дубликаты в списке ключевых слов	Вопросы от новичков	7	26.07.2013 21:23
Падение по всем ключам	Поисковые системы	10	19.12.2012 13:01
Вопрос к профи, как выявить запросы которые есть в ПС?	Вопросы от новичков	12	18.07.2011 00:49
Как выявить хостинг	Хостинг и Серверы	14	08.09.2009 00:51