P.S: Вместо всяких говнобаз, лучше самому всё собирать, точно ничего не упустите. Только зря ком засирать подобным шлаком.
Ручной сбор конечно всегда даст самый лучший результат, но может занять очень много времени - а тут уже все собрано, только конечно нужно предварительно много закачать
А вообще мы постарались чтобы недобрая слава о шлаке в таких базах не коснулась нас.
В нашей базе до применения фильтров для чистки было 530-540 млн. ключевых слов, после чистки осталось ~461 млн. С маркетинговой точки зрения "500 млн. ключевых слов" выглядит привлекательнее, чем "461 млн. ключевых слов", но мы решили, что лучше пусть будет база почище, хоть и с менее презентабельной цифрой.
В базе также удалены перестановочные словосочетания, например:
скачать бесплатно без регистрации
регистрации скачать без бесплатно
без бесплатно регистрации скачать
... и т.д.
Для такого рода перестановок Яндекс показывает одно и то же значение поисков, поэтому ориентироваться на статистику не получилось. Из всех этих вариантов в результате программной фильтрации оставлялся только один (мы старались, чтобы остался наиболее "человечный", хотя допускаем, что таких могло быть несколько и, возможно, мы выбрали не самый оптимальный). Но в большинстве случаев все остальные варианты - это генерации ботов (не наших, а тех, которые "накручивали" поисковик). В итоге то, что отдал нам потом поисковик (подсказки, WordStat...), пришлось дополнительно чистить...
Разумеется, полностью исключить мусор мы не можем, и он есть. Если сильно "жестко" фильтровать, то пропадут многие НЧ (во многих случаях только человек, который "в теме", сможет отличить хороший НЧ от мусора).
Для того, чтобы вы могли оценить качество базы, мы предлагаем вам 4 разных выборки, которые дадут представление о наличии мусора:
https://yadi.sk/d/bs95IPR5dK55j
Соблюдаются вполне понятные и логичные закономерности, что чем более популярный запрос, тем больше мусора в выборке (в нашем случае в выборках "электромобиль" и "SEO программы" мусора меньше, чем в выборке "подарок"), в случае однословных запросов мусора больше, чем в случае словосочетаний из 2, 3 и больше слов (в выборке "сделать своими рукам" мусора меньше, чем в выборке "подарок").
Много это мусора или мало, каждый может увидеть из этих демо-выборок, оценить по своей внутренней шкале и, соответственно, принять решение, загружать ли такую большую программу или нет.
В виде облачного сервиса было бы интересно.
Да, в планах есть, просто быстро сделать это не получится, а так это конечно самый перспектиынй путь
Спасибо за интерес к программе!
Марина и Сергей