Модуль "Элементарная чистка"
Данный модуль удаляет из каждой строчки каждого из указанных файлов начальные и концевые пробелы; пробелы, идущие подряд, заменяются на один; пустые строчки удаляются, удаляются "плохие символы" с кодами меньше 31. Результаты чистки записываются в указанную директорию.
Внимание: Крайне рекомендуется использовать этот модуль перед работой с другими модулями!!!
Модуль "Удаление повторов"
Данный модуль удаляет повторные строчки из каждого файла. Файлы с удаленными повторами записываются в указанную директорию. Количество строчек в каждом файле не должно превышать 19'999'995.
Внимание: работа данного модуля с большими файлами требует достаточно большое количество оперативной памяти.
Модуль "Разбивка файла"
Данный модуль разбивает указанный файл на другие и сохраняет их в отдельной директории. Есть две возможности - разбить файл так, чтобы в каждом полученном файле содержалось нужное количество строчек, либо разбить файл на указанное количество файлов. Имена выходный файлов указываются по маске. Т.е. в ней должна содержаться ровно одна здездочка (*), и она будет заменена на число - порядковый номер файла.
Модуль "Перемешивание"
Данный модуль произвольно перемешивает строчки в каждом из указанных файлов. Перемешанные файлы сохраняются в указанной директории
Внимание: работа данного модуля с большими файлами требует достаточно большое количество оперативной памяти.
Модуль "Создание выборки"
Данный модуль создает выборку из каждого из указанных файлов по вхождениию ключевых слов с учетом исключений. Однако учитываются не прямые вхождения кеев, а чуть более хитро. Чтобы пояснить, рассмотрим такой пример: допустим мы делаем выборку по кею "купить авто". Тогда будут найдены не только такие кеи, как "дешево купить авто", "хорошо купить авто дешево" и т. п., но и такие, как "купить дешево авто", "купить очень дешево авто", "авто дешево купить" и т. п. То есть слова в указанном кее учитываются отдельно и ищутся отдельно. Регистр букв не влияет на поиск. Если Вы хотите не учитывать в выборке какие либо специфические кеи, то активируйте поле "исключения". В нем исключения учитываются также как и кеи, т.е. каждое слово в исключении обрабатывается отдельно. Если вы хотите ограничить количество найденных кейвордов (например, Вам нужно получить не больше 1500 кеев), то Вы можете активировать поле "Прекратить искать, если найдено больше" и ввести нужное число (например, 1500). Также, если Вы хотите искать вхождения только в русских кейвордах, то можете активировать соответствующее поле. (Русским кеев считает кейворд, содержащий хотя бы один символ русского алфавита; нерусским кейвордом считается любой кейворд, не содержащий русских символов.)
Если Вы хотите сделать выборку с кейвордами в которые входит конкретное количество слов, то можете активировать соответствующее поле. Кейворды будут искаться с указанным интервалом количества слов включительно.
Совет: Лучше писать не ключевик "красивая машина", а ключевик "красив машин". Логично, тогда найдется больше кеев.
Модуль "Чистка"
Данный модуль противоположен модулю "Создание выборки". Данный модуль удаляет строчки с указанными кеями с учетом исключений. Кеи и исключения учитываются также, как и в модуле "Создание выборки". Все почищенные файлы сохраняются в указанной директории.
Модуль "Генерация перестановок"
Данный модуль для каждой строчки указанных файлов генерирует все перестановки из слов. Например: была строчка - "купить красивое авто", из нее получатся - "купить красивое авто", "купить авто красивое", "красивое купить авто", "красивое авто купить", "авто купить красивое", "авто красивое купить". Сгенерированные файлы сохраняются в указанной директории.
Модуль "Объединение файлов"
Модуль по значению противоположный модулю "Разбивка файла". Объединяет указанные файлы в один. Результирующий файл будет находиться в одной директории с программой и до работы модуля не должен существовать.
[свернуть]