Это может быть сервис, либо софт, не важно.
На входе подаётся таблица с двумя столбцами: в одном столбце урлы, во втором столбце ключевые слова.
На входе мы должны получить данные:
1. Количество вхождений каждого ключа в каждый документ из урла
2. Количество символов в тексте каждого документа из урла
3. Количество слов в тексте каждого документа из урла
4. Среднее количество вхождений в первых 3, 5, 10 урлах на каждый отдельный ключ
5. Среднее количество текста в символах в первых 3, 5, 10 урлах
6. Среднее количество слов в тексте в первых 3, 5, 10 урлах.
Самое важное: п.1, п. 2
Особая сложность - ключи нужно считать не через код сайта, а как-то компилировать документ, чтобы мы видели и анализировали только то, что видит сам пользователь.
Например, нам нужно посчитать, скольлко раз символ "=" встречается в тексте на странице:
https://ru.wikipedia.org/wiki/%D0%97...82%D0%B2%D0%B0 В тексте самого домента знак встречается 13 раз. Но если мы напишем примитивный парсер, который будет выкачивать код, то получим количество вхождений 1167. В этом основная сложность.
Кроме всего этого, парсер должен дружить с юникодом и не пугаться ни русского, ни тайского, ни китайского языков.
Вот пример таблицы - там два листа: что на входе и что на выходе.