Парсер SERP /дестоп или онлайн

(Ответов: 2, Просмотров: 356)
  1. You shall not pass. Ага. Аватар для Гендальф Серый
    • Регистрация: 02.02.2013
    • Сообщений: 1,184
    • Репутация: 1512
    • Webmoney BL: ?
    Привет, народ. Вот ТЗ:

    Это может быть сервис, либо софт, не важно.

    На входе подаётся таблица с двумя столбцами: в одном столбце урлы, во втором столбце ключевые слова.

    На входе мы должны получить данные:
    1. Количество вхождений каждого ключа в каждый документ из урла
    2. Количество символов в тексте каждого документа из урла
    3. Количество слов в тексте каждого документа из урла
    4. Среднее количество вхождений в первых 3, 5, 10 урлах на каждый отдельный ключ
    5. Среднее количество текста в символах в первых 3, 5, 10 урлах
    6. Среднее количество слов в тексте в первых 3, 5, 10 урлах.

    Самое важное: п.1, п. 2

    Особая сложность - ключи нужно считать не через код сайта, а как-то компилировать документ, чтобы мы видели и анализировали только то, что видит сам пользователь.
    Например, нам нужно посчитать, скольлко раз символ "=" встречается в тексте на странице: https://ru.wikipedia.org/wiki/%D0%97...82%D0%B2%D0%B0

    В тексте самого домента знак встречается 13 раз. Но если мы напишем примитивный парсер, который будет выкачивать код, то получим количество вхождений 1167. В этом основная сложность.

    Кроме всего этого, парсер должен дружить с юникодом и не пугаться ни русского, ни тайского, ни китайского языков.

    Вот пример таблицы - там два листа: что на входе и что на выходе.
    • 0
  2. Опытный Аватар для Vgb
    • Регистрация: 27.11.2013
    • Сообщений: 320
    • Репутация: 38
    а чем вам мегаиндекс, который ком не устраивается под эти нужды?
    • 0
  3. You shall not pass. Ага. Аватар для Гендальф Серый
    • Регистрация: 02.02.2013
    • Сообщений: 1,184
    • Репутация: 1512
    • Webmoney BL: ?
    Vgb, можно подробнее? Где там и что смотреть?
    • 0

Тэги топика:

У кого попросить инвайт?

Вы можете попросить инвайт у любого модератора:

Информеры