проблема с hrefer

Тема в разделе "Вопросы и ответы", создана пользователем Ash Nikkei, 03.02.16.

Метки:
  1. Ash Nikkei

    Ash Nikkei Новичок

    Сообщения:
    16
    Симпатии:
    0
    Баллы:
    1
    Подскажите кто как решает проблему с парсингом.1 парсинг прошёл очень быстро и на собирал кучу аж целых 600к. форумов,использовал прокси конечно, как написано при использовании хрефера. А вот во 2 раз начались проблемы ооооочень медленно парсит по тематическим запросам ,за 12
    часов напарсил всего 1200 форумов плачевно да по сравнению с 1 разом.Прошу помощи как быть.
     
  2. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Тяжело читать такие сообщения. Ув. форумчане, старайтесь писать грамотнее.:bookworm:

    По-поводу парсинга Хрефером.
    1. Должны быть хорошие прокси
    2. Чтобы быстрее парсить - нужно парсить клоны поисковиков.
     
  3. Eric

    Eric Новичок

    Сообщения:
    81
    Симпатии:
    30
    Баллы:
    19
    У меня проблема решилась A-Parser'ом, как приобрел теперь ненарадуюсь ему

    Сегодня как раз врубил сбор новой базы, за 3 часа примерно вот смотрю 150К форумов с уником по домену
    Выборка нужного делаю по URL регулярками, на выходе почти на 80% именно то что мне нужно (phpBB, vBulletin, SMF, XenForo, IPB, MyBB)
    Прокси у меня говно, но их много 10-15к
    Парсю только гугл

    Возможно проблема в том, что если у тебя в запросах присутствеют inurl: intitle: и прочие операторы поиска, скорость сбора будет маленькая т.к. с такими операторами часто бан проксей случается.
    Я парсю по очень простым запросам без спецоператоров и из кучи выбираю то что нужно
     
  4. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Да, A-Parser - это отличный инструмент, правда, регулярками нужно уметь пользоваться. Я до сих пор их не выучил.:banghead:
     
  5. Eric

    Eric Новичок

    Сообщения:
    81
    Симпатии:
    30
    Баллы:
    19
    Не нужно про них все знать, тем более учить, сам не парюсь с этим, решаю задачу конкретную когда нужно, лезу в гугл и ищу смотря что нужно что то типа regex domain name и т.д., часто находятся готовые решения на сайтах типа stackoverflow.com

    Сам ужасался по началу что за зверь такой эти регулярки, но не все так страшно
     
  6. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    А мне помогает конструктор регулярок из зенки
     
  7. Ash Nikkei

    Ash Nikkei Новичок

    Сообщения:
    16
    Симпатии:
    0
    Баллы:
    1
    Спасибо за ответы !Там уже вроде есть Mail.com клон ,но увы ((
    Хотелось бы узнать, где взять эти клоны,везде только покупные.
    есть 3 индийских и один тайский.
     
  8. Denchik

    Denchik Модератор Команда форума

    Сообщения:
    65
    Симпатии:
    14
    Баллы:
    14
    Где взять? По признакам в том же гугле поискать. И потом еще настраивать-тестить. А вообще, лучше не париться, а обратится к Владу.;) Не реклама.
     
  9. marat1975

    marat1975 Активный участник

    Сообщения:
    375
    Симпатии:
    143
    Баллы:
    71
    Дабы не создавать новой темы...
    Кто как создает свои "пробивные базы".
    1. Допустим, я напарсил +100500 строк в LinksList id1 в Хрефере.
    2. Вставвляю в папку links Хрумера
    3. Далее, пост обработка, удаление повторов, удаление по блек-листу
    4. Далее я ставлю полученную базу на прогон с такими настройками: _joxi.ru/YmEDoZXfZa0Eor
    На выходе - слезы...

    А как делаете Вы?
     
  10. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
    1. Первый проход только в режиме регистрации без постинга и тем более без агрессивного спама.
    2. 5 дополнительных проходов по остальным
    3. Подключенный сервис распознавания графических и текстовых капч.
    4. Дать аккам отлежаться 7-14 дней
    5. И только потом постить от ранее зареганного.
    6. Как можно чаще менять IP и email
     
  11. marat1975

    marat1975 Активный участник

    Сообщения:
    375
    Симпатии:
    143
    Баллы:
    71
    Ну это для сбора более менее "трастовой базы" наверное ты говоришь.
    А я имел в виду сбор "не модеририруемой базы" для индексации доров.
    Т.е. что бы за один проход получать какие ни какие бек линки, по средством которых дор быстрее проиндексируется.
    Поэтому и шпарю в режиме агрессивный спам, чтобы как можно больше насерить куда пускают еще...
    Понятно излагаю?
    Я допускаю, что я в корне не прав!
    Вот, например, настроил к2 с одного прохода
    _cajalsa.es/index.php?option=com_k2&view=itemlist&task=user&id=124298
    Есть открытые ссылки
     
  12. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
    Я для немодерируемых делаю так, как выше написал. Итог - 3-4к уникальных пробитых форумов с активной ссылкой. Понятно излагаю :)?
    ------------------- Добавлено 30.03.16 -------------------
    Большой разницы между немодерируемыми и обычными форумами. Единственное отличие - отсутствие админов. Но немодерируемые форумы могут точно также быть подключены к stop forum spam, cloudflare, могут использовать нестандартные капчи. Также на многих форумах стоит временное ограничение на постинг новым аккам можно создавать топик только через 3-7 дней.
     
  13. marat1975

    marat1975 Активный участник

    Сообщения:
    375
    Симпатии:
    143
    Баллы:
    71
    Да, пожалуй понятно!
    3-4к это из какого объема выходит в среднем?
    Еще, какой смысл ждать 7-14 дней, если мы ищем не модерируемые ресы? Ты ждешь аппрува, для создания выборки окончательной базы. А дальше, что? Будем каждый дор ждать две недели, потом "от ранее зарегестрированного"?
    Сейчас новой базой от бутмастера шпарю покась не перекрыли кислород.
    Сделал так, объединил все базы в одну, сделал прогон с моими вышеуказанными настройками, затем сделал выборку (исх.база и succes+registered+profile)/
    Короче отобрал форумы, где "возможно" с первого прохода получилось "поднасрать".
    Далее уже гоняя по полученной базе (получилось около 80.000форумов из которых в success падает около 40,000 а в профили около 20,000)
     
  14. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
    Я обычно паршу гугл по фарма ключам. Потом по этим топикам прохожу пауком. В среднем выходит 30-100к форумов.
    В предыдущем посте уже писал, что на многих форумах стоит ограничение на постинг для свежих аккаунтов. Оно автоматическое, то есть снимается через n дней после реги.
     
  15. marat1975

    marat1975 Активный участник

    Сообщения:
    375
    Симпатии:
    143
    Баллы:
    71
    Еще подергаю...
    Получается, что можно затем под некоторое количество "проектов/доров" использовать один и тот же аккаунт (например login: AnnarahsRg почта: [email protected])

    Я по глупости делаю до сих пор под каждый проект/дор отдельную почту и логин (правда на своих доменах)
     
  16. Insider

    Insider Администратор Команда форума

    Сообщения:
    1.025
    Симпатии:
    685
    Баллы:
    209
    Конечно, так и надо делать. Я просто гоняю все доры от ранее зареганного по одним и тем же аккам. Раз в 2-3 месяца обновляю базы и все.
     
  17. marat1975

    marat1975 Активный участник

    Сообщения:
    375
    Симпатии:
    143
    Баллы:
    71
    Спасибо! Вопрос закрыт.
     

Поделиться этой страницей