Парсим ключи со сторонних сайтов с помощью GoogleDocs

Тема в разделе "Мысли, идеи и полезные статьи.", создана пользователем mordvin, 21.01.16.

  1. mordvin

    mordvin Модератор Команда форума

    Сообщения:
    215
    Симпатии:
    161
    Баллы:
    67
    Этот вариант подойдет для новичков которые не имеют абсолютно никакого софта для парсинга ключей с сторонних сайтов. Да и так для общего развития ;)

    1. Подготовка списка url для парсинга:
    Итак, для тестов возьмем сайт крупной сети по реализации бытовой техники, на букву Э.
    Идем за картой сайта, берем карту категорий (для примера), сохраняем к себе на ПК.
    Открываем в нотепад++ , удаляем все теги регуляркой:
    Код:
    <[\/\!]*?[^<>]*?>
    [​IMG]

    Еще несколько не хитрых манипуляций и получаем список урлов категорий.


    2. Подготовка гугл таблицы
    Создаете гугл таблицу у себя на гугл диске. В первую колонку добавляете список полученных нами урлов из предыдущего шага:

    [​IMG]


    Далее в 2ой ячейке колонки "title" прописываете формулу:
    Код:
    =IMPORTXML(A2;"//title")
    [​IMG]


    И смотрим на результат:

    [​IMG]


    Ну а дальше думаю ясно, просто копируем формулу на все ячейки и ждем когда таблица распарсит все титлы.

    На распарс 800 страниц ушло около 20 минут, при условии того,что я парсил title, description и h1, при парсинге только title времени уйдет меньше. Как плюс, заметил примечательную вещь, при парсинге не грузится комп.

    Пример:
    https://docs.google.com/spreadsheets/d/10ZtCyFQpvLA595V174H-IZx83kn9R_CaaCF0cgrAlTw/edit?usp=sharing

    Формулы для description и h1
    Код:
    =IMPORTXML(A2;"//meta[@name='description'][email protected]")
    
    =IMPORTXML(A2;"//h1")
    Ставьте лайки, репосты и подписывайтесь =) Спасибо за внимание.
     
    gem1n1, Bill, RealtyMan и 47 другим нравится это.
  2. Ash Nikkei

    Ash Nikkei Новичок

    Сообщения:
    16
    Симпатии:
    0
    Баллы:
    1
    Ну просто красава.лайканул
    ;)
     
  3. wave

    wave Новичок

    Сообщения:
    56
    Симпатии:
    12
    Баллы:
    13
    Хех, прикольно. Спасибо!
     
  4. ospasov

    ospasov Новичок

    Сообщения:
    2
    Симпатии:
    0
    Баллы:
    1
    Век живи, век учись! Спасибо, бро!
     
  5. Edd

    Edd Новичок

    Сообщения:
    38
    Симпатии:
    1
    Баллы:
    14
    Классно, спасибо! А какую формулу надо для парса картинок, видео и т.п.?
    Как научиться правильно их писать, где посмотреть?
    и почему-то на последней строчке везде указывает такой параметр:
    #value!
    Ошибка
    Значение параметра Параметр 1 в функции IMPORTXML – . Оно не является допустимым URL-адресом.
     
    Последнее редактирование модератором: 31.03.16
  6. mordvin

    mordvin Модератор Команда форума

    Сообщения:
    215
    Симпатии:
    161
    Баллы:
    67
    1. Видимо в документации по гугл докс https://support.google.com/docs#topic=1382883

    2. Не совсем понял, что значит "на последней строке". У меня все норм http://prntscr.com/9ukpm2
     
  7. Edd

    Edd Новичок

    Сообщения:
    38
    Симпатии:
    1
    Баллы:
    14
    на вашем шаблоне (примере) можно формулу для парсинга ссылки на картинку? что-то у самого никак...:(
     
  8. mordvin

    mordvin Модератор Команда форума

    Сообщения:
    215
    Симпатии:
    161
    Баллы:
    67
    Я сам не знаю как это провернуть, конечно если это возможно в рамках гуглдокс =)
    Вот почитай документацию https://support.google.com/docs/answer/3093342?hl=ru
    Может что найдешь.
     
  9. dimitry

    dimitry Новичок

    Сообщения:
    76
    Симпатии:
    15
    Баллы:
    8
    Тут xpath на вход идет, погугли. А вообще, атрибут забирается так:
    Код:
    [email protected]
    ------------------- Добавлено 25.01.16 -------------------
    Т.е. например чтобы получить все картинки на странице, можно написать
    Код:
    //img
    Чтобы получить ссылку на картинку
    Код:
    [email protected]
    Можно указывать всякие параметры
    Код:
    //img[@class="avatar"][email protected]
    Короче, гугли xpath.
     
    venger, Edd и mordvin нравится это.
  10. Lexin

    Lexin Новичок

    Сообщения:
    3
    Симпатии:
    0
    Баллы:
    6
    Странно, пробую данным методом спарсить ключи, не выходит. Ошибку показывает. В чем может быть причина?
     
  11. mordvin

    mordvin Модератор Команда форума

    Сообщения:
    215
    Симпатии:
    161
    Баллы:
    67
    Да тоже ошибку выдает, закрыли лавочку мб.
    ------------------- Добавлено 30.03.16 -------------------
    Хотя нет нормально все, какая ошибка то хоть?
     
  12. Lexin

    Lexin Новичок

    Сообщения:
    3
    Симпатии:
    0
    Баллы:
    6
    Вот как-то так выходит
     

    Вложения:

  13. mordvin

    mordvin Модератор Команда форума

    Сообщения:
    215
    Симпатии:
    161
    Баллы:
    67
    Проблема в кодировке или в третей колонке?
     
  14. Lexin

    Lexin Новичок

    Сообщения:
    3
    Симпатии:
    0
    Баллы:
    6
    И в кодировке и в третей колонке тоже
     
  15. fortunatocat

    fortunatocat Новичок

    Сообщения:
    2
    Симпатии:
    2
    Баллы:
    3
    Спасибо Бро за тему!
     

Поделиться этой страницей