Как быстро собрать мета-теги сайта с помощью Google Docs

8 января 2016 | Категория: SEO

Не все знают, в Google Docs встроены не только стандартные функции, которые дублируют аналогичные из Excel, но и функции, которые позволяют спарсить отдельные элементы с обычных веб-страниц.

Далее я на конкретном примере покажу, как с помощью Google Docs можно в два счета собрать мета-теги страниц, не прибегая к посторонним инструментам (зачастую платным). Указанный здесь способ будет работать для 95% сайтов.

Шаг 1. Заводим новую таблицу в Google Docs и вставляем список страниц, откуда нужно спарсить мета-теги.

 

Шаг 2. Указываем, какие мета-теги собирать. Прописываем в строку формул функцию для парсинга.

Для Title (нажмите для увеличения):

 

Для Description:

 

Для Keywords по аналогии с Description:

 

Кроме мета-тегов, мы можем собрать данные и из содержимого других тегов. Например, H1 (по аналогии с парсингом Title):

 

Как видите, сразу после написании формулы, Google Docs сразу парсит данные.

 

Шаг 3. Получаем мета-теги для всех URL

Теперь осталось протянуть ячейки B2, C2, D2 и E2 вниз. Таким образом, получаем мета-теги для всех URL.

 

Результат:

 

Можно сразу увидеть страницы, где не заполнены какие-либо мета-теги.

ССЫЛКА НА ТЕСТОВЫЙ ФАЙЛ С ЗАПОЛНЕННЫМИ ФОРМУЛАМИ: ССЫЛКА

 

Маленький лайфхак. Единожды создав шаблон для парсинга мета-тегов, далее можно использовать его постоянно, существенно экономя время.

Как видите, все довольно просто ;) Не забывайте подписываться на меня в социальных сетях, чтобы следить за новыми материалами! Завтра уже будет новый пост.

Привет. Меня зовут Ленар и я автор этого блога. Наша команда оказывает услуги по продвижению сайтов. Имеем хорошее портфолио, множество положительных отзывов и большой опыт в работе.
Мои контакты:
Мой личный e-mail: amirhanov@yula-group.ru
Я Вконтакте Я в Facebook
Телефон отдела продаж: 8 (843) 216-64-15

Комментарии (26) на запись “Как быстро собрать мета-теги сайта с помощью Google Docs”

  1. seoonly.ru 08.01.2016 13:50 Ответить

    И правда быстро и круто. Спасибо.

    ОтветитьОтветить
  2. smorovoz.ru 08.01.2016 21:46 Ответить

    А для парсинга документа по регулярным выражениям есть варианты?

    ОтветитьОтветить
  3. Кирилл 08.01.2016 23:46 Ответить

    Я в шоке. Каждый день юзаю Google Docs и не знал этого. Век живи — век учись.

    ОтветитьОтветить
  4. Ленар Амирханов 09.01.2016 12:40 Ответить

    smorovoz.ru, вот этого не знаю. Где-то в справочнике Гугла есть все функции Гугл Докс. То что я привел в статье — лишь вершина айсберга

    ОтветитьОтветить
  5. Очередной вебмастер 09.01.2016 14:06 Ответить

    Ага, Google Docs могут многое, а если еще сходить на https://www.ranktank.org/ там и не только такое найдется.

    ОтветитьОтветить
  6. nlo 09.01.2016 15:37 Ответить

    smorovoz.ru, можно через эту функцию https://support.google.com/docs/answer/3098292

    ОтветитьОтветить
  7. Dmitry 10.01.2016 01:12 Ответить

    Как удачно я увидел эту статью! Сегодня как раз возник вопрос спарсить H1 с одного сайта, около 10 000тыс. страниц. Перебрал несколько вариантов решений данной задачи: программа Screaming Frog SEO Spider (функция есть но платно, в бесплатной лимит вроде 500стр.), надстройка SeoTools (жаль, но перестала работать на моей XP). Итог: спарсил все url через Netpeak Spider, вставил в таблицу GoogleDocs и в течении 5 минут получил все данные))
    Ленар, от души благодарю!

    ОтветитьОтветить
  8. Boris 10.01.2016 04:59 Ответить

    А есть возможность парсить по пользовательским тегам?

    ОтветитьОтветить
  9. Ленар Амирханов 10.01.2016 13:39 Ответить

    Dmitry, я рад, что помогло)

    Boris, можешь пример тега привести? А вообще, скорее всего да. Функции парсинга у Гугл Докс очень обширные. Фактически можно парсить любые элементы страницы.

    ОтветитьОтветить
  10. Boris 11.01.2016 14:04 Ответить

    Ленар Амирханов, да, вот, например, на этой странице: http://www.kimpim-krasnodar.ru/sveden/common/common.html
    блоки текста протегированы пользовательскими тегами:
    [p itemprop= "RegDate">...[/p]
    [p Itemprop = "Address">...[/p]
    [p Itemprop = "WorkTime">...[/p]
    [p Itemprop = "Telephone">...[/p]
    [p Itemprop = "E-mail">...[/p]
    [p itemprop="AddressFil">...[/p]
    [p itemscope itemtype= "http://obrnadzor.gov.ru/microformats/UchredLaw" >...[/p]

    Вместо квадратных скобок — угловые.

    ОтветитьОтветить
  11. Александр 11.01.2016 14:25 Ответить

    А Netpeak Spider эти задачи не решает? Прога бесплатная

    ОтветитьОтветить
  12. Ленар Амирханов 11.01.2016 16:21 Ответить

    Александр, не всегда. Скажем, когда сайт очень большой, то Нетпик будет вечность парсить урлы. А нам, допустим, нужно на этом портале собрать данные лишь по определенным страниц.

    Но в целом, конечно, возможности Нетпика никто не оспаривает. Сами пользуемся постоянно.

    Boris, попросил Артура ответить. В конце рабочего дня обещал)

    ОтветитьОтветить
  13. Алексей 11.01.2016 17:57 Ответить

    Вопрос к знающим по Гугл.Докс
    - Как в нем реализовать мониторинг изменений этих мета тегов (+сео текст еще бы отслеживать). Скажем залить туда список продвигаемых урлов и следить за ними на автомате, чтоб уведомлялка приходила, что поменялось что то на странице?

    Часто бывает, что клиент без моего ведома то мета «подправит под себя», то вообще текст снесет, а ты думай гадай потом че позиции упали (сайтов много, отдельно так за каждым не уследишь вовремя)

    ОтветитьОтветить
  14. Александр 11.01.2016 18:38 Ответить

    Ленар Амирханов, оффтоп: дойдет ли до своей цели Стас Пилоткин? ))

    ОтветитьОтветить
  15. Ленар Амирханов 11.01.2016 19:12 Ответить

    Александр, ))) Стаса Пилоткина мы вряд ли когда-нибудь услышим снова)))

    ОтветитьОтветить
  16. dimabyweb 11.01.2016 19:14 Ответить

    надо попробовать гуглом спарсить гугл

    ОтветитьОтветить
  17. Артур 12.01.2016 15:18 Ответить

    Boris,
    доброго дня.

    Попробуйте в ячейке прописать вот так:
    =importxml(B1;»//p[@itemprop='RegDate']«)

    B1 — это ячейка где содержится адрес страницы. У меня получилось. Скрин https://yadi.sk/i/Yb7wW77GmqGzb

    Только то что после двоеточия переходит в следующую ячейку. Но думаю это не так критично.

    ОтветитьОтветить
  18. Артур 12.01.2016 15:20 Ответить

    Алексей, чтобы уведомляло что изменилось не получится насколько я знаю. Придется периодически заходить и смотреть.
    Но реализовать такое точно можно.

    ОтветитьОтветить
  19. Boris 12.01.2016 17:49 Ответить

    Артур, супер, работает! Спасибо!

    ОтветитьОтветить
  20. seogrot 28.01.2016 14:42 Ответить

    Спасибо! Годная статья, тоже не знал, что в Google Docs можно контент парсить.

    ОтветитьОтветить
  21. seogrot 26.02.2016 20:36 Ответить

    А как таким образом спарсить анкор ссылки? К примеру в ячейке A, будет ссылка на страницу где стоит ссылка на страницу которая будет в ячейке B. В ячейке С нужно получить анкор данной ссылки. И дополнительно указать, что если на странице найдет несколько ссылок B, то спасить только первый анкор. Можно такое сделать? И чтоб эта формула была универсальной, т.е. если на любой другой странице в столбце A есть ссылка которую мы указали в столбсе B, то парсились анкоры

    ОтветитьОтветить
  22. Ленар Амирханов 29.02.2016 14:35 Ответить

    seogrot, сходу не скажу, нужно ковыряться. Посмотри функции в справочники Гугла.

    ОтветитьОтветить
  23. Este 16.03.2016 23:17 Ответить

    Ленар, подскажите пожалуйста, как парсить другие данные? например, https://docs.google.com/spreadsheets/d/1o-qo8zGP6G7XRUl062397SdBs2W__m811BXX6C5B2rc/edit#gid=1075943178 из страницы вытянуть значения Total Visits и значение Traffic by countries(второе необязательно, но желательно)?
    Если не сложно, отредактируйте документ, я уже какие только формулы импорта не подставляла…

    ОтветитьОтветить
  24. Сергей 24.05.2016 03:32 Ответить

    Добрый вечер. Подскажите, а возможно вытащить alt со страниц?

    ОтветитьОтветить
  25. Иван 20.06.2016 14:22 Ответить

    Ленур, добрый день :-) Прошлый коммент случайно отправил — можно его удалять. Вопрос такой — с https:// сайты таким способом не парсятся? У меня выдает ошибку в столбцах парсинга :-(

    ОтветитьОтветить
  26. Ленар Амирханов 23.06.2016 16:17 Ответить

    Иван, к сожалению, не могу прокомментировать. Не приходилось парсить https сайты.

    Кстати, возможно все ок, но просто сразу не отображается. Попробуй подождать.
    Иногда все норм впишешь, а он не парсит. Заходишь через часок второй, там все спарсилось.

    ОтветитьОтветить

Оставить комментарий