Как быстро собрать мета-теги сайта с помощью Google Docs

8 января 2016 | Категория: SEO

Не все знают, в Google Docs встроены не только стандартные функции, которые дублируют аналогичные из Excel, но и функции, которые позволяют спарсить отдельные элементы с обычных веб-страниц.

Далее я на конкретном примере покажу, как с помощью Google Docs можно в два счета собрать мета-теги страниц, не прибегая к посторонним инструментам (зачастую платным). Указанный здесь способ будет работать для 95% сайтов.

Шаг 1. Заводим новую таблицу в Google Docs и вставляем список страниц, откуда нужно спарсить мета-теги.

Шаг 2. Указываем, какие мета-теги собирать. Прописываем в строку формул функцию для парсинга.

Для Title (нажмите для увеличения):

Для Description:

Для Keywords по аналогии с Description:

Кроме мета-тегов, мы можем собрать данные и из содержимого других тегов. Например, H1 (по аналогии с парсингом Title):

Как видите, сразу после написании формулы, Google Docs сразу парсит данные.

Шаг 3. Получаем мета-теги для всех URL

Теперь осталось протянуть ячейки B2, C2, D2 и E2 вниз. Таким образом, получаем мета-теги для всех URL.

Результат:

Можно сразу увидеть страницы, где не заполнены какие-либо мета-теги.

ССЫЛКА НА ТЕСТОВЫЙ ФАЙЛ С ЗАПОЛНЕННЫМИ ФОРМУЛАМИ: ССЫЛКА

Маленький лайфхак. Единожды создав шаблон для парсинга мета-тегов, далее можно использовать его постоянно, существенно экономя время.

Как видите, все довольно просто 😉 Не забывайте подписываться на меня в социальных сетях, чтобы следить за новыми материалами! Завтра уже будет новый пост.

Привет. Меня зовут Ленар и я автор этого блога. Наша команда оказывает услуги по продвижению сайтов. Имеем хорошее портфолио, множество положительных отзывов и большой опыт в работе.
Мои контакты:
Мой личный e-mail: amirhanov@yula-group.ru
Я Вконтакте Я в Facebook
Телефон отдела продаж: 8 (843) 216-64-15

37 комментариев на запись “Как быстро собрать мета-теги сайта с помощью Google Docs”

seoonly.ru 08.01.2016 13:50 Ответить

И правда быстро и круто. Спасибо.
smorovoz.ru 08.01.2016 21:46 Ответить

А для парсинга документа по регулярным выражениям есть варианты?
Кирилл 08.01.2016 23:46 Ответить

Я в шоке. Каждый день юзаю Google Docs и не знал этого. Век живи — век учись.
Ленар Амирханов 09.01.2016 12:40 Ответить

smorovoz.ru, вот этого не знаю. Где-то в справочнике Гугла есть все функции Гугл Докс. То что я привел в статье — лишь вершина айсберга
Очередной вебмастер 09.01.2016 14:06 Ответить

Ага, Google Docs могут многое, а если еще сходить на https://www.ranktank.org/ там и не только такое найдется.
nlo 09.01.2016 15:37 Ответить

smorovoz.ru, можно через эту функцию https://support.google.com/docs/answer/3098292
Dmitry 10.01.2016 01:12 Ответить

Как удачно я увидел эту статью! Сегодня как раз возник вопрос спарсить H1 с одного сайта, около 10 000тыс. страниц. Перебрал несколько вариантов решений данной задачи: программа Screaming Frog SEO Spider (функция есть но платно, в бесплатной лимит вроде 500стр.), надстройка SeoTools (жаль, но перестала работать на моей XP). Итог: спарсил все url через Netpeak Spider, вставил в таблицу GoogleDocs и в течении 5 минут получил все данные))
Ленар, от души благодарю!
Boris 10.01.2016 04:59 Ответить

А есть возможность парсить по пользовательским тегам?
Ленар Амирханов 10.01.2016 13:39 Ответить

Dmitry, я рад, что помогло)

Boris, можешь пример тега привести? А вообще, скорее всего да. Функции парсинга у Гугл Докс очень обширные. Фактически можно парсить любые элементы страницы.
Boris 11.01.2016 14:04 Ответить

Ленар Амирханов, да, вот, например, на этой странице: http://www.kimpim-krasnodar.ru/sveden/common/common.html
блоки текста протегированы пользовательскими тегами:
[p itemprop= «RegDate»>…[/p]
[p Itemprop = «Address»>…[/p]
[p Itemprop = «WorkTime»>…[/p]
[p Itemprop = «Telephone»>…[/p]
[p Itemprop = «E-mail»>…[/p]
[p itemprop=»AddressFil»>…[/p]
[p itemscope itemtype= «http://obrnadzor.gov.ru/microformats/UchredLaw» >…[/p]

Вместо квадратных скобок — угловые.
Александр 11.01.2016 14:25 Ответить

А Netpeak Spider эти задачи не решает? Прога бесплатная
Ленар Амирханов 11.01.2016 16:21 Ответить

Александр, не всегда. Скажем, когда сайт очень большой, то Нетпик будет вечность парсить урлы. А нам, допустим, нужно на этом портале собрать данные лишь по определенным страниц.

Но в целом, конечно, возможности Нетпика никто не оспаривает. Сами пользуемся постоянно.

Boris, попросил Артура ответить. В конце рабочего дня обещал)
Алексей 11.01.2016 17:57 Ответить

Вопрос к знающим по Гугл.Докс
— Как в нем реализовать мониторинг изменений этих мета тегов (+сео текст еще бы отслеживать). Скажем залить туда список продвигаемых урлов и следить за ними на автомате, чтоб уведомлялка приходила, что поменялось что то на странице?

Часто бывает, что клиент без моего ведома то мета «подправит под себя», то вообще текст снесет, а ты думай гадай потом че позиции упали (сайтов много, отдельно так за каждым не уследишь вовремя)
Александр 11.01.2016 18:38 Ответить

Ленар Амирханов, оффтоп: дойдет ли до своей цели Стас Пилоткин? ))
Ленар Амирханов 11.01.2016 19:12 Ответить

Александр, ))) Стаса Пилоткина мы вряд ли когда-нибудь услышим снова)))
dimabyweb 11.01.2016 19:14 Ответить

надо попробовать гуглом спарсить гугл
Артур 12.01.2016 15:18 Ответить

Boris,
доброго дня.

Попробуйте в ячейке прописать вот так:
=importxml(B1;»//p[@itemprop=’RegDate’]»)

B1 — это ячейка где содержится адрес страницы. У меня получилось. Скрин https://yadi.sk/i/Yb7wW77GmqGzb

Только то что после двоеточия переходит в следующую ячейку. Но думаю это не так критично.
Артур 12.01.2016 15:20 Ответить

Алексей, чтобы уведомляло что изменилось не получится насколько я знаю. Придется периодически заходить и смотреть.
Но реализовать такое точно можно.
Boris 12.01.2016 17:49 Ответить

Артур, супер, работает! Спасибо!
seogrot 28.01.2016 14:42 Ответить

Спасибо! Годная статья, тоже не знал, что в Google Docs можно контент парсить.
seogrot 26.02.2016 20:36 Ответить

А как таким образом спарсить анкор ссылки? К примеру в ячейке A, будет ссылка на страницу где стоит ссылка на страницу которая будет в ячейке B. В ячейке С нужно получить анкор данной ссылки. И дополнительно указать, что если на странице найдет несколько ссылок B, то спасить только первый анкор. Можно такое сделать? И чтоб эта формула была универсальной, т.е. если на любой другой странице в столбце A есть ссылка которую мы указали в столбсе B, то парсились анкоры
Ленар Амирханов 29.02.2016 14:35 Ответить

seogrot, сходу не скажу, нужно ковыряться. Посмотри функции в справочники Гугла.
Este 16.03.2016 23:17 Ответить

Ленар, подскажите пожалуйста, как парсить другие данные? например, https://docs.google.com/spreadsheets/d/1o-qo8zGP6G7XRUl062397SdBs2W__m811BXX6C5B2rc/edit#gid=1075943178 из страницы вытянуть значения Total Visits и значение Traffic by countries(второе необязательно, но желательно)?
Если не сложно, отредактируйте документ, я уже какие только формулы импорта не подставляла…
Сергей 24.05.2016 03:32 Ответить

Добрый вечер. Подскажите, а возможно вытащить alt со страниц?
Иван 20.06.2016 14:22 Ответить

Ленур, добрый день 🙂 Прошлый коммент случайно отправил — можно его удалять. Вопрос такой — с https:// сайты таким способом не парсятся? У меня выдает ошибку в столбцах парсинга 🙁
Ленар Амирханов 23.06.2016 16:17 Ответить

Иван, к сожалению, не могу прокомментировать. Не приходилось парсить https сайты.

Кстати, возможно все ок, но просто сразу не отображается. Попробуй подождать.
Иногда все норм впишешь, а он не парсит. Заходишь через часок второй, там все спарсилось.
DjDron 15.02.2017 17:17 Ответить

Подскажите, а как задать, что бы спарсить тайтл списка? спасибо.
DjDron 15.02.2017 17:19 Ответить

Подскажите, а как задать, что бы спарсить тайтл списка? спасибо.

Вот пример: ul title=»System operacyjny: Microsoft Windows 10 Home PL (wersja 64-bitowa), Procesor Intel Pentium N3700 (4 rdzenie, od 1.60 GHz do 2.4 GHz, 2 MB cache), Grafika: Intel HD Graphics, Pamięć RAM: 4 GB (SO-DIMM DDR3, 1600 MHz)
Николай 23.03.2017 02:09 Ответить

Доброго времени суток.
Попробовал спарсить h3. Парсит, но на странице 5 заголовков h3, и они выводятся не
в одну ячейку, а в пять — вниз по столбцу. Соответственно на следующей строке ошибка — не могу перезаписать массив. Как бы сделать так, чтобы выводилось только в ОДНОЙ ячейке на соответствующей строке ? Или чтобы строки добавлялись ?
Надежда Хачатурова 05.05.2017 22:19 Ответить

Большое спасибо! У меня все получилось, даже не пришлось воспользоваться готовым документом.
Дмитрий 17.08.2017 16:41 Ответить

Никогда не оставлял подобных отзывов, но это и вправду круто. Быстро и удобно.
Спасибо огромное!
Ильдар Хакимов 05.10.2017 16:37 Ответить

Очень крутая информация, спасибо! Надеюсь, что лимитов нет, сейчас буду проверять
Василий Андреевич 12.10.2017 12:38 Ответить

ОГОНЬ!!! Спасибо, только для 10000 урлов долговато получается )))
Тех 25.10.2017 07:52 Ответить

При парсинге 5к+ страниц выдает «Из-за большого количества запросов загрузка данных может занять некоторое время. Советуем сократить число функций IMPORTHTML, IMPORTDATA, IMPORTFEED и IMPORTXML в созданных таблицах.» и может целый день парсить и не спарсить в итоге. А так да, небольшой сайт пропарсить можно.
Роман 26.10.2017 15:08 Ответить

Походу лимиты все таки есть. Одна строка спарсилась нормально. Протянул на 300 строк и все зависло, пишет loading и ничего не происходит
Александр 26.12.2018 10:55 Ответить

Можно как то ускорить процесс сбора мета? Долго Док тянет данные.
Дмитрий 29.06.2019 23:17 Ответить

Спасибо огромное. Автор, ты мне жизнь спас)

Оставить комментарий