Как быстро собрать мета-теги сайта с помощью Google Docs
Не все знают, в Google Docs встроены не только стандартные функции, которые дублируют аналогичные из Excel, но и функции, которые позволяют спарсить отдельные элементы с обычных веб-страниц.
Далее я на конкретном примере покажу, как с помощью Google Docs можно в два счета собрать мета-теги страниц, не прибегая к посторонним инструментам (зачастую платным). Указанный здесь способ будет работать для 95% сайтов.
Шаг 1. Заводим новую таблицу в Google Docs и вставляем список страниц, откуда нужно спарсить мета-теги.
Шаг 2. Указываем, какие мета-теги собирать. Прописываем в строку формул функцию для парсинга.
Для Title (нажмите для увеличения):
Для Description:
Для Keywords по аналогии с Description:
Кроме мета-тегов, мы можем собрать данные и из содержимого других тегов. Например, H1 (по аналогии с парсингом Title):
Как видите, сразу после написании формулы, Google Docs сразу парсит данные.
Шаг 3. Получаем мета-теги для всех URL
Теперь осталось протянуть ячейки B2, C2, D2 и E2 вниз. Таким образом, получаем мета-теги для всех URL.
Результат:
Можно сразу увидеть страницы, где не заполнены какие-либо мета-теги.
ССЫЛКА НА ТЕСТОВЫЙ ФАЙЛ С ЗАПОЛНЕННЫМИ ФОРМУЛАМИ: ССЫЛКА
Маленький лайфхак. Единожды создав шаблон для парсинга мета-тегов, далее можно использовать его постоянно, существенно экономя время.
Как видите, все довольно просто 😉 Не забывайте подписываться на меня в социальных сетях, чтобы следить за новыми материалами! Завтра уже будет новый пост.
И правда быстро и круто. Спасибо.
А для парсинга документа по регулярным выражениям есть варианты?
Я в шоке. Каждый день юзаю Google Docs и не знал этого. Век живи — век учись.
smorovoz.ru, вот этого не знаю. Где-то в справочнике Гугла есть все функции Гугл Докс. То что я привел в статье — лишь вершина айсберга
Ага, Google Docs могут многое, а если еще сходить на https://www.ranktank.org/ там и не только такое найдется.
smorovoz.ru, можно через эту функцию https://support.google.com/docs/answer/3098292
Как удачно я увидел эту статью! Сегодня как раз возник вопрос спарсить H1 с одного сайта, около 10 000тыс. страниц. Перебрал несколько вариантов решений данной задачи: программа Screaming Frog SEO Spider (функция есть но платно, в бесплатной лимит вроде 500стр.), надстройка SeoTools (жаль, но перестала работать на моей XP). Итог: спарсил все url через Netpeak Spider, вставил в таблицу GoogleDocs и в течении 5 минут получил все данные))
Ленар, от души благодарю!
А есть возможность парсить по пользовательским тегам?
Dmitry, я рад, что помогло)
Boris, можешь пример тега привести? А вообще, скорее всего да. Функции парсинга у Гугл Докс очень обширные. Фактически можно парсить любые элементы страницы.
Ленар Амирханов, да, вот, например, на этой странице: http://www.kimpim-krasnodar.ru/sveden/common/common.html
блоки текста протегированы пользовательскими тегами:
[p itemprop= «RegDate»>…[/p]
[p Itemprop = «Address»>…[/p]
[p Itemprop = «WorkTime»>…[/p]
[p Itemprop = «Telephone»>…[/p]
[p Itemprop = «E-mail»>…[/p]
[p itemprop=»AddressFil»>…[/p]
[p itemscope itemtype= «http://obrnadzor.gov.ru/microformats/UchredLaw» >…[/p]
Вместо квадратных скобок — угловые.
А Netpeak Spider эти задачи не решает? Прога бесплатная
Александр, не всегда. Скажем, когда сайт очень большой, то Нетпик будет вечность парсить урлы. А нам, допустим, нужно на этом портале собрать данные лишь по определенным страниц.
Но в целом, конечно, возможности Нетпика никто не оспаривает. Сами пользуемся постоянно.
Boris, попросил Артура ответить. В конце рабочего дня обещал)
Вопрос к знающим по Гугл.Докс
— Как в нем реализовать мониторинг изменений этих мета тегов (+сео текст еще бы отслеживать). Скажем залить туда список продвигаемых урлов и следить за ними на автомате, чтоб уведомлялка приходила, что поменялось что то на странице?
Часто бывает, что клиент без моего ведома то мета «подправит под себя», то вообще текст снесет, а ты думай гадай потом че позиции упали (сайтов много, отдельно так за каждым не уследишь вовремя)
Ленар Амирханов, оффтоп: дойдет ли до своей цели Стас Пилоткин? ))
Александр, ))) Стаса Пилоткина мы вряд ли когда-нибудь услышим снова)))
надо попробовать гуглом спарсить гугл
Boris,
доброго дня.
Попробуйте в ячейке прописать вот так:
=importxml(B1;»//p[@itemprop=’RegDate’]»)
B1 — это ячейка где содержится адрес страницы. У меня получилось. Скрин https://yadi.sk/i/Yb7wW77GmqGzb
Только то что после двоеточия переходит в следующую ячейку. Но думаю это не так критично.
Алексей, чтобы уведомляло что изменилось не получится насколько я знаю. Придется периодически заходить и смотреть.
Но реализовать такое точно можно.
Артур, супер, работает! Спасибо!
Спасибо! Годная статья, тоже не знал, что в Google Docs можно контент парсить.
А как таким образом спарсить анкор ссылки? К примеру в ячейке A, будет ссылка на страницу где стоит ссылка на страницу которая будет в ячейке B. В ячейке С нужно получить анкор данной ссылки. И дополнительно указать, что если на странице найдет несколько ссылок B, то спасить только первый анкор. Можно такое сделать? И чтоб эта формула была универсальной, т.е. если на любой другой странице в столбце A есть ссылка которую мы указали в столбсе B, то парсились анкоры
seogrot, сходу не скажу, нужно ковыряться. Посмотри функции в справочники Гугла.
Ленар, подскажите пожалуйста, как парсить другие данные? например, https://docs.google.com/spreadsheets/d/1o-qo8zGP6G7XRUl062397SdBs2W__m811BXX6C5B2rc/edit#gid=1075943178 из страницы вытянуть значения Total Visits и значение Traffic by countries(второе необязательно, но желательно)?
Если не сложно, отредактируйте документ, я уже какие только формулы импорта не подставляла…
Добрый вечер. Подскажите, а возможно вытащить alt со страниц?
Ленур, добрый день 🙂 Прошлый коммент случайно отправил — можно его удалять. Вопрос такой — с https:// сайты таким способом не парсятся? У меня выдает ошибку в столбцах парсинга 🙁
Иван, к сожалению, не могу прокомментировать. Не приходилось парсить https сайты.
Кстати, возможно все ок, но просто сразу не отображается. Попробуй подождать.
Иногда все норм впишешь, а он не парсит. Заходишь через часок второй, там все спарсилось.
Подскажите, а как задать, что бы спарсить тайтл списка? спасибо.
Подскажите, а как задать, что бы спарсить тайтл списка? спасибо.
Вот пример: ul title=»System operacyjny: Microsoft Windows 10 Home PL (wersja 64-bitowa), Procesor Intel Pentium N3700 (4 rdzenie, od 1.60 GHz do 2.4 GHz, 2 MB cache), Grafika: Intel HD Graphics, Pamięć RAM: 4 GB (SO-DIMM DDR3, 1600 MHz)
Доброго времени суток.
Попробовал спарсить h3. Парсит, но на странице 5 заголовков h3, и они выводятся не
в одну ячейку, а в пять — вниз по столбцу. Соответственно на следующей строке ошибка — не могу перезаписать массив. Как бы сделать так, чтобы выводилось только в ОДНОЙ ячейке на соответствующей строке ? Или чтобы строки добавлялись ?
Большое спасибо! У меня все получилось, даже не пришлось воспользоваться готовым документом.
Никогда не оставлял подобных отзывов, но это и вправду круто. Быстро и удобно.
Спасибо огромное!
Очень крутая информация, спасибо! Надеюсь, что лимитов нет, сейчас буду проверять
ОГОНЬ!!! Спасибо, только для 10000 урлов долговато получается )))
При парсинге 5к+ страниц выдает «Из-за большого количества запросов загрузка данных может занять некоторое время. Советуем сократить число функций IMPORTHTML, IMPORTDATA, IMPORTFEED и IMPORTXML в созданных таблицах.» и может целый день парсить и не спарсить в итоге. А так да, небольшой сайт пропарсить можно.
Походу лимиты все таки есть. Одна строка спарсилась нормально. Протянул на 300 строк и все зависло, пишет loading и ничего не происходит
Можно как то ускорить процесс сбора мета? Долго Док тянет данные.
Спасибо огромное. Автор, ты мне жизнь спас)