Как использовать Regex для SEO и извлечения данных с сайта

Что такое Regex?
Как вы можете выучить регулярные выражения
Примеры использования Regex
1. Извлечение метаданных (или любых данных) с любого веб-сайта
2. Защита прав на товарные знаки
Изменение названий продуктов и поиск неверных заглавных букв
4. Найти загруженные файлы на сайте сообщества
Проверка орфографии
Резюме

Одним из технологических навыков, который слишком часто игнорируется, является регулярное выражение.

Поиск и извлечение регулярных выражений является, пожалуй, самым полезным, но в целом неизвестным навыком для веб-операций, специалистов по SEO, групп веб-аналитики, исследователей, менеджеров сообществ и специалистов по цифровому маркетингу всех типов.

Эта статья объяснит, что такое регулярное выражение и как начать использовать его с веб-сканерами.

Кроме того, вы также изучите пять интересных примеров использования регулярных выражений.

Что такое Regex?

Регулярные выражения или регулярные выражения, по сути, являются инструментом для сопоставления с образцом. Regex - это основной продукт поисковых систем, который находит и заменяет утилиты, а также является встроенной или дополнительной возможностью многих языков программирования.

Сочетание «Поиск» с веб-сканером может быть чрезвычайно полезным для выявления ошибок и извлечения данных.

Эта функция все еще является относительно новой для коммерчески доступных инструментов SEO.

Пользовательское извлечение с использованием регулярных выражений (или Xpath или CSSpath) было добавлено в Screaming Frog SEO Spider только в июле 2015 года. До этого времени SEOTools для Excel был, пожалуй, самым доступным инструментом для извлечения регулярных выражений - но только в сочетании с искателем, таким как Screaming Frog, для первого сбора URL-адресов для анализа.

Google Sheets также уже давно может использовать извлечение Regex, но, как и SEOTools для Excel, требует, чтобы пользователь сначала сканировал сайт с помощью другого инструмента.

После того, как Screaming Frog выпустила свою пользовательскую функцию извлечения в 2015 году, инструменты SEO уровня «предприятия», такие как BrightEdge и Conductor, ответили добавлением аналогичных функций.

Несмотря на широко распространенную в настоящее время функциональность регулярных выражений, мощь этой функции все еще в значительной степени игнорируется многими веб-профессионалами.

Как вы можете выучить регулярные выражения

Я предлагаю вам погрузиться в игру с помощью Screaming Frog и таких инструментов, как:

Попробуйте некоторые из приведенных ниже вариантов использования или придумайте свой собственный.

Примеры использования Regex

Вот несколько примеров того, как это происходит вместе с реальными сценариями использования, которые вы можете повторить сегодня, используя предоставленные формулы регулярных выражений.

1. Извлечение метаданных (или любых данных) с любого веб-сайта

Для этого примера давайте посмотрим на ESPN.

Когда я писал эту статью, я увидел эта история о звезде НБА Блейк Гриффин.

Просматривая источник этой страницы, я могу найти этот бит метаданных, связанных с аналитикой (похожие метаданные можно найти на большинстве крупных веб-сайтов):

{ "Omniture": { "колумнист": "lowe_zach", "лига": "нб", "countryRegion": "ан-нас", "hier1": "раздел": "История нба": "нб", "источник": "espn.com", "Pagename": "нб: история", "storyInfo": "22258759 + Zach-Lowe-Blake-грифон-торгово-будущего-ла-кусачки-детройт-поршни", "секция ":" нб: история " "сайт": "" ESPN, "премиум": "премиум-нет", "convrSport": "баскетбол", "PAGEURL":" www.espn.com/nba/story/_ / ID / 22258759 / Zach-Lowe-Blake-грифон-трейд-будущее-ла-кусачки-детройт-поршни», "языки": "en_US", "prop35": "2018-01-30", "CONTENTTYPE": "история", "спорт": "баскетбол", "счет": "wdgespcom", "siteType": "полный", "prop58": "ISINDEX = ложь"}

Теперь, когда мы определили, что, вероятно, является общим шаблоном данных, мы можем начать создавать регулярное выражение для извлечения этих данных.

Здесь я скопирую и вставлю этот код вместе с несколькими строками до и после в regexr.com (мой любимый инструмент regex) и начну работать над некоторыми формулами:

Одним из технологических навыков, который слишком часто игнорируется, является регулярное выражение

Предположим, я проверяю сайт ESPN и хочу получить список всех новостей, авторов и дат. Мне просто нужно запустить сканер с этими двумя регулярными выражениями, включенными в фильтр Custom Extraction:

"обозреватель":"(.*?)"
"Prop35": "(*.?)"

И это работает! Я могу сканировать список URL-адресов ESPN.com или сканировать весь сайт и извлекать эту информацию, которая будет иметь решающее значение для моего аудита контента.

2. Защита прав на товарные знаки

зарегистрированный товарный знак (®) - это символ, который обычно должен появляться после слова или слов с торговой маркой при первом использовании на веб-странице.

Хорошим примером этого является « ITIL ® »- это инициализм, обозначающий библиотеку ИТ-инфраструктуры, торговую марку, принадлежащую Axelos ,

Многие веб-сайты, которые обсуждают ITIL, не включают зарегистрированный товарный знак при ссылке на концепцию.

Cherwell.com - это один из таких веб-сайтов, на котором обсуждается ITIL, но который не всегда может содержать зарегистрированный товарный знак.

Используя два простых регулярных выражения, мы можем легко найти URL-адреса, в которых Cherwell следует рассмотреть возможность добавления зарегистрированного символа торговой марки:

В этом случае мы обнаружили четыре URL-адреса, которые содержат правильный символ - и многие другие, которых нет.

Этот пример показывает, насколько мощной может быть простая строка регулярных выражений.

Вот регулярные выражения для этого варианта использования:

ITIL®
ITIL (?! ®)

Изменение названий продуктов и поиск неверных заглавных букв

В 2017 году IBM официально сменила название от «DB2» до «Db2» - строчная буква «b».

Название DB2 было впервые использован в 1983 году так что, вероятно, в Интернете есть бесчисленные места, содержащие неправильное использование.

Этот вариант использования является распространенным - слово или фраза имеют общую заглавную букву, при изменении названия продукта.

В любом случае, решение состоит в том, чтобы сканировать и находить неправильные или устаревшие способы использования.

Одним из примеров веб-сайта, который часто использует «DB2» и, следовательно, должен рассмотреть возможность аудита своего сайта, чтобы исправить это использование, является Delphix.

Используя следующее регулярное выражение, мы можем идентифицировать все неправильные экземпляры «DB2», «db2» или «dB2»:

(ДБ | DB | дБ) 2

4. Найти загруженные файлы на сайте сообщества

Jive Software является, пожалуй, платформой сообщества №1 для предприятий. Как таковой, он используется такими компаниями, как Cisco, ServiceNow, Adobe, BMC Software, McAfe, Wiley и многими другими крупными компаниями.

Вы можете найти другие примеры компаний, использующих платформу Jive с запросом Google, например: https://www.google.com/search?q=inurl:hosted.jivesoftware.com

Jive, как и WordPress или другие платформы для веб-публикаций, имеет определенные шаблоны, которым обычно следуют.

Одним из таких шаблонов для Jive является то, что все загрузки на платформу при просмотре из документа или блога, в которые она загружена, содержат следующую ссылку:

Поэтому мы можем использовать следующий шаблон регулярных выражений для извлечения всех URL-адресов вложений с любого сайта сообщества Jive:

"j-attachment-icon" href = "(. *?)"

Чтобы увидеть, как это работает, вот результаты краткого сканирования сайта https://community.servicenow.com :

Проверка орфографии

Надеемся, что большинство веб-издателей проверяют орфографию либо в Word, либо с помощью других средств, прежде чем публиковать, но общие ошибки по-прежнему просачиваются сквозь трещины.

Не волнуйтесь, хотя.

Regex + Screaming Frog может помочь вам определить слова с ошибками. Единственная загвоздка в том, что вам нужно знать слова с ошибками.

Некоторые слова обычно пишутся с ошибками на любом языке.

Кроме того, есть слова, характерные для отрасли или бренда, которые должны быть включены вместе со списком типичных ошибок в написании языка.

Вот простая строка регулярного выражения, соответствующая наиболее распространенным в США английским словам с ошибками:

Давайте снова запустим Screaming Frog и посмотрим, сможем ли мы найти любую из этих ошибок в CNN:

Вскоре мы уже заметили опечатку слова «Фаренгейт»:

Резюме

Шаблоны по всей сети. Используя регулярные выражения, вы можете найти экземпляры шаблонов и извлечь связанные данные.

Регулярные выражения не просты в освоении, но как только вы начнете, вы найдете бесконечное применение этой мощной технологии. Именно в этом ключе Джейми Завински классно заявил:

«Некоторые люди, столкнувшись с проблемой, думают:« Я знаю, я буду использовать регулярные выражения ». Теперь у них есть две проблемы».

Похожие

Seo - что это такое?
Seo - что это такое? Сео оптимизация и продвижение сайта Давайте поговорим о том, что такое Seo (Search Engine Optimization), как Seo-оптимизация (внешняя и внутренняя) способна буквально творить чудеса в продвижении сайта и ответить на вопрос, почему не стоит ни в коем случае пренебрегать Seo. Seo - что это такое и как влияет на продвижение вашего сайта. Seo (Search Engine Optimization) - это основное оружие за место в ТОП 10. По большому счету, это искусство попадания

Где вы можете узнать SEO?
... как SEO, рейтинг, контент, ключевые слова так важны для управления вашим сайтом, управления такой компанией или компанией! Мы предлагаем вам возможность изучить SEO напрямую. Вы можете выбрать SEO обучение через курсы SEO, найти бесплатный курс SEO ; видео уроки или лекции курсы за руководство по SEO оптимизации, семинары, практики и т. д. Это будут знания, которые вы можете изучать и использовать в соответствии

SEO Архивы
... индексируемость? Индексируемость - это простота анализа веб-сайта поисковыми системами Интернета (Google, Yahoo, MSN Live ...). Методы оптимизации для поисковых систем (SEO, Search Engine Optimization) должны быть приняты во внимание и необходимы, если мы хотим, чтобы нас знали через Интернет. Если сеть не проиндексирована, она никогда не появится в результатах поисковых систем; и чем выше индексирование, тем более привлекательными будут результаты для пользователей, и у них будет

SEO: пришло время открыть SEO
... сколько лет назад. Накопление ключевых слов на странице больше не позволяет выигрывать позиции на последней, а наоборот, может проигрывать. Что касается чистая связь Теперь важно качество ваших ссылок, а не их количество. Поэтому вы должны подумать об оптимизации SEO. Что такое SEO Оптимизация? В то время как основной работой SEO является «оптимизация»,

SEO по-испански
Тонкая настройка результатов международной поисковой системы. Вы хотите расширить свою продукцию или услуги на Испанию, Латинскую Америку или другие испаноязычные рынки? Затем вам нужен SEO испанский , процесс, который направлен на улучшение объема и качества трафика на веб-странице на испанском языке в поисковых

SEO SEALING
Специализируясь на гидроизоляции под крышей, наша эволюция в направлении герметичности в вертикальных стенах была сделана естественным путем Доминик Манигольд, технический менеджер по SEO Sealing и Asten Group

SEO аудит
... как и все остальные (не очень уверен и с сомнениями в отношении обслуживания), я дал ему необходимую ему информацию, и я начал понимать, что он имеет дело с профессионалом, все, что он говорил мне раньше, читал, что это было самое мудрое, что нужно было избежать штрафа. , Я закончил делать их работу, и страница, похоже, не поднималась, но появились обновления Google, и там я начал видеть изменения в своих позициях и увидел, как конкуренция упала с уровней из-за плохой практики. Первоначально

SEO пакеты
... интернет-маркетинг - это путь, но то, что вы можете не знать, как это делать"> Вы, вероятно, знаете, что интернет-маркетинг - это путь, но то, что вы можете не знать, как это делать. Вы, возможно, экспериментировали с SEO (поисковая оптимизация) и PPC (оплата за клик) маркетинг, прежде чем не были удовлетворены результатами. Вероятно, это связано с тем, что вас никогда не учили, как использовать эту технологию для продвижения вашего бизнеса. Люди, вероятно, не объяснили ценность SEO или

Можете ли вы решить уравнение SEO?
... сковая оптимизация» и является основным компонентом в разработке веб-сайтов"> Для тех, кто не знает, SEO означает «поисковая оптимизация» и является основным компонентом в разработке веб-сайтов. Если у вас есть бизнес, скорее всего, у вас есть какой-то веб-сайт, через который вы продвигаете свои продукты или услуги. Для большинства компаний главная цель маркетинга и рекламы - как разместить свой сайт на первой странице поисковых систем, в частности, Google. Это связано с тем, что чем выше

Настройки SEO сайта WordPress
WordPress - одна из самых популярных систем управления контентом в мире. Как мы знаем, за очень короткий период времени огромное увеличение количества веб-сайтов, открытых в Интернете, в глазах поисковых систем в глазах своего рода конкурентной среды было эффективным. Наряду с логикой алгоритма нового поколения, возникшей с течением времени, важным моментом стало то, что необходимо сделать для разработки веб-сайта во всех смыслах. В системах WordPress, если вы предоставите

Структура сайта и SEO
В наши дни, поисковые системы по-прежнему является одним из наиболее значимых факторов привлечения трафика на сайты, так поисковая оптимизация (SEO) является очень важной составляющей в разработке структуры сайта. Хотя SEO часто считают просто набором некоторых технических приемов, структура сайта также критически важна. Она определяет, будет ли поисковая система понимать тему Вашего сайта, и как легко она сможет находить

Так что, если вы не можете использовать команду link: что вы можете использовать?
Так что, если вы не можете использовать команду link: что вы можете использовать? Ваш первый порт захода Инструменты Google для веб-мастеров , Инструменты Google для веб-мастеров предоставляют вам обширную информацию о том, что Google знает о вашем сайте, а также о том, как он работает в результатах поиска и +1 метриках. Хотя точность и достоверность информации, приведенной даже здесь, часто ставится под сомнение, это бесценный

Ir noluyor burda «означает или что здесь происходит» или «что вы делаете» и «или что вы делаете?
Ir noluyor burda «означает или что здесь происходит» или «что вы делаете» и «или что вы делаете?» Не трать турецкий. Будьте стабильны, делите свою работу на календари, время ожидания, работайте регулярно. Не тратьте целое состояние на Adwords, так как вы думаете, что Google повлияет на ваш рейтинг. Заголовки заголовков должны быть короткими, а их длина не должна превышать 60 символов. Несмотря на то, что это не имеет значения, регулярно вводите порядок

Что такое местный SEO и в чем разница между местным SEO и традиционным SEO?
Что такое местный SEO и в чем разница между местным SEO и традиционным SEO? Возможно, вы даже не знаете, как это работает, но вы уже знакомы с концепцией SEO (поисковой оптимизации), если у вас нет статьи на тему " Что такое SEO? ». Но в двух словах: это процесс получения максимально возможного рейтинга страницы на вашем сайте Google для поиска терминов, имеющих отношение к бизнесу. Но у местного

Но как вы это делаете, как вы используете Analytis или как вы отслеживаете свою активность?
Но как вы это делаете, как вы используете Analytis или как вы отслеживаете свою активность? Виктор в своей статье немного комментирует техническую часть того, как Google может узнать определенные данные нашей статистики (например, процент отказов, посещений и т. Д.), Если вы действительно не смотрите на Google Analytics. Там я говорю, что, очевидно, он не попадет в ваш аккаунт Google Analytics, чтобы увидеть, как мультфильмы с номерами вашего сайта, но я верю, что

Как вы скажете посетителям в 2 или 3 строки, что они могут найти на вашем сайте?
Как вы скажете посетителям в 2 или 3 строки, что они могут найти на вашем сайте? Вы делаете это с помощью так называемого мета-тега DESCRIPTION. Google часто говорит о «мета-описании», «мета-описании» или «проблемах мета-описания». Вы также сталкиваетесь с термином Meta Snippets. Фактически, фрагмент кода - это целый блок информации о 1 веб-сайте в списке результатов поиска.

Если вы не знакомы с миром интернет-маркетинга, и кто-то сказал вам, что вы должны использовать Screaming Frog, что бы вы подумали?
Если вы не знакомы с миром интернет-маркетинга, и кто-то сказал вам, что вы должны использовать Screaming Frog, что бы вы подумали? Я бы назвал их сумасшедшими. Однако оказывается, что Screaming Frog - отличный инструмент, который слишком немногие люди используют в полной мере. Что такое кричащая лягушка? Теперь, когда люди говорят о Screaming Frog, они не говорят о компании и их услугах веб-маркетинга. Вы, конечно, свободны заключать контракты на любую

Это означает, что вы можете создавать и получать доступ к своему веб-сайту в обтекаемом виде, как на этой диаграмме - веб-сайт> раздел блога> статьи о SEO> 2015> Каковы преимущества SEO?
Это означает, что вы можете создавать и получать доступ к своему веб-сайту в обтекаемом виде, как на этой диаграмме - веб-сайт> раздел блога> статьи о SEO> 2015> Каковы преимущества SEO? Хотите узнать больше о выборе Joomla CMS? Как всегда, вам не требуется никакого опыта программирования для создания ваших сайтов упорядоченным образом, и это потому, что Joomla была создана для этого в первую очередь. Вы также получаете полный контроль над всеми элементами вашего сайта

Как владелец бизнеса, вы можете задаться вопросом «что такое SEO, точно?
Как владелец бизнеса, вы можете задаться вопросом «что такое SEO, точно?» Или «зачем вам нужны услуги SEO?». Вы можете даже спросить «как SEO может помочь моему сайту?» Или «сколько я должен заплатить за SEO». Сервисы?" Мы здесь, чтобы помочь вам с этими важными вопросами. На этой странице вы можете узнать, что такое SEO, почему это так важно

Один интересный вопрос: что происходит, когда вы изучаете другой язык, у вас все еще остается такое же чувство к цветам или вы начинаете «видеть» цвета, названные на новом языке?
Один интересный вопрос: что происходит, когда вы изучаете другой язык, у вас все еще остается такое же чувство к цветам или вы начинаете «видеть» цвета, названные на новом языке? Панос Атанаполус показал, что греки, которые знают английский, классифицируют «блюз» иначе, чем монолингвалы, а Михо Сасаки показал то же самое для японских «зеленых». Изучение другого языка почти буквально меняет ваш взгляд на мир. Лингвистическая

Но знакомы ли вы с поисковым маркетингом (SEM) и понимаете ли вы, как SEM и SEO работают вместе, чтобы улучшить вашу маркетинговую стратегию и вашу способность найти пользователей в Интернете?
Но знакомы ли вы с поисковым маркетингом (SEM) и понимаете ли вы, как SEM и SEO работают вместе, чтобы улучшить вашу маркетинговую стратегию и вашу способность найти пользователей в Интернете? SEO это процесс, с помощью которого вы получить страницу вашего сайта, чтобы занять хорошие позиции в поисковых системах и это ключ к максимизации трафика из обычных результатов поиска. Если вы ищете способы улучшить SEM, важно использовать

Итак, пока вы ожидаете, что ваш сайт перейдет на первую страницу в результатах поиска, как вы узнаете, работает ли SEO в это время?
Итак, пока вы ожидаете, что ваш сайт перейдет на первую страницу в результатах поиска, как вы узнаете, работает ли SEO в это время? Хотя аналитические инструменты - лучший способ определить, работает ли SEO, его успех все еще трудно определить. Мы исследуем препятствия, которые усложняют отслеживание, факторы, которые могут дать вам представление о вашем успехе в SEO, и стратегии SEO, которые гарантированно будут работать. Мы даже рассмотрим инструменты, которые вы можете использовать

Что такое Regex?
Что такое Regex?
Com/search?
Seo - что это такое?
Индексируемость?
Что такое SEO Оптимизация?
Вы хотите расширить свою продукцию или услуги на Испанию, Латинскую Америку или другие испаноязычные рынки?
Так что, если вы не можете использовать команду link: что вы можете использовать?
Ir noluyor burda «означает или что здесь происходит» или «что вы делаете» и «или что вы делаете?
Что такое местный SEO и в чем разница между местным SEO и традиционным SEO?