Сышышь ты, выходи сюда,
поговорим !

Как использовать Regex для SEO и извлечения данных с сайта

  1. Что такое Regex?
  2. Как вы можете выучить регулярные выражения
  3. Примеры использования Regex
  4. 1. Извлечение метаданных (или любых данных) с любого веб-сайта
  5. 2. Защита прав на товарные знаки
  6. Изменение названий продуктов и поиск неверных заглавных букв
  7. 4. Найти загруженные файлы на сайте сообщества
  8. Проверка орфографии
  9. Резюме

Одним из технологических навыков, который слишком часто игнорируется, является регулярное выражение.

Поиск и извлечение регулярных выражений является, пожалуй, самым полезным, но в целом неизвестным навыком для веб-операций, специалистов по SEO, групп веб-аналитики, исследователей, менеджеров сообществ и специалистов по цифровому маркетингу всех типов.

Эта статья объяснит, что такое регулярное выражение и как начать использовать его с веб-сканерами.

Кроме того, вы также изучите пять интересных примеров использования регулярных выражений.

Что такое Regex?

Регулярные выражения или регулярные выражения, по сути, являются инструментом для сопоставления с образцом. Regex - это основной продукт поисковых систем, который находит и заменяет утилиты, а также является встроенной или дополнительной возможностью многих языков программирования.

Сочетание «Поиск» с веб-сканером может быть чрезвычайно полезным для выявления ошибок и извлечения данных.

Эта функция все еще является относительно новой для коммерчески доступных инструментов SEO.

Пользовательское извлечение с использованием регулярных выражений (или Xpath или CSSpath) было добавлено в Screaming Frog SEO Spider только в июле 2015 года. До этого времени SEOTools для Excel был, пожалуй, самым доступным инструментом для извлечения регулярных выражений - но только в сочетании с искателем, таким как Screaming Frog, для первого сбора URL-адресов для анализа.

Google Sheets также уже давно может использовать извлечение Regex, но, как и SEOTools для Excel, требует, чтобы пользователь сначала сканировал сайт с помощью другого инструмента.

После того, как Screaming Frog выпустила свою пользовательскую функцию извлечения в 2015 году, инструменты SEO уровня «предприятия», такие как BrightEdge и Conductor, ответили добавлением аналогичных функций.

Несмотря на широко распространенную в настоящее время функциональность регулярных выражений, мощь этой функции все еще в значительной степени игнорируется многими веб-профессионалами.

Как вы можете выучить регулярные выражения

Я предлагаю вам погрузиться в игру с помощью Screaming Frog и таких инструментов, как:

Попробуйте некоторые из приведенных ниже вариантов использования или придумайте свой собственный.

Примеры использования Regex

Вот несколько примеров того, как это происходит вместе с реальными сценариями использования, которые вы можете повторить сегодня, используя предоставленные формулы регулярных выражений.

1. Извлечение метаданных (или любых данных) с любого веб-сайта

Для этого примера давайте посмотрим на ESPN.

Когда я писал эту статью, я увидел эта история о звезде НБА Блейк Гриффин.

Просматривая источник этой страницы, я могу найти этот бит метаданных, связанных с аналитикой (похожие метаданные можно найти на большинстве крупных веб-сайтов):

{ "Omniture": { "колумнист": "lowe_zach", "лига": "нб", "countryRegion": "ан-нас", "hier1": "раздел": "История нба": "нб", "источник": "espn.com", "Pagename": "нб: история", "storyInfo": "22258759 + Zach-Lowe-Blake-грифон-торгово-будущего-ла-кусачки-детройт-поршни", "секция ":" нб: история " "сайт": "" ESPN, "премиум": "премиум-нет", "convrSport": "баскетбол", "PAGEURL":" www.espn.com/nba/story/_ / ID / 22258759 / Zach-Lowe-Blake-грифон-трейд-будущее-ла-кусачки-детройт-поршни», "языки": "en_US", "prop35": "2018-01-30", "CONTENTTYPE": "история", "спорт": "баскетбол", "счет": "wdgespcom", "siteType": "полный", "prop58": "ISINDEX = ложь"}

Теперь, когда мы определили, что, вероятно, является общим шаблоном данных, мы можем начать создавать регулярное выражение для извлечения этих данных.

Здесь я скопирую и вставлю этот код вместе с несколькими строками до и после в regexr.com (мой любимый инструмент regex) и начну работать над некоторыми формулами:

Одним из технологических навыков, который слишком часто игнорируется, является регулярное выражение

Предположим, я проверяю сайт ESPN и хочу получить список всех новостей, авторов и дат. Мне просто нужно запустить сканер с этими двумя регулярными выражениями, включенными в фильтр Custom Extraction:

"обозреватель":"(.*?)"
"Prop35": "(*.?)"


И это работает! Я могу сканировать список URL-адресов ESPN.com или сканировать весь сайт и извлекать эту информацию, которая будет иметь решающее значение для моего аудита контента.

2. Защита прав на товарные знаки

зарегистрированный товарный знак (®) - это символ, который обычно должен появляться после слова или слов с торговой маркой при первом использовании на веб-странице.

Хорошим примером этого является « ITIL ® »- это инициализм, обозначающий библиотеку ИТ-инфраструктуры, торговую марку, принадлежащую Axelos ,

Многие веб-сайты, которые обсуждают ITIL, не включают зарегистрированный товарный знак при ссылке на концепцию.

Cherwell.com - это один из таких веб-сайтов, на котором обсуждается ITIL, но который не всегда может содержать зарегистрированный товарный знак.

Используя два простых регулярных выражения, мы можем легко найти URL-адреса, в которых Cherwell следует рассмотреть возможность добавления зарегистрированного символа торговой марки:

Используя два простых регулярных выражения, мы можем легко найти URL-адреса, в которых Cherwell следует рассмотреть возможность добавления зарегистрированного символа торговой марки:

В этом случае мы обнаружили четыре URL-адреса, которые содержат правильный символ - и многие другие, которых нет.

Этот пример показывает, насколько мощной может быть простая строка регулярных выражений.

Вот регулярные выражения для этого варианта использования:

ITIL®
ITIL (?! ®)

Изменение названий продуктов и поиск неверных заглавных букв

В 2017 году IBM официально сменила название от «DB2» до «Db2» - строчная буква «b».

Название DB2 было впервые использован в 1983 году так что, вероятно, в Интернете есть бесчисленные места, содержащие неправильное использование.

Этот вариант использования является распространенным - слово или фраза имеют общую заглавную букву, при изменении названия продукта.

В любом случае, решение состоит в том, чтобы сканировать и находить неправильные или устаревшие способы использования.

Одним из примеров веб-сайта, который часто использует «DB2» и, следовательно, должен рассмотреть возможность аудита своего сайта, чтобы исправить это использование, является Delphix.

Используя следующее регулярное выражение, мы можем идентифицировать все неправильные экземпляры «DB2», «db2» или «dB2»:

(ДБ | DB | дБ) 2

(ДБ | DB | дБ) 2

4. Найти загруженные файлы на сайте сообщества

Jive Software является, пожалуй, платформой сообщества №1 для предприятий. Как таковой, он используется такими компаниями, как Cisco, ServiceNow, Adobe, BMC Software, McAfe, Wiley и многими другими крупными компаниями.

Вы можете найти другие примеры компаний, использующих платформу Jive с запросом Google, например: https://www.google.com/search?q=inurl:hosted.jivesoftware.com

Jive, как и WordPress или другие платформы для веб-публикаций, имеет определенные шаблоны, которым обычно следуют.

Одним из таких шаблонов для Jive является то, что все загрузки на платформу при просмотре из документа или блога, в которые она загружена, содержат следующую ссылку:

<a class=veloperj-attachment-icontakte href=abilities/servlet/JiveServlet/download/xxx/filename.extgoti>

Поэтому мы можем использовать следующий шаблон регулярных выражений для извлечения всех URL-адресов вложений с любого сайта сообщества Jive:

"j-attachment-icon" href = "(. *?)"

Чтобы увидеть, как это работает, вот результаты краткого сканирования сайта https://community.servicenow.com :

Проверка орфографии

Надеемся, что большинство веб-издателей проверяют орфографию либо в Word, либо с помощью других средств, прежде чем публиковать, но общие ошибки по-прежнему просачиваются сквозь трещины.

Не волнуйтесь, хотя.

Regex + Screaming Frog может помочь вам определить слова с ошибками. Единственная загвоздка в том, что вам нужно знать слова с ошибками.

Некоторые слова обычно пишутся с ошибками на любом языке.

Кроме того, есть слова, характерные для отрасли или бренда, которые должны быть включены вместе со списком типичных ошибок в написании языка.

Вот простая строка регулярного выражения, соответствующая наиболее распространенным в США английским словам с ошибками:

(? я) разместить | размещение | достичь | через | агрессивный | агрессия | очевидно | внешний вид | аргументация | убийство | в основном | начало | верить | верить | Bizzare | бизнес | календарь | Карибский | кладбище | шофер | коллега | приход | комитет | полностью | сознательный | любопытство | определенно | дилемна | исчезнуть | разочаровывать | экстаз | смущать | окружающая среда | существование | Фаренгейт | фамильяр | финал | флуоресцентный | foriegn | видимый | сорок Фовард | друзья | дальше | Jist | гламурный | правительство | гаурд | случилось | Harrass | преследование | почетный | юмористический | особенность | немедленно | кстати | независимый | перерыв | неотразимый | знание | Лиасе | Лайсон | леденец на палочке | тысячелетие | тысячелетия | Неандерталец | необходимый | заметный | случай | случай | произошло | происходящий | происшествие | происшествие | павильон | постоянный | фароах | Peice | политикан | Португальский | владение | предпочтительнее | предпочитая | пропоганда | публично | реально | получить | референдум | реферинг | религиозный | запоминать | запомнить | сопротивление | смысл | отдельный | Сейдж | успешный | отменять | сюрприз | тату | склонность | для этого | порог | завтра | завтра | Tounge | верно | непредвиденный | к сожалению | до | странный | где угодно | которым

Давайте снова запустим Screaming Frog и посмотрим, сможем ли мы найти любую из этих ошибок в CNN:

Вскоре мы уже заметили опечатку слова «Фаренгейт»:

Вскоре мы уже заметили опечатку слова «Фаренгейт»:

Резюме

Шаблоны по всей сети. Используя регулярные выражения, вы можете найти экземпляры шаблонов и извлечь связанные данные.

Регулярные выражения не просты в освоении, но как только вы начнете, вы найдете бесконечное применение этой мощной технологии. Именно в этом ключе Джейми Завински классно заявил:

«Некоторые люди, столкнувшись с проблемой, думают:« Я знаю, я буду использовать регулярные выражения ». Теперь у них есть две проблемы».

Что такое Regex?
Что такое Regex?
Com/search?