Что такое BERT? Этот новый поисковый алгоритм разработан Google, для лучшего понимания запросов от пользователей.
Как БЕРТ в будущем повлияет на выдачу? Он будет обрабатывать около 10% запросов Google, что, естественно, отразится на выдаче. Поэтому маркетологам, конечно, стоит знать об этой разработке.
Сейчас, когда мы уже видим конечный результат, то можем сказать, что БЕРТ — очередной алгоритм Гугл. Но это не совсем так. Google постоянно совершенствует машинное обучение и навыки обработки естественного языка. За год до внедрения алгоритма в Сети произошел бум. Маркетологи пытались предсказать, что ждет поисковую выдачу в будущем и стоит ли оптимизировать свой контент с учётом работы BERT.
Что такое BERT в поиске?
Аббревиатура BERT расшифровывается как «Bidirectional Encoder Representations from Transformers», но толком пока не понял что это. Языковой моделер был создан для того, чтобы Гугл мог качественнее обрабатывать запросы пользователей.
Впервые о BERT стало известно в октябре 2018 года; была создана академическая статья, авторы статьи — Джейкоб Девлин, Минг-Вэй Чанг, Кентон Ли, Кристина Тутанова.
BERT является платформой NLP, созданной с целью обработки естественного языка. Google разработал данный проект, а затем оставил исходный код открытым. Создатели алгоритма верят, что это может улучшить машинное обучение, а также — положительно повлиять на понимание программой естественного языка.
Уже сейчас вы можете узнать, что большая часть того, что вы слышали о BERT в сети, НЕ является Google BERT как таковым. Дело в том, что многие исследователи работали с алгоритмом и совершенствовали его.
В чем BERT улучшил понимание языка?
BERT существенно ускорил понимание языка в NLU и Google Переход — так считают сообщества ML и NLP, кто работает непосредственно с машинным обучением. Специалисты уверены: это потребует бОльших временных затрат, чем проводить исследования на естественном языке.
Bert совершенствуется буквально с каждым днём: уже сейчас он «знает» всю англоязычную Википедию в 2500 миллионов слов. Vanilla BERT предоставляет кодерам уже предварительно обученный начальный уровень для нейронных сетей.
BERT настроен на точные вопросы и ответы
Как известно, BERT работает с наборами данных вопросов-ответов, несмотря на то, что он напрямую связан с англоязычной Википедией. Этот набор данных называется MS MARCO — одна из программ для машинного чтения, разработанная Microsoft для работы с открытым исходным кодом.
Создание такой технологии, как BERT, породило конкуренцию между разработчиками. Исследователи ML и NLP соревнуются друг с другом в создании лучшей модели, на основе реальных вопросов и ответов Bing. Они посылаются анонимными пользователями, и данные автоматически встраиваются в набор данных с вопросами и ответами для исследователей ML и NLP.
Также технология BERT косвенно конкурирует со SQuAD (аббревиатура расшифровывается как Стэнфордский набор вопросов и ответов). Алгоритм БЕРТ признан более совершенным, чем эталон человеческого мышления в SQuAD.
BERT — новое слово в понимании естественного языка машинами. Технология расширяется; многие международные организации пытаются создать свои версии алгоритма. Например, Microsoft сделал расширение BERT MT-DNN (англ.многозадачная глубокая нейронная сеть).
Какие задачи помогает решить BERT?
Многие вещи, которые интуитивно понятны для людей, когда они общаются на родном языке, совсем не очевидны для поисковых систем. На данный момент БЕРТ является одним из лучших алгоритмов, которые способны толковать многозначные слова, фразеологизмы. Также BERT отчасти способен понимать контекст. Технология решает ряд проблем, которые появляются в процессе анализа текста.
1.Многозначные слова
Например, существует проблема в толковании слов. Часть слов мы используем в переносном значении; употребляем синонимы вместо каких-то слов, и фразеологизмы (устойчивые сочетания).
Какие это могут быть слова? Выражение «рак на горе свистнет» означает, конечно, не свистящего рака, а ситуацию, которая маловероятна.
Также к этой категории относятся шутки. Они в основном основаны на каламбурах (игре слов), поэтому у поисковых систем возникает риск их неверно истолковать.
2.Смысл слова в контексте
Смысл слова — в его употреблении в языке. — Людвиг Витгенштейн, философ, 1953 год.
Исходя из данного высказывания, иногда одно слово не несёт смысловой нагрузки: всегда нужно смотреть на контекст. Бывают тексты, в которых смысл слова меняется по ходу развития мысли. Одно и то же слово может быть разными частями речи (особенно в английском языке, на основе которого и работает BERT).
Например, слово «нравиться» (англ.like) может быть разными частями речи: глаголом, существительным, прилагательным. По сути, говоря «like», мы можем иметь в виду все, что угодно. Контекст меняется в зависимости от значения других слов, которые находятся рядом со словом like.
Факт: для алгоритма сложно понимать длинные предложения. Почему? Потому что так труднее отслеживать части речи и семантические связи между ними. Понимание контекста ОЧЕНЬ непросто для машин, но гораздо проще для людей.
BERT — структурирует данные или нет?
Некоторые полагают, что понимание контекста происходит за счет структурирования данных. Но понимание естественного языка — это НЕ структурирование данные. Заранее созданная структура помогает определить смысл слов, но совершенно бесполезна, если одни слова поменяны местами или разделены другими словами.
Поэтому, конечно, здесь есть, над чем работать. Предстоит заполнить много пробелов. С лексическими и семантическими смыслами лучше всего работает NLU. Данная разработка помогает поисковым системам, в прямом смысле, заполнять пробелы между именованными объектами.
Как поисковые системы могут заполнить пробелы?
Естественные языковые неоднозначности
Вы должны узнавать слово по тому, к какой группе оно принадлежит. Джон Руперт Ферт, лингвист.
В этом есть большая доля правды. Слова, употребляемые в тексте вместе, тесно связаны между собой.
Можно описать, как возникает взаимосвязь:
- Слова одновременно появляются в тексте.
- Появляется определенный контекст.
- Одни и те же совпадения одинаково меняют смысл.
- Сходство и родство.
Схематично взаимосвязь между словами выглядит именно так, только гораздо масштабнее. Наборы слов для машинного обучения насчитывают миллионы выражений и классифицированных групп. Это выглядит как векторные представления слов, а также модели векторного пространства с пробелами, чтобы вставлять подходящие по смыслу слова, а иногда и фразы.
Модели NLU изучают отношения сходства и родства между словами. Но даже если мы уловили взаимосвязь, нам нужно понимать контекст. Отдельные слова не имеют конкретного смысла, поэтому всегда идет упор на контекст.
Сплоченность — это грамматическая и лексическая связь в тексте или предложении, которая объединяет текст и придает ему смысл.
Если не учитывать семантический контекст, то одно и то же слово может иметь разное значение.
Например:
- Он пнул ведро.
- Ведро было заполнено водой.
- На улице было вёдро.
Важный момент, что в BERT есть пометка части речи (POS). От этого тоже напрямую зависит, как алгоритм распознает текст, и к какой внутренней категории его отнесет.
Как работает языковая модель BERT?
Модели, которые были до этого (Word2Vec и Glove2Vec) работали по принципу встраивания слов, но не учитывали контекст. Алгоритм BERT, наоборот, работает вместе с контекстом.
B: Bi-directional (Двунаправленный)
Все языковые модели до BERT, например, Skip-gram и Continuous Bag of Words, — однонаправленные. То есть, они перемещают контекстное окно только в одном направлении. При этом окружающие слова не учитываются. Это называется однонаправленный языковой моделер.
Большинство моделеров языка однонаправлены. Когда они начинают распознавание текста, то могут пройти через слово. Контекстное окно идёт слева направо или справа налево.
В основе разработки BERT двустороннее моделирование: алгоритм может видеть как левую, так и правую часть целевого слова. БЕРТ может видеть предложения и все слова в нем сразу и почти одновременно.
ER: Encoder Representations (Кодерные представления)
То, что кодируется и декодируется. Это двусторонний механизм: вход и выход.
T: Transformers (Преобразователи)
BERT использует преобразователи, а также маски и шаблоны. Это позволило сразу решить целый ряд языковых задач.
Раньше часто возникали сложности с местоимениями. Для программы было непросто определить, о ком или о чём идёт речь в разговоре. Иногда похожие ситуации бывают и у людей в процессе общения, тогда что можно сказать о программе. Поисковые системы также, как и БЕРТ, пытаются отследить, когда вы говорите он, они, она, мы, это и т.д. В этом схожесть их особенностей работы.
В некоторых текстах (например, художественных) было сложно определить нюансы разговора. Поэтому в разработке BERT большое внимание было уделено именно местоимениям.
При работе с контентом БЕРТ пытается уловить взаимосвязи: кто с кем говорит, кто о чем говорит и так далее. Алгоритм рассматривает слова по группам, когда выражения или фразы идут вместе. Удивительно, но такой подход решает сразу множество языковых задач.
Использование масок
Еще одна особенность БЕРТ: он использует маски, с определенным количеством пробелов, которые заполняет по ходу анализа контента. В отличие от языковых моделеров предыдущего поколения, BERT не акцентирует внимание на лексическом значении конкретного слова, а работает с совокупностью слов.
Как BERT повлияет на поиск
BERT поможет Google лучше понять человеческий язык.
Понимание нюансов человеческого языка будет иметь огромное значение для того, как Google интерпретирует запросы, потому что люди явно ищут ответы на более длинные запросы.
Большие сизменения для международных SEO-компаний
BERT обладает моно-лингвистическими и многоязычными способностями, поскольку многие образцы в одном языке переводятся на другие языки.
Существует возможность переноса большого количества запросов на другие языки, даже если он не всегда полностью понимает сам язык.
BERT и контент: оптимизировать или нет?
Логичный вопрос: есть ли смысл затачивать контент под этот алгоритм? В любом случае, я бы не рекомендовал чересчур оптимизировать страницу.
Google BERT воспримет страницу как целевую. Но на ранжирование повлияет что-то еще, например, Panda. Поэтому много — не есть качественно, чрезмерной оптимизации лучше избегать.
Совет: специально оптимизировать страницу для алгоритма BERT, все же, не следует. Создавайте информативный,полностью раскрывающий тему контент, в общем для людей.
Выводы
Что же такое, в конечном счёте, Google BERT?
Это — новый уровень машинной оценки текста. Хотя Берт не анализирует качество контента, он позволяет более точно классифицировать информацию и в итоге выдавать пользователю наиболее релевантный результат.
- Определение субъекта и объекта речи (о ком и о чем идет речь)
- Дается ли в тексте ответ на вопрос пользователя.
- Значение слова в контексте (если слово многозначное).