В Московском планетарии 22 августа 2017 года «Яндекс» представил свой новый поиск на основе алгоритма «Королёв». Вероятно, он станет новым витком в борьбе SEO-оптимизаторов и крупнейшего поисковика Рунета. На этот раз последний научил искусственный интеллект (Artificial intelligence, AI) вполне сносно понимать смысл документов, и теперь при ранжировании руководствуется им, а не банальным перечнем слов и сопутствующими критериями. Попробуем понять, как это работает и чего нам ждать от нового алгоритма, названного в честь известного российского конструктора.
Как нейронные сети стали «умнее»
О технологиях AI и нейронных сетях мы уже слышали от «Яндекса» год назад – тогда был анонсирован алгоритм «Палех». Правда, он умеет работать только на уровне заголовков страниц и обрабатывает не более 150 документов на последнем этапе. Новый алгоритм «Королёв» шагнул гораздо дальше – он учитывает до 200 тысяч (!) документов на каждый запрос, а полученные результаты сохраняет в отдельном индексе – для экономии ресурсов и ускорения анализа.
На такой шаг «Яндекс» толкнуло очередное увеличение количества сайтов и многочисленные манипуляции, связанные с их выводом в ТОП поисковой выдачи. Дополнительные критерии отбора – например, принадлежность к региону, наличие нормативных документов на странице, пользовательские оценки – существуют достаточно давно, но все равно их недостаточно. Точно так же мало уметь считать частоту слов и оценивать авторитетность на основе внешних ссылок. Так возникла острая потребность в инструменте, который бы адекватно «понимал» контент страницы и уже на основе этой информации оценивал ее релевантность. Именно эту потребность восполняет последний алгоритм «Яндекса», о котором пойдет речь.
Как AI обрабатывает контент страницы в алгоритме «Королёв»
Чтобы сделать достоверный вывод о релевантности страницы поисковому запросу, нейронные сети в составе нового алгоритма «Королёв» проходят несколько этапов. На каждом из них решается важная часть задачи, которая определяет конечный результат.
- Оценка соответствия запроса и заголовка страницы. Взаимосвязь между ними пытается выявить поисковый алгоритм «Яндекса» на первом участке работы. В принципе, это было реализовано еще в «Палехе», также построенном на основе работы нейронных сетей. Суть заключается в том, что машина представляет и запрос, и заголовок страницы в виде семантических векторов, а затем находит точки их соприкосновения. Логично, что чем больше таких точек, тем ближе они подходят по смыслу друг к другу.
- Ранжирование страниц. Говоря математическим языком, при обновлении алгоритма «Яндекса» происходит поэтапное перемножение множества матриц, что в итоге позволяет определить основной вектор запроса. На этом этапе отсеиваются десятки тысяч документов, а через «воронку» проходят только избранные. Предпочтение отдается тем из них, для которых положительно завершилось сравнение не только текста и поискового запроса, но и оценка других запросов, по которым пользователи заходили на ту же страницу.
- Оценка соответствия запроса и контента. Это тот этап нового поиска «Яндекса», который так и не был реализован в рамках «Палеха». Да, заголовок очень важен и он представляет содержимое страницы, но не описывает ее с максимальной точностью. Поэтому в обновленном алгоритме зашли дальше и проиндексировали текст таким образом, чтобы его можно было сохранить в виде небольшого массива чисел на внутреннем слое нейронной модели. Именно эти цифры на последнем шаге сравниваются с данными, полученными в результате анализа пользовательского запроса.
Нужно отметить, что информация, с которой приходится сегодня работать системам поиска на уровне нейронных сетей, не возникла в одночасье с появлением «Королёва», нового алгоритма «Яндекса». Уже несколько лет (с 2009 года) функционирует «Матрикснет» – алгоритм машинного обучения, на основе данных которого эта ПС представляет результаты ранжирования.
Зачем нужен отдельный индекс в алгоритме «Королёв»
Мы уже говорили о том, что результаты обработки по новому алгоритму поиска «Яндекса» сохраняются в отдельный индекс. Зачем он понадобился? Дело в том, что речь идет об огромных вычислительных мощностях. И если мы однажды вычислили семантический вектор заголовка страницы, почему бы нам не использовать полученные данные в будущем, когда снова подвернется подходящий запрос? Этого не видят пользователи, но на практике получается огромная экономия процессорного времени, но приходится немного жертвовать памятью (хотя это тоже забота администраторов ПС). Для более эффективного использования вычислительных ресурсов используется клиновидная архитектура с 500, 500 и 40 нейронов – она была признана оптимальной с точки зрения нагрузки.
Пользовательские сигналы
Под пользовательскими сигналами в контексте нового алгоритма поиска «Яндекса» понимаются их действия после перехода со страницы с поисковой выдачей на конкретные страницы с результатами, где установлены системы интернет-статистики. Параллельно используются оценки, поставленные в рамках сервиса «Яндекс.Толока», где свое мнение о качестве поиска могут дать все желающие за небольшое вознаграждение. Также оценивается время, проведенное пользователем на каждой странице. Чем дольше человек задержался на ней, тем полезнее она оказалась – а значит, тем точнее соответствует его запросу. Интересно, что при изменении алгоритма «Яндекса» в 2017 году учитываются не только положительные сигналы, но и отрицательные – только так можно составить наиболее достоверную картину происходящего.
Ближайшие перспективы внедрения алгоритма «Королёв»
Александр Сафронов, руководитель службы релевантности и лингвистики «Яндекс.Поиска» уверен, что нейронные сети и «Королёв» в частности в ближайшем будущем позволят крупнейшему поисковику Рунета точнее отвечать на запросы пользователей. После последних изменений самообучаемые алгоритмы будут еще больше влиять на результаты поисковой выдачи, и со временем, по мере накопления информации, это влияние усилится.
Важно понимать, что после появления 22 августа новой версии поиска «Яндекса» приоритетная роль в формировании выдачи во многом будет принадлежать самим пользователям – все благодаря учету тех самых пользовательских сигналов. Сравнивания все запросы, по которым пользователи переходят на одну и ту же страницу, можно будет устанавливать для нее дополнительные смысловые связи.
Для SEO-оптимизаторов и компаний, занятых в сфере интернет-маркетинга, внедрение нового алгоритма ранжирования «Яндекса» в 2017-м означает (в очередной раз, кстати), что ключевые слова – далеко не самое основное в тексте. Поисковик способен и без них понять, о чем идет речь на странице и насколько она близка по смыслу к поисковому запросу.
Подписывайтесь на наш канал в Яндекс.Дзен!
Нажмите "Подписаться на канал", чтобы читать DigitalNews в ленте "Яндекса" .