Программирование на Python и Objective-C в Mac OS

Программирование на Python и Objective-C под Mac OS и для iPhone / iPod Touch

Асессоры яндекс: Как «Яндекс», Ozon и «Тинькофф банк» нанимают армию асессоров

Содержание

Как отследить визит асессора Яндекса на сайте?

Привет! Сегодня расскажу, как отследить поведение асессоров Яндекса (или как их ещё называют – толокеры) на вашем сайте. Стоп, а для чего их отслеживать? Что это даст?

Содержание статьи:

Кто такие асессоры Яндекса?

Давайте для начала разберёмся, кто это такие вообще?

Асессоры Яндекса  – это люди, которые с помощью яндексовского сервиса – Толока за копейки оценивают сайты, выставляя им оценки согласно инструкциям, которые выдаёт сам Яндекс. Асессоры призваны направлять ИИ алгоритма поисковика в нужное русло.

Данные персонажи косвенно (не напрямую, потому что их оценки отправляются на переработку ИИ алгоритма, и только он принимает решение, как поступить с сайтом дальше) влияют на ранжирование сайта в поисковой выдачи Яндекса.

Если ваш сайт не удовлетворяет, по мнению асессоров, тем или иным требованиям, изложенным в методичках Яндекса, они хладнокровно ставят минус вашему сайту. Чем больше негативных оценок накапливает ваш сайт, тем ниже вы постепенно опускаетесь в поисковой выдаче.

Когда вы увидели просадку трафика из Яндекса, стоит заглянуть в Метрику на предмет посещений толокеров вашего сайта в ближайшее время. Посмотрев визит, вы можете сделать выводы о том, что могло не понравиться “ревизору” и исправить этот косяк.

Думаю, теперь понятно, почему стоит отслеживать визиты асессоров?

Где увидеть визит толокера?

Посещение асессора Яндекса можно отследить с помощью Вебвизора в Яндекс.Метрике. Для этого заходим в Метрику и переходим во вкладку – Вебвизор.

Далее выбираем фильтр – «Переход с сайта» и вбиваем туда слово «toloka» и выставляем время, за которое вы хотите найти толокера. К сожалению, Яндекс хранит визиты толокеров всего 2 недели, а более старые удаляет.

Артём Высоков

Автор блога о SEO и заработке на сайтах — Vysokoff.ru. Продвигаю информационные и коммерческие сайты с 2013 года.

Задать вопрос

 Загрузка …

После этого вы увидите параметры визита асессора. Чтобы посмотреть как себя вёл на сайте пользователь Толоки, нужно нажать на плей.

Хочу отметить, что визиты зачастую бывают по 2-3-5 секунд, что успевает оценить за это время толокер – загадка. Я склоняюсь к тому, что многие выполняют свою работу некачественно из-за копеечных выплат и тыкают на плюсы и минусы наобум.

У асессров Яндекса есть несколько урл-адресов, с которых они могут посещать страницы:

https://iframe-toloka.com/

https://toloka.yandex.ru/

С год назад в вебмастерской среде завирусился ролик, где старуха (судя по голосу) записывала свой экран и процесс оценки сайтов. Так вот, там было крайне много ошибок, она тыкала зачастую не отличая «шок»-рекламу от обычного Adsense и баннеров прямых рекламодателей. К сожалению, на момент написания статьи ролик уже удалён, остался только скриншот из моей группы в ВК

Погуглив я нашёл аналогичный ролик, где вы можете оценить толокера за работой:

Как думаете, могут ли такие люди адекватно оценить сайт и реально улучшить выдачу? И я уверен, что очень много подобных персонажей посещает наши сайты и выставляет им оценки, не понимая толком важности и цели своей работы.

Секреты работы асессоров Яндекса

ВЫ заметили, что в последнее время Яндекс при ранжировании по различным коммерческим запросам начал уделять много внимания дизайну сайта, его качеству, доверию среди посетителей.

Содержание:[показать]

Казалось бы, как ему удается делать это с помощью машинных алгоритмов? В данной статье мы приоткроем занавес на секреты работы асессоров Yandex.

Кто такие асессоры?

Асессорами называются живые люди, которые работают на благо Яндекса в каждом из регионов. По сути, это те же фрилансеры (удаленные сотрудники, работающие на себя), но их задача заключается в другом. Асессор оценивает сайт по нескольким параметрам, а затем на основе собранной информации алгоритм Матрикснет вносит коррективы.

То есть, сами по себе асессоры ничего не меняют – они лишь дают наводку Матрикснету, какой сайт является хорошим, а какой – плохим. Сайты, помеченные асессорами как релевантные запросам, подлежат более детальному изучению алгоритмом.

Конечно, работа асессоров не была бы такой эффективной без контролирующих структур, которые выборочно осуществляют проверку всего, что делают специалисты. Между тем, в паблике Яндекса сообщается, что точность оценки сайтов асессорами близка к 100%.

Свой штат асессоров имеется и в команде Google, однако сегодня мы будем говорить о Яндексе. В конце концов, именно эта поисковая система обеспечит вам наибольший приток клиентов в Рунете.

Что входит в обязанности асессоров?

Все асессоры имеют специальный рабочий интерфейс, куда подгружается поток всех поисковых запросов. За последние годы этот интерфейс практически не изменился и напоминает по своему внешнему виду надстройку веб-браузера. За один рабочий день асессору нередко приходится оценивать сотни запросов. Сама по себе методика оценки весьма непростая и может разниться в зависимости от возраста сайта, его посещаемости, тематики и пр.

По какой шкале оценивается релевантность web-сайта?

Сейчас мы перечислим девять различных категорий, которые присуждаются асессорами всем анализируемым сайтам.

  1. Витальный веб-сайт. Он всегда стоит на первом месте в поисковой системе, и сдвинуть его оттуда – практически невыполнимая задача. Более того, существование витального сайта предполагает далеко не каждый поисковый запрос.

Официальные сайты компаний и брендов также будут считаться витальными, если в Яндексе будет соответствующий запрос. Они всегда стоят на первом месте, так что можно не покупать на витальные сайты никаких ссылок, да и оптимизировать их не нужно.

  1. Полезный сайт. Такую оценку получает авторитетный сайт с большим объемом уникальной информации. Самый наглядный пример такого сайта – Википедия.

  2. Релевантный с плюсом. Если сайт получил такую оценку, скорее всего, он отвечает на поисковый запрос, но не «дотянул» до полезного из-за низкого авторитета или полноты ответа. Если вы посмотрите на предыдущий скриншот о кунсткамере, то поймете, что  список сайтов, который находятся под «Википедией», включает в себя именно релевантные сайты с плюсом.

  3. Релевантный с минусом. Если вашему сайту присвоен такой статус, он отвечает на запрос лишь частично.

  4. Нерелевантный. Сайт или его конкретная страница совсем не отвечают на запрос пользователя.

  1. Иногда бывает такое, что на странице встречаются слова-запросы, но сама она отражает совершенно иной смысл. Возникает некий казус – как такая страница вообще могла попасть в выдачу.

  2. Спам. Сайт получает оценку «спам», если он является дорвеем или продвигался любым из «черных» методов оптимизации.

  3. Вирус. Еще хуже, если вашему сайту вдруг присвоили такой статус. Обычно эта оценка выдается всем без исключения сайтам, на которых был обнаружен вредоносный код.

  4. Страница не была найдена. Если после перехода из выдачи получено сообщение об ошибке под номером 404, сайт получает именно такой статус.

Можно ли повлиять на оценки асессоров и повысить позиции сайта?

Собственно, если бы этого нельзя было сделать, эта статья вообще не публиковалась бы. Повлиять действительно можно, но для этого вам нужно четко знать, что именно влияет на оценки асессоров.

  1. Дизайн. Конечно же, дизайн сайта должен быть современным и отражать современные тенденции развития веб-дизайна. Исключением могут быть разве что очень старые ресурсы, которые по-прежнему отлично ранжируются Матрикснетом. Явление это временное, так что в будущем вам обязательно нужно будет поработать над ресурсом.

  2. Ассортимент. Уже при заходе на сайт пользователю должно быть понятно, что именно вы предлагаете/продаете. Обычно это реализуется за счет правильной настройки меню.

  3. Юзабилити или удобство выбора. Вам не нужно просто меню – необходима тщательно продуманная и невероятно удобная навигация по сайту, как минимум три фильтра для быстрого поиска товара, различные помощники и пр.

  4. Качество предоставляемых услуг. Клиент обязательно захочет вернуться к вам снова, если найдет бесплатные номера телефонов, качественные фото товаров, возможность бесплатной доставки, акции и отзывы.

  5. Уровень доверия. Он формируется самыми разными факторами, в том числе и внешним видом web-сайта. Крайне важна развернутая информация о компании, наличие адреса магазинов, схемы проезда и пр.

Какие контакты нужно указать, чтобы получить высокую оценку асессора?

В обязательном порядке: электронная почта и телефон (любой, но в идеале бесплатный), схема проезда (клиенты должны знать, как можно найти вас), подробное описание проезда (каким видом транспорта лучше всего воспользоваться).

Как асессоры оценивают удобство выбора и ассортимент?

Удобство выбора – это когда ваш сайт в ответ на любые запросы пользователя предлагает множество разнообразных вариантов. Если у вас 2-3 варианта, а у конкурентов их десятки, позиции сайта в выдаче и его авторитет для асессора резко ухудшатся. Навигация должна быть предельно понятной. Обязательно используйте так называемые хлебные крошки и многоуровневые меню так, как это показано на скриншоте:

Всегда указывайте цены – этот фактор положительным образом влияет на оценку асессоров и отношение посетителей к тому, что вы предлагаете. Лучше размещать цены прямо на сайте, а не предлагать пользователю скачать отдельный прайс-лист. Описания товаров должны быть написаны для реальных людей. То же касается и фотографий товара. В идеале, у пользователя должна быть возможность посмотреть видео, познакомиться с трехмерным изображением товара. Например восстановление флешек в Москве должно быть предоставленно красиво на сайте с видио и фотографиями востановления флешек.

Кстати, когда вы всерьез займетесь семантикой сайта, то поймете, что пользователей может заинтересовать не только товар, но и аксессуары к нему. Их названия также желательно упоминать в названии товара.

На сегодня все, но на этом мы не заканчиваем публикации об асессорах. В третьей части статьи вы узнаете, какие стоп-факторы могут мгновенно снизить авторитет сайта в глазах асессоров и чего вам стоит опасаться. До новых публикаций!

Поделитесь со своими друзьями

как они влияют на поиск? Ручное управление выдачей Яндекса. Витальные сайты.

Термин Асессор используется так же в SEO сегменте. Асессор (на англ. Asessor) — живой человек, который просматривает страницу и определяет ее релевантность. У Яндекса есть даже специальная работа, человек может устроиться на должность Асессора. Выдача строится не только по тому, что проанализируют роботы, но так же выдача исходит из того, как оценят страницу асессоры.

Как асессоры Яндекса влияют на поиск?

Источник.

 

В асессорах есть и польза, например однажды продвинутый в ТОП сайт, скорее всего и останется на высоких позициях, но при условии, что сайт является качественным и с хорошим юзабилити. Так, на смену параметра трастовость сайта или параметр «релевантный +» (тут бы и хотелось дотянуть свой сайт до оценки асессора «полезный ресурс», но это не тривиальная задача), а идет параметр поведенческих характеристик, а параметр трастовости все больше размывается и уже становится нацелен и на юзабилити и конверсию сайта.

Источник.

 

Ответы асессоров.

«Полезная страница» – страница, на которой можно найти ответ на заданный вопрос, полезную информацию, соответствующую запросу.

«Страница релевантная+» – страница, которая полностью отвечает запросу.

«Страница релевантная-» – страница, частично отвечающая поставленному запросу.

«Нерелевантная страница» – страница, не отвечающая запросу.

«Спам» – страница имеет признаки поискового спама, дорвей.

«Страница Не Про То» – данная категория весьма интересна.

Источник.

 

Что влияет на решение модераторов Яндекс Каталога и асессоров поисковой системы:

  1. Старость. Если с первого взгляда видно, что сайт устарел (в новостях давнишние даты), а для сайта данной тематики важна актуальность (например, курсы валют), он будет минусоваться.
  2. Отсутствие контента. Если на странице нет контента или он не релевантен запросу, то пользователь, придя на такой сайт, не получит никакой полезной информации. Следовательно, такой сайт будет заминусован.
  3. Контактная информация. Пустые, спрятанные либо некорректно заполненные контакты.
  4. Разделы в разработке. Большое количество значимых для сайта разделов, находящихся в разработке, негативно влияют на его судьбу (например, раздел оплаты товаров или контакты).
  5. Отсутствие цен. Особенно актуально для коммерческих сайтов.
  6. Форматирование текста. По этому пункту можно почитать статью про основы внутренней оптимизации сайтов. Сюда же можно отнести некорректную вёрстку, например, невидимые пункты всплывающего меню.
  7. Необоснованное отсутствие контента. Бывает и такое, что некоторые сайты, в угоду тематике приносят в жертву контент. Это так же негативно влияет на позиции, особенно если в топе по этой тематике уже сидят сайты с контентом.
  8. Техническая часть. Недопустимо, чтобы ссылки, особенно из меню сайта вели на страницы, отдающие 404 ошибку. Для сайтов коммерческой тематики так же вызывают негативные последствия долгие ответы от сайта.
  9. Переоптимизация. Зачастую оптимизаторы сильно увлекаются ключевыми словами и форматированием текста. В результате получается, что нормальный человек просто не сможет прочитать текст и понять его смысл.
  10. Лэндинг-страница. Если модераторы ЯКа смотря сайт в целом, то асессоры уделяют повышенное внимание именно посадочной странице (той странице, на которую они попадают по запросу). Важно, чтобы лэндинг-страница была максимально релевантна запросу, по которому посетители находят её в поиске.
  11. Современность. Фактор этот появился недавно. Раньше его не замечали. Есть сайты, которые стали откровенно унылы исходя из временного фактора, например: пустое место на странице (слева или справа) из-за перехода на широкоформатные мониторы.
  12. Тематичность. При переходе на сайт пользователь сразу же должен понимать, о чём он.
  13. Информативность. Если у вас есть интернет-магазин, то не стесняйтесь подробно написать про оплату, доставку, условия покупки. При необходимости должен быть калькулятор, который поможет покупателю рассчитать необходимый объём товара. Сайт должен максимально конкретно отвечать на вопрос пользователя, чтобы у него не появлялось желание продолжить поиск, закрыв ваш сайт.
  14. Уникальность. Сайт должен предоставлять пользователю такие товары, услуги, сервис или информацию, которых нет у конкурентов.

В заключение можно посоветовать такую проверку. Если есть предположение, что имеются какие-то проблемы с асессорами, поступите следующим образом. Попытайтесь добавить сайт в Яндекс Каталог. Не обязательно за это платить. Просто добейтесь того, чтобы модератор Каталога ответил вам.

Источник.

 

На последок. Что такое витальные сайты?

Витальный запрос – это запрос, на который можно получить однозначный ответ. Например, при вводе названия компании в результатах поиска сайт требуемой компании гарантированно будет на первом месте.

Витальный сайт – это сайт, наиболее полно раскрывающий тематику или имеющий официальный статус, например, сайт компании/производителя.

Пример витального сайта.

Пример витального сайта по витальному запросу

Яндекс.Толока: вступайте в ряды асессоров

Яндекс потихоньку выкатил интересный сервис для асессоров — Толока. Теперь любой желающий может принять участие в оценке качества поиска. Для этого нужно лишь зарегистрироваться и выбрать задание из списка.

На данный момент были зафиксированы два типа заданий:

  • Определение документов с контентом для взрослых.
  • Оценка релевантности документов.

Вот пример задания: «Определите, может ли этот документ быть полезен пользователю, задавшему этот запрос»

Справа даны варианты ответов, из которых выбирает асессор. В помощь предлагается небольшая инструкция:

Мы считаем документ релевантным, если он в какой-то степени полезен пользователю, например:

• это именно тот сайт, который указан в запросе;

• это официальный сайт, если он помогает ответить на вопрос;

• этот документ дает хороший или нормальный ответ на запрос;

• этот документ относится к запросу, но предоставляет неполный, косвенный ответ или отвечает на второстепенную возможную трактовку запроса, но тем не менее имеет ненулевую ценность.

За каждое выполненное задание асессор получает от 1 до 5 центов. Вознаграждение выплачивается на PayPal или Яндекс.Деньги в суммах от 10 долларов и выше.

Сам Яндекс описывает Толоку как сервис, где встречаются заказчики работы и исполнители. Заказчики размещают задания, связанные с анализом и оценкой контента. Пользователи оценивают. Отметим, что Яндекс никак не анонсировал данный сервис. Его обнаружили вебмастера, заметив на свои сайты переходы с https://toloka.yandex.com/pools.

Через несколько часов после обнаружения сервиса интернет-сообществом Яндекс дал официальный комментарий:

Яндекс.Толока — это бета-версия краудсорсинговой платформы для сбора пользовательских оценок, которую мы запустили около двух недель назад.

Большинство сервисов Яндекса построено на машинном обучении алгоритмов. Но чтобы алгоритмы обучались, им периодически нужны массивы человеческих оценок. Иногда оценки реальных пользователей важны и для принятия тех или иных решений по развитию продуктов Яндекса. Чтобы получать такие данные, у нас есть асессоры — специальные люди, которые помогают делать выборку для наших алгоритмов.

В последнее время количество запросов от сервисов Яндекса к асессорам растет, и мы решили опробовать краудсорсинговую модель — когда за денежное вознаграждение задания разного формата и содержания выполняют все желающие.

Ассортимент доступных для выполнения заданий зависит от наших потребностей в текущий момент, поэтому изменяется с течением времени.

Необычное название – Толока – означает давнюю балтославянскую традицию. Жители деревни объединялись, чтобы вместе сделать большое дело — собрать урожай, вырубить лес, построить дом или церковь. Такой же идеей руководствуется и Яндекс.

Сражение за пользователя между Яндексом и Гуглом | Интернет

В компаниях Google и в Яндекс имеются специальные отделы, отвечающие за качество поиска.

Это означает,  что поисковая выдача, которую получают пользователи Яндекса, Гугла в ответ на свой запрос в поисковике, должна полностью подходить для пользователей, а также соответствовать их чаяниям и надеждам.

Содержание:
1. Асессоры проверяют поисковую выдачу
2. Счастье пользователей
3. Сервисы Гугла и Яндекса
4. Зачем сражаться за пользователя?

Главная деятельность компаний ведется в трех ключевых направлениях:

  • ручная проверка асессорами поисковой выдачи,
  • полное удовлетворение пользователя по его запросу (так называемое, «счастье пользователя»)
  • и разнообразные сервисы, предлагаемые поисковиками для своих пользователей.

Рассмотрим все три направления по порядку. Кто такие асессоры и как они проверяют работу Гугла и Яндекса?

1. Асессоры проверяют поисковую выдачу

Асессоры – это люди, которые вручную выполняют оценку поисковой выдачи по самым разным запросам. Их можно также назвать экспертами поиска или аналитиками поисковых алгоритмов.

В основном, поисковики, конечно используют автоматические алгоритмы для такой работы, но только живой человек может качественно оценить любую поисковую выдачу.

У асессоров есть инструкция от Google или Яндекса, согласно которой они проверяют поисковую выдачу.

К примеру, программисты Гугл или Яндекс придумали новое обновление и внедрили его в поиск. Далее его необходимо протестировать. Обновление передается асессорам. Они проверяют, насколько изменилась эффективность и релевантность поисковой выдачи по самым разным запросам. Сравнивают результаты между старым поиском и обновленным. При этом асессоры не знают, какой именно вид поиска они используют (обновленный или же старый). По итогам проверки в Гугл или Яндексе принимается решение — вносить ли обновление в поисковые алгоритмы или же нет.

2. Счастье пользователей

Речь идет о пользовательской оценке, то есть, насколько рядовой пользователь интернета удовлетворен поисковой выдачей. За основу берутся следующие показатели:

  • «как быстро пользователь нашел нужную информацию и покинул поисковой сайт» (об этом показателе 4 года назад говорил создатель Яндекса) и
  • «сколько времени человек провел на найденном сайте» (какие действия выполнял и насколько быстро он покинул его, вернулся ли снова искать ответ на свой вопрос в поисковую систему).

3. Сервисы Гугла и Яндекса

Основной задачей для компаний Google и Яндекс является улучшение поиска. Чем качественнее он будет, тем больше пользователей воспользуется конкретной поисковой системой. Это позволит увеличить трафик и прибыль.

Этому способствуют также сервисы, которые имеются как у Гугла, так и у Яндекса. Для того, чтобы пользоваться сервисами, как правило, необходимо иметь свою почту. Например, для сервисов Гугла понадобится почта gmail.com, а для сервисов Яндекса – почта yandex.ru.

Все сервисы Гугл: https://www.google.ru/about/products/

Все сервисы Яндекса: https://www.yandex.ru/all

Поисковые компании Google и Яндекс будут делать все возможное, чтобы их прибыль росла, а поисковая выдача делала пользователя счастливым. Таким образом, поисковики будут «выдавливать» плохие сайты из поисковой выдачи. Вместо них будут продвигаться полезные и интересные ресурсы, которые принесут счастье рядовому пользователю.

Зачем сражаться за пользователя?

Поисковики Яндекс и Гугл — это не благотворительные организации, хотя, конечно, различные благотворительные акции они могут проводить. Поисковики являются коммерческими организациями со всеми вытекающими последствиями.

На их прибыль существенное влияние оказывает доля рынка, которую занимает Google или Яндекс. Может звучит несколько цинично, но долей рынка для поисковиков являются пользователи. Чем больше пользователей у поисковой системы, тем у нее больше доля рынка.

Если у пользователя браузером по умолчанию является Google Chrome, то его можно отнести к доле рынка Google. Если же у какого-либо пользователя Яндекс.Браузер является браузером по умолчанию, то такого пользователя можно отнести к доле рынка Яндекса.

До недавних пор в рунете доля рынка Яндекса превышала долю рынка Гугла. Однако в последнее время наблюдается обратная тенденция. С чем это связано?

Яндекс уделяет больше внимания коммерциализации в своей работе. Доказательством этому служит большое количество сервисов типа Яндекс.Такси, Яндекс.Мастер и т.п. Другим компаниям, например, в области услуг такси крайне сложно пробиться в ТОП Яндекса, когда там идет реклама, например, только Яндекс.Такси. Такая жесткая коммерциализация приводит к снижению количества пользователей Яндекса, которые уходят куда? В основном, конечно, в Гугл.

Гугл имеет более широкие возможности для маневра, поэтому Гугл идет немного другим путем. Хотя при желании всегда можно найти недостатки в любой работе, а уж тем более в работе поисковиков.

Прошу проголосовать

 Загрузка …

Также по теме статьи

1. Какие бывают поисковые системы и как они работают?

2. Гуглим без Гугла или 5 альтернативных поисковых систем в помощь

3. Можно ли использовать поисковую систему вместо доктора

Асессор — Блог GetGoodRank

Автор: Игорь Быстров

«Ведущий рубрики «Справочник оптимизатора» блога GetGoodRank, копирайтер, блоггер.
Рассматриваем, кто такие асессоры, рассказываем, чем они занимаются. Привлечение асессоров открывает новый этап качественного поиска»

Асессор – специально обученный сотрудник поисковой системы, который занимается оценкой сайтов из поисковой выдачи по отдельным рандомным запросам. Асессоры привлекаются для обучения поискового алгоритма, помогая ему определить качество и полезность ресурса для пользователя с человеческой точки зрения.

Асессор не принимает решение, должен ли сайт отображаться в результатах или нет, но дает понять поисковому механизму, что тот или иной ресурс не соответствует заданным стандартам качества.

Оценка может быть положительной в том случае, если анализируемый сайт действительно соответствует поисковому запросу и несет в себе ценную для пользователей Интернета информацию. Если же сайт является вредоносным или опасным, не соответствует поисковому запросу, наполнен некачественной текстовой и графической информацией, то асессор помечает его как ненужный.

Асессоры анализируют сайты не только с точки зрения пользы и достоверности информации, но также оценивают удобство и простоту использования сайта (юзабилити), доступность функций, качество техподдержки и многие другие факторы, которые учитываются поисковой системой при построении выдачи по запросу пользователя.

Для некоторых сайтов асессор может принять решение об исключении из индекса, делая соответствующую пометку, даже не смотря на то, что он будет удовлетворять всем требованиям и критериям качества поискового робота. В основном это сайты, которые продвигаются «черными» методами оптимизации.

Таким образом, на позиции сайта в поисковой выдаче влияет не только поисковый алгоритм, но и мнение асессора. Это помогает сделать поисковую выборку максимально «чистой» и полезной для пользователя.

Многие из существующих поисковых систем имеют штат сотрудников – асессоров, которые определяют полезность ресурса с человеческой точки зрения. По некоторым данным, число работающих по всему миру асессоров — превышает 150 тысяч сотрудников.

Сегодня служба асессоров обучает искусственный интеллект Яндекса — Матрикснет. Задачи асессоров разных поисковых систем отличаются.

Предлагаем вашему вниманию доклад Ольги Онойко, администратора группы асессоров ПС Яндекс.


Справочник оптимизатора

Апдейт


Апдейт – в переводе с английского означает «обновление». Данный термин широко используе…

07.05.2015


Нет комментариев.


Справочник оптимизатора

Белые методы поисковой оптимизации


Белые методы поисковой оптимизации – это способы продвижения ресурса, которые не против…

25.05.2015


Нет комментариев.

Воздействие асессоров Яндекса на позиции сайтов

Продолжаю публиковать конспекты интересных выступлений с конференций. Сегодня на очереди Тимофей Квачев и его доклад про воздействие асессоров Яндекса на позиции сайтов, с которым он выступил на SEO Conference 2011 в Казани.

Заранее оговоримся, что, так как Яндекс не ведёт политику распространения подобной информации и в открытых источниках данных об этом нет, всё, что будет ниже — основано на наблюдениях, логических выводах и на многочисленных подтверждениях из практики. Выводы эти сделаны при работе с большим количеством сайтов.

Кто такие асессоры

С тех пор, как впервые зашла речь про асессоров, их личности обросли множеством различных мифов. Им приписывается множество различных функций. Если поискать подобную информацию в интернете, то зачастую можно наткнуться на какую-то шпионскую романтику и конспирологию. Есть некая инструкция, которая бродит по интернету и якобы является инструкцией асессора. Причём, как в лучших фильмах про шпионов она выложена в плохом качестве:

Безусловно, есть люди, которые хотят получить инструкцию асессора и готовы дать за неё очень много денег (от 1 000 до 10 000 долларов). Причём, по запросу «куплю инструкцию асессора» в Яндексе, прямо как в Яндекс Маркете — целые предложения по поводу того, за сколько их готовы купить (в складчину и поодиночке). Есть даже некая фотка якобы админки асессора:

Но мы-то не знаем, как она выглядит. Может фотография и настоящая :).

Существует мнение, что основная задача асессора — сравнить соответствие документа запросу и наоборот. То есть: насколько сайт соответствует тому запросу, по которому вышел.

Существует мнение, что асессоров есть некое количество, которого, тем не менее, недостаточно, чтобы просмотреть всю выдачу по всем запросам на достаточную глубину. Поэтому предполагают, что просматриваются 50 основных тематик примерно по 150 000 запросов не глубже 20 позиций.

Считается, что асессор своим решением может как-то навредить сайту, может быть даже исключить его из выдачи. Но это всё ещё лишь мнения, а не факты.

Есть некоторые абстрактные метрики, которыми как бы пользуются асессоры, признавая сайт либо хорошим, либо не очень. Их целый список. Самый лучший — это витальный, а самый плохой — спам.

Можно ли повлиять на асессора

Для начала подумаем: для чего нам это и нужно ли нам это? Например, Александр Садовский (Яндекс, руководитель отдела веб-поиска) из компании Яндекс, в одном из своих интервью упоминал, что асессоры при оценке сайта, не столько смотрят на выдачу Яндекса, но так же анализируют выдачу Mail и Google и рассчитывают на свой собственный кругозор.

В другом интервью Илья Сегалович (один из основателей Яндекса) утверждал, что оценка асессоров, это, безусловно, очень важный фактор, но совсем не единственный источник пополнения информации о качестве поиска и Яндекс использует множество других, как автоматических, так и ручных методик оценки.

Таким образом, если мы захотим прямо повлиять на асессора, возможно, мы не добьёмся конечного результата, а именно — сайта в топе. Но, раз уж мы ставим перед собой такую задачу, давайте подумаем, кто такие асессоры? Ведь если мы поймём, кто они такие, то и поймём, как с ними работать и как на них влиять.

Это злые гении? А может быть это какие-то хитрые математики, которые сидят и корпят над нашими сайтами, думая, как бы их заминусовать.

Давайте подумаем, ведь, по большому счёту, асессор (если обратиться к Википедии) — это просто некий аттестатор, участник системы, который оценивает результат в соответствии с эталоном.

Существуют ли асессоры в реальной жизни или это просто один из мифов Яндекса? Если открыть Мой круг, то можно увидеть довольно много людей, у которых стоит статус: асессор в Яндексе, сотрудник службы качества, администратор группы асессоров. То есть, такие люди вроде как есть. Но кто они?

Например, вакансия асессора в Яндексе. Если мы внимательно почитаем, то обнаружим, что в отличие от большинства других вакансий Яндекса, эта вакансия очень не специализированная. Всё что нужно, это, например:

  • умение анализировать;
  • готовность к рутинной работе;
  • умение работать с большими объемами информации;
  • ориентированность на постоянную и долгосрочную работу;
  • аккуратность и внимательность;
  • умение легко ориентироваться в интернете;

То есть, весьма абстрактные требования. Желательно высшее образование, но не обязательно.

Как правило, в Яндексе на вакансиях стоят сложные вопросы в конце формы для отправки резюме, дабы проверить, как хорошо человек разбирается в вопросе. Вот, например, один из таких вопросов для асессора: «Нажатием на какие клавиши в Microsoft Word можно превратить буквы выделенного фрагмента текста из прописных в строчные?».

Вернувшись к профилям Моего круга, можно без труда увидеть, что ранее асессор мог быть лаборантом, продавцом-консультантом, администратором йога-студии или преподавателем теоретических музыкальных дисциплин.

Какой вывод из этого можно сделать? Перед нами стоят не какие-то злобные гении, а просто обычные люди, некая репрезентативная выборка простых пользователей интернета, которые немного разбираются в интернете. А значит, поиск какой-то священной формулы обречён на провал. Нужно просто сделать так, чтобы обычным людям ваш сайт нравился. В принципе это то же самое, к чему часто призывает Яндекс: делать сайты для людей.

В результате отметается романтика и конспирология, а остаётся лишь простая человеческая модерация. Если есть модерация — есть признаки влияния асессоров на сайт (резкие падения, нелинейные события, которые не укладываются в рамки алгоритма, необоснованные результаты, непропорциональная динамика роста). То есть, всё это указывает, что на сайт влияет нечто, не связанное с изменением ссылочной массы или внутреннего состояния сайта. Как же это использовать?

Успешная оптимизация — это понимание общих принципов алгоритмов поисковых систем (внешняя и внутренняя поисковая оптимизация) и понимание правил игры модераторов (как и почему они оценивают сайты). Тут нужно сделать ремарку по поводу того, что отношение Яндекса к оглашению тех или иных правил игры весьма своеобразно. Думаю, все знают пункт 3.5 поисковой лицензии Яндекса, который описывает поисковый спам. Если убрать всё лишнее, то можно узнать, что поисковый спам, это некие вещи, о которых Яндекс не сообщает, полного их списка не предоставляет, исключить может за это любой сайт, а почему исключит — не говорит. Примерно то же самое и с правилами модерации асессоров. Как же играть по правилам, если их не знаешь?

Правила игры

На самом деле, для того чтобы узнать правила игры, есть довольно простой путь. Нужно просто попробовать поискать схожие сервисы Яндекса, где правила более или менее понятны. И сразу же можно обнаружить здесь Яндекс Каталог. Он похож на поиск очень по многим параметрам: правила определения хороших сайтов, декларации, политика, модерация, взаимное влияние. Думаю, никто не будет отрицать того факта, что добавление сайта в ЯК даёт очень мощный толчок в плане поискового продвижения.

В итоге, совпадение во взглядах даёт совпадение в решениях. Никто не утверждает, что инструкции асессоров в точности совпадают с инструкциями модераторов ЯКа. Но, в 99% случаев, если сайт принят в Каталог, то проблем с асессорами уже не будет. И, как правило, если есть явные проблемы с асессорами, самый простой путь решить их — попытаться добавить сайт в Яндекс Каталог. И диалог с модераторами Каталога позволит установить и устранить причину, по которой возникают проблемы с асессорами.

Что влияет на решение модераторов ЯКа и асессоров:

  1. Старость. Если с первого взгляда видно, что сайт устарел (в новостях давнишние даты), а для сайта данной тематики важна актуальность (например, курсы валют), он будет минусоваться.
  2. Отсутствие контента. Если на странице нет контента или он не релевантен запросу, то пользователь, придя на такой сайт, не получит никакой полезной информации. Следовательно, такой сайт будет заминусован.
  3. Контактная информация. Пустые, спрятанные либо некорректно заполненные контакты.
  4. Разделы в разработке. Большое количество значимых для сайта разделов, находящихся в разработке, негативно влияют на его судьбу (например, раздел оплаты товаров или контакты).
  5. Отсутствие цен. Особенно актуально для коммерческих сайтов.
  6. Форматирование текста. По этому пункту можно почитать статью про основы внутренней оптимизации сайтов. Сюда же можно отнести некорректную вёрстку, например, невидимые пункты всплывающего меню.
  7. Необоснованное отсутствие контента. Бывает и такое, что некоторые сайты, в угоду тематике приносят в жертву контент. Это так же негативно влияет на позиции, особенно если в топе по этой тематике уже сидят сайты с контентом.
  8. Техническая часть. Недопустимо, чтобы ссылки, особенно из меню сайта вели на страницы, отдающие 404 ошибку. Для сайтов коммерческой тематики так же вызывают негативные последствия долгие ответы от сайта.
  9. Переоптимизация. Зачастую оптимизаторы сильно увлекаются ключевыми словами и форматированием текста. В результате получается, что нормальный человек просто не сможет прочитать текст и понять его смысл.
  10. Лэндинг-страница. Если модераторы ЯКа смотря сайт в целом, то асессоры уделяют повышенное внимание именно посадочной странице (той странице, на которую они попадают по запросу). Важно, чтобы лэндинг-страница была максимально релевантна запросу, по которому посетители находят её в поиске.
  11. Современность. Фактор этот появился недавно. Раньше его не замечали. Есть сайты, которые стали откровенно унылы исходя из временного фактора, например: пустое место на странице (слева или справа) из-за перехода на широкоформатные мониторы.
  12. Тематичность. При переходе на сайт пользователь сразу же должен понимать, о чём он.
  13. Информативность. Если у вас есть интернет-магазин, то не стесняйтесь подробно написать про оплату, доставку, условия покупки. При необходимости должен быть калькулятор, который поможет покупателю рассчитать необходимый объём товара. Сайт должен максимально конкретно отвечать на вопрос пользователя, чтобы у него не появлялось желание продолжить поиск, закрыв ваш сайт.
  14. Уникальность. Сайт должен предоставлять пользователю такие товары, услуги, сервис или информацию, которых нет у конкурентов.

В заключение можно посоветовать такую проверку. Если есть предположение, что имеются какие-то проблемы с асессорами, поступите следующим образом. Попытайтесь добавить сайт в Яндекс Каталог. Не обязательно за это платить. Просто добейтесь того, чтобы модератор Каталога ответил вам.

Так же помните, что асессоры — это обычные люди. Поэтому можете попросить оценить сайт своих родственников или друзей и на основе их мнений вносить определённые корректировки.

ПОНРАВИЛСЯ ПОСТ? ПОДЕЛИСЬ ССЫЛКОЙ С ДРУЗЬЯМИ!

СТАТЬИ ИЗ РУБРИКИ:

Тематика: SEM, Яндекс

Дата публикации: 08.10.2011

(некоторые ответы перед публикацией проверяются модератором)

Наше последнее обновление интеллектуального поиска, Vega — блог компании Яндекс

С тех пор, как мы запустили нашу поисковую систему в 1997 году, мы стремились предоставить людям наиболее актуальную для них информацию. За прошедшие годы мы обновили поиск Яндекса, добавив интеллектуальные функции и более информативные результаты, что максимально упростило для наших пользователей навигацию в огромном объеме информации в Интернете. Сегодня мы рады сообщить о последних достижениях крупнейшей поисковой системы России. Обновление Vega вносит 1500 улучшений в поиск Яндекса, которые помогают нашим 50 миллионам ежедневных поисковых пользователей в России находить лучшие решения для своих запросов.Наиболее значительные улучшения от Vega сочетают машинное обучение с человеческими знаниями и удвоение нашего поискового индекса, чтобы предоставлять пользователям более качественные результаты с молниеносной скоростью, и мы рады поделиться более подробной информацией об основных обновлениях в сегодняшнем объявлении.

С Vega наша поисковая команда также внесла уникальный человеческий фактор в поисковые запросы наших пользователей. Мы обновили алгоритм ранжирования с помощью нейронных сетей, обученных на данных, предоставленных настоящими экспертами в нескольких областях, предоставляя пользователям еще более качественные решения для их поиска.Мы также соединяем людей с ответами на их запросы от квалифицированных экспертов с помощью нашей новой службы вопросов и ответов Яндекс.Q.

Обновления Vega не только делают поиск на Яндексе умнее, но и позволяют выполнять поиск в большей части Интернета. Наш поисковый индекс теперь вдвое больше благодаря умному методу группировки похожих веб-страниц в «кластеры». Мы также теперь представляем эти более интеллектуальные результаты с минимальным количеством кликов благодаря улучшениям, которые помогут быстрее доставлять информацию пользователям, например технологии предварительной обработки для мобильных пользователей.

«Наше новое обновление поиска сочетает в себе наши новейшие технологии с человеческими знаниями, — говорит Андрей Стыскин, руководитель службы поиска Яндекса. — Наша цель в Яндексе — помочь потребителям и компаниям лучше ориентироваться в мире онлайн и офлайн. С этим новым обновлением поиска , пользователи Рунета помогают нам в этом. Предоставляя свои знания, эксперты улучшают наши алгоритмы и помогают нашим пользователям Поиска, число которых продолжает расти; за последний год доля Яндекса в поиске на Android в России выросла на 4.С 8% до 54,7% в начале декабря ».

Машинное обучение с индивидуальным подходом

Мы используем машинное обучение в нашей поисковой системе уже десять лет, и в этом году исполняется десятый год с момента добавления нашего алгоритма MatrixNet в поиск Яндекса. Машинное обучение остается важной частью нашей поисковой системы, но наличие человеческого фактора также жизненно важно; в конце концов, кто лучше нас понимает, что мы ищем в Интернете? Люди, или «оценщики», уже давно помогают обучать наши платформы машинного обучения через нашу краудсорсинговую платформу Яндекс.Толока. Используя наши рекомендации по оценке результатов поиска, оценщики в Яндекс.Толоке выполняют задачи, которые помогают нам находить наиболее релевантные результаты по конкретным запросам.

В Vega мы обновили наш алгоритм ранжирования, добавив в него систему, в которой специалисты в соответствующих областях теперь оценивают работу этих оценщиков. Профессионалы, оценивающие оценщиков, варьируются от ИТ-администраторов по запросам данных до гидрологов по поиску рек. Эксперты-оценщики используют более сотни критериев для оценки работы оценщиков, и наши нейронные сети глубокого обучения затем получают эти экспертные оценки.Обучая наши алгоритмы машинного обучения с помощью экспертных оценок, наша поисковая система учится ранжировать релевантную информацию выше в результатах благодаря работе высококвалифицированной группы людей.

Помимо повышения качества результатов поиска с помощью краудсорсинга экспертов, мы также интегрируем ответы на запросы реальных экспертов прямо на нашей странице результатов. Яндекс.Q — это сервис, объединяющий наш инструмент Яндекс.Эксперты, представленный в прошлогоднем обновлении Andromeda, с контентом популярной российской службы вопросов и ответов TheQuestion, которую мы приобрели ранее в этом году.После семимесячного периода тестирования мы запускаем Яндекс.Q для всех пользователей поисковой системы. Яндекс.Q предлагает более миллиона ответов от экспертов из самых разных областей. Пользователи могут задавать свои вопросы в поисковой строке Яндекс.ру, а ответы экспертов будут отображаться вверху страницы результатов. Например, кто-то, ищущий информацию об Александре Пушкине, может увидеть ответы литературного критика, или поиск по поведению тюленей приведет к ответу главы Национального музея Арктики и Антарктики.

На вопросы о Coca-Cola, Сократе и итальянском Возрождении отвечают специалисты в этих областях.

Улучшение нашего поискового индекса с помощью кластеров

Каждое из наших обновлений предоставляет нашей поисковой системе интеллектуальные инструменты для понимания сложных запросов и поиска релевантных результатов. С нашим обновлением в Палехе 2016 года поисковые системы Яндекса начали использовать нейронные сети для более эффективной обработки длинных ключевых слов, которые представляют собой узкоспециализированные запросы, состоящие из нескольких слов. В нашем обновлении Korolyov добавлена ​​возможность поиска по целым веб-страницам, а не только по заголовкам, и теперь можно лучше понимать смысл запросов.В прошлогоднем обновлении Andromeda страница результатов была дополнена инструментами для оценки качества результата и «быстрыми ответами», на которых представлены ответы экспертов по различным темам.

Vega основывается на наших предыдущих обновлениях с интеллектуальными улучшениями в том, как наша поисковая система обрабатывает запросы. Наши алгоритмы используют нейронные сети, чтобы теперь группировать страницы в кластеры на основе их сходства. Когда пользователь вводит запрос, поиск выполняется среди наиболее релевантного кластера страниц, а не всего нашего индекса.Поскольку использование кластеров высвобождает больше вычислительных мощностей для нашей поисковой системы, мы удвоили размер нашего индекса без снижения скорости поиска. Мы также можем лучше связывать пользователей с результатами по нечастым запросам, поскольку наши поисковые алгоритмы находят редкие веб-страницы для кластеров наряду с часто посещаемыми сайтами.

На основе нашей метрики качества поиска, которая учитывает, среди прочего, релевантность документа и надежность источника, производительность Vega в три раза лучше, чем у Королева, и в шесть раз лучше, чем у Палеха.

Умные результаты с молниеносной скоростью

Обновления Vega не только быстрее обрабатывают поисковые запросы, но и доставляют людям информацию быстрее с минимальным количеством кликов. С марта мобильные пользователи Яндекса на Android осуществляют поиск с использованием технологии предварительного рендеринга, которая предсказывает запрос пользователя и выбирает релевантные результаты по мере того, как пользователь вводит текст.

Благодаря этой функции теперь миллионы пользователей могут мгновенно находить информацию, которую они ищут, на своих мобильных устройствах.Количество запросов с мгновенным результатом выросло более чем на 20% за последний год, и в ближайшее время мы планируем развернуть предварительную проверку для большего числа наших мобильных пользователей.

Мы также сделали нашу технологию Turbo общедоступной, чтобы поставщики контента могли создавать быстро загружаемые версии своих сайтов. Веб-сайты с турбонаддувом — это облегченные версии полноценных веб-сайтов, которые загружаются примерно в 15 раз быстрее, чем обычные веб-сайты. Турбо-сайты помогают нам соединять людей с информацией независимо от того, как они выходят в Интернет, поскольку сайты с быстрой загрузкой особенно полезны для медленных подключений и мобильных сайтов.По мере того как контент-провайдеры расширяют Turbo для большего количества результатов поиска, наши пользователи видят релевантные решения для своих запросов быстрее, чем когда-либо. Пользователи теперь загружают 75% легких сайтов Turbo менее чем за секунду.

Турбо-страницы загружаются значительно быстрее, чем стандартные мобильные сайты, а обновления, сделанные в 2019 году, означают, что Турбо-сайты работают еще быстрее.

Наше обновление Vega продолжает делать Яндекс Поиск самым умным и быстрым способом для российских пользователей Интернета получать самую актуальную информацию на паутина.Объединив наш опыт в машинном обучении со знаниями настоящих экспертов, наша поисковая система объединяет лучшее из искусственного и человеческого интеллекта, чтобы предоставлять людям самую актуальную информацию. Попробуйте сегодня на Яндекс.ру одни из наших лучших поисковых функций!

Улучшение краудсорсинга мультимодальных данных: меньше экспертов, больше слоев! | by VK Team

Здравствуйте, мы исследователи из лаборатории машинного обучения Университета ИТМО и команды CoreML в ВК. Автоматическая классификация постов — важная задача для ВКонтакте.Он используется не только для создания тематических каналов для пользователей, но и для выявления неприемлемого содержания. К решению этой задачи привлекаются оценщики. Стоимость их использования может быть значительно снижена за счет использования таких методов машинного обучения, как активное обучение. В этой статье мы обсудим использование активного обучения при классификации мультимодальных данных. Мы рассмотрим общие принципы и методы активного обучения, детали реализации и использования применительно к описанной задаче, а также идеи, полученные в ходе нашего исследования.

Активное обучение — это часть машинного обучения с учителем. Модель ученика взаимодействует с моделью учителя, запрашивая только обучающие данные, которые позволят модели учиться лучше и, как следствие, быстрее.

Этот метод может быть полезен компаниям, которые нанимают оценщиков для маркировки данных (например, с помощью сервисов Amazon Mechanical Turk и Яндекс.Толока) и ищут способы удешевить этот процесс. Например, ReCAPTCHA бесплатно получает аннотацию для Google Street View, предлагая пользователям выбирать фотографии, на которых, скажем, присутствуют светофоры.Вместо этого метода можно использовать активное обучение.

Некоторые компании уже используют и говорят об активном обучении для оптимизации краудсорсинга.

Одна из них — компания Voyage, специализирующаяся на беспилотных автомобилях. В своей статье они обсудили, как можно использовать активное обучение, и пришли к выводу, что это не только позволяет сэкономить на разметке данных, но и увеличивает максимальную точность модели. Их подход к активному обучению очень похож на тот, который мы использовали в нашем исследовании.

Amazon описывает структуру DALC (Deep Active Learning from Target Crowds), в которой исследуется концепция активного обучения с точки зрения нейронных сетей, байесовского подхода и краудсорсинга. В исследовании также используется метод отсева по Монте-Карло, который также использовался в нашем исследовании. Они также ввели концепцию «зашумленной аннотации»: хотя в большинстве исследований активного обучения предполагается, что оценщик «говорит правду и ничего, кроме правды», там предполагается, что может присутствовать некоторый фактор человеческой ошибки.

Еще одно исследование Amazon можно найти здесь. Он имеет дело с концепцией иерархической маркировки, когда оценщик вместо стандартной одноклассной маркировки объекта должен дать двоичный ответ (да / нет) о принадлежности объекта к определенному суперклассу / классу в иерархии. В этом случае бинарные вопросы выбираются самим алгоритмом вместе с объектом для разметки. Таким образом, окончательная разметка может быть неполной (вместо последнего класса можно определить категорию объекта), но этого достаточно для обучения.

Достаточно поговорить о том, как можно использовать активное обучение. Давайте продолжим и определим это 🙂

Существует несколько основных подходов или сценариев активного обучения. В нашем исследовании модель взаимодействует с учителем в сценарии выборки на основе пула.

Рис. 1. Общая схема сценариев активного обучения на основе пула

Суть этого сценария заключается в следующем: предположим, что есть определенное количество размеченных данных, на которых модель уже обучена (мы называем это пассивной фазой).Позже, используя эту модель в ее текущем состоянии, можно будет оценить немаркированные данные о ее «полезности» для обучения.

«Наиболее полезные» данные отправляются эксперту для маркировки, а затем возвращаются для дальнейшего обучения модели (это активная фаза). При этом данные, отправленные на маркировку, называются запросом. В сценарии на основе пула запросы группируются в пул. Методы выбора объектов пула для отправки запроса эксперту или, другими словами, методы оценки «полезности» данных, называются стратегиями активного обучения.Далее мы описываем проблему и набор данных, а также рассматриваем конкретные стратегии активного обучения на примере рассматриваемой задачи.

Как вы помните, наша общая задача — это классификация постов ВКонтакте, где каждый пост представляет собой мультимодальный объект, состоящий из изображения и текста. Предоставленный набор данных включает ~ 250 тысяч вложений сообщений, где каждый объект (сообщение) дополнительно содержит (1) векторное представление (встраивание) изображения сообщения и (2) векторное представление текста и помечен одним из 50 классов. (темы сообщений).Стоит отметить, что набор данных сильно несбалансирован (см. Рис. 2).

Рис. 2 — Гистограмма распределения классов

Важным шагом в решении любой задачи активного обучения, как и любой другой задачи машинного обучения в целом, является выбор оптимальной базовой модели.

Одним из ключевых требований к модели является отсутствие переобучения, поскольку активное обучение подразумевает постоянную тонкую настройку модели. Если модель переоборудована, независимо от того, как мы выбираем новые данные, точность существенно не увеличится или даже может снизиться.Конечно, можно обучать модель с нуля на каждом этапе активной фазы обучения, используя раннюю остановку, чтобы избежать переобучения. Однако из-за этого эксперименты затянутся слишком долго, поскольку вместо одной эпохи точной настройки потребуются десятки эпох.

В этой статье мы экспериментально исследовали различные конфигурации базовых глубоких нейронных сетей. Мы испробовали следующие методы и архитектуры: остаточные соединения, блоки шоссе и кодеры. Мы также рассмотрели следующие методы, основанные на слиянии, чтобы учесть мультимодальность данных: внимание к мультимодальным данным и слияние матриц.Некоторые методы учета мультимодальности данных, такие как выравнивание и обучение на основе различных представлений, не могли быть применены к этой задаче из-за заданного набора данных, который был предоставлен нам в виде предварительно обученных векторов встраивания.

Однако, поскольку предметом данной статьи является не сама классификация мультимодальных данных, а активное обучение, мы опускаем подробное описание процесса выбора модели и описываем только конечный результат.

Критерием выбора окончательной модели была максимальная точность валидации.Поэтому в качестве классификатора была выбрана следующая архитектура (рис. 3):

Рис. 3. Аналогичная базовая архитектура для классификации

В этой модели выполняется позднее слияние модальностей. Идея в том, что вложения картинки и текста сначала обрабатываются отдельно (картинка кодируется), а уже потом объединяются. Такой подход позволяет уменьшить размер нейронной сети, которая сначала извлекает необходимую информацию из каждой модальности, а затем объединяет их для окончательного прогноза.Кроме того, три заголовка модели (только текст, только изображение, смешанная) дополнительно заставляют сеть обучать веса, извлекая как можно больше релевантной информации по каждой модальности для классификации.

Красный и синий блоки на рис. 3 имеют следующий вид:

Рис. 4. Описание основных блоков базовой модели нейронной сети для классификации

Изначально была реализована модель только с одним выходом. Хотя мы планировали использовать дополнительные выходные данные для результатов различных стратегий активного обучения, оказалось, что выбранная архитектура показывает большую точность, чем аналогичная модель с одним выходом для двух модальностей.

Одним из важных вопросов, связанных с выбранной архитектурой, является правильное вычисление функции потерь. Возможные варианты: (1) простое покомпонентное суммирование элементов функции потерь от разных головок, (2) взвешенная функция потерь с ручным (например, с использованием поиска по сетке) взвешиванием компонентов головок, (3) взвешенным функция потерь с компонентами настроенных головок. Мы выбрали третий вариант и, вдохновленные статьей на тему байесовского глубокого обучения с учетом алеаторической неопределенности модели, которая возникает из-за зашумленности данных, выбрали следующую функцию потерь:

, где L₁ , L₂, L₃ — это функции потерь различных выходов модели, в нашем случае представляющие категориальную кросс-энтропию, а σ₁, σ₂, σ₃ — настроенные параметры, представляющие дисперсию и шум данных.

После выбора базовой модели мы реализовали и оценили различные стратегии активного обучения. Согласно сценарию выборки на основе пула, использовался следующий экспериментальный конвейер:

  1. Выборка ряда случайных объектов из обучающего набора данных.
  2. Обучите модель на этих объектах.
  3. Сделайте запрос, чтобы выбрать новый пул данных из оставшегося обучающего набора на основе выбранной стратегии и добавить их к помеченным данным.
  4. Выполните точную настройку модели.
  5. Получить значения метрик (точность проверки).
  6. Повторяйте шаги 3–5, пока не будет достигнут определенный критерий (например, пока не будет исчерпан весь набор обучающих данных).

Первые два шага соответствуют фазе пассивной тренировки, а шаги 3–6 соответствуют активной фазе.

Помимо самой стратегии, в этом конвейере важны два следующих параметра:

  1. Размер исходного набора данных , на котором модель обучается во время пассивной фазы.Если этот параметр слишком мал, будет сложно оценить эффект активного обучения по сравнению с точной настройкой на случайно выбранных данных, поскольку точность будет быстро увеличиваться в обоих случаях. Если размер начального помеченного набора слишком велик, модель уже будет хорошо обучена в пассивной фазе, а повышение точности в активной фазе будет слабым независимо от метода обучения. В нашем случае оптимальный размер исходного набора данных — 2000.
  2. Размер запроса к оценщику.Хотя объекты можно отправлять оценщику по одному, поскольку первый объект в запросе максимизирует критерий активной стратегии обучения (при сортировке объектов в порядке убывания соответствия критерию), остальные объекты в запросе могут теряют свою полезность после тренировки на этом объекте. Если мы будем выбирать объекты по одному, это также значительно увеличит продолжительность эксперимента и усложнит исследование в целом. Поэтому мы решили использовать в запросе 20 объектов.

Кроме того, количество шагов в активной фазе обучения можно изменять. Очевидно, что с увеличением количества шагов точность модели также будет возрастать. Однако, поскольку основной целью проекта было не достижение максимально возможной точности классификации, а изучение эффективности активного обучения, мы использовали фиксированное количество шагов, равное 100 или 200.

Теперь, когда мы описали, как и На чем тестировать активную стратегию обучения, перейдем к ее реализации.

В качестве основы рассмотрим, как модель обучается со случайным выбором данных (пассивное обучение) (рис. 5).

Рис. 5. График пассивного обучения базовых моделей. Приведен результат пяти прогонов с доверительным интервалом.

Для надежности этот и все последующие эксперименты были выполнены пять раз с разными случайными состояниями, а графики показывают среднюю точность запусков с доверительным интервалом.

Здесь у нас есть первое представление об активном обучении для нашей задачи.Как видите, кривая обучения снижается через определенные промежутки времени, хотя интуитивно может показаться, что точность должна монотонно расти.

Устранить это помогла настройка параметра размера пакета. Из-за большого количества классов (50) по умолчанию было выбрано 512. Однако оказалось, что с конечным размером помеченного набора данных и фиксированным размером пакета последний пакет может быть чрезвычайно маленьким, что внесло шум в значение градиента отрицательно сказалось и на обучении всей модели.Были протестированы следующие решения этой проблемы: (1) повышающая дискретизация данных, чтобы пакеты имели одинаковую длину, (2) увеличение количества обучающих эпох, чтобы влияние небольшой партии распространялось на последующие пакеты. Решение, которое сработало для нас, заключалось в использовании адаптивного размера пакета: на каждом этапе активной фазы обучения он рассчитывался по формуле (1).

, где b — исходный размер пакета, а n — текущий размер помеченного набора данных.

Адаптивный подход помог сгладить кривую точности, чтобы получить монотонно возрастающий график (рис. 6).

Рис. 6. Сравнение использования фиксированного размера пакета параметров (пассивный на диаграмме) и адаптивного (пассивный + гибкий на диаграмме)

Примечание: графики даны для модели с одним выходом, но без потери общности, адаптивный размер партии можно применить к модели с тремя выходами, которая использовалась в дальнейших экспериментах.

Теперь перейдем непосредственно к изучению активных методов обучения для нашей задачи.

В качестве первого метода были реализованы простейшие стратегии активного обучения на основе обзорной статьи, а именно методы выборки неопределенности. Как следует из названия, стратегия основана на запросе, который содержит объекты, для которых модель является наиболее неопределенной в своих прогнозах.

В этой статье представлены три варианта расчета неопределенности:

  1. Наименее надежный отбор проб.

В этой стратегии объект передается эксперту для маркировки, наиболее вероятный прогнозируемый класс, для которого модель имеет наименьшее доверие:

, где ŷ — это класс, который с наибольшей вероятностью будет выбран моделью, y — один из возможных классов, x — один из объектов набора данных, а

— объект, выбранный с использованием стратегии наименьшей достоверности.

Эту меру можно понять следующим образом. Допустим, функция потерь этого объекта выглядит как 1-. В этом случае модель выбирает объект, на котором она получит худшую оценку значения функции потерь. Затем он обучается на нем, уменьшая значение функции потерь.

Однако у этого метода есть недостаток. Например, для одного объекта модель получила следующие три распределения классов: {0,5; 0,49; 0,01}, а с другой стороны, {0,49; 0,255; 0,255}.В этом случае алгоритм выберет второй объект, поскольку его наиболее вероятное предсказание (0,49) меньше, чем наиболее вероятное предсказание первого объекта (0,5). Хотя интуитивно понятно, что первый объект имеет больший информационный прирост для обучения, поскольку вероятности первого и второго классов в предсказании почти равны. Учитывая такие ситуации, алгоритм требует доработки.

2. Выборка маржи

В соответствии с этим типом стратегии алгоритм будет отправлять на маркировку объекты, для которых два класса имеют наибольшую вероятность, и эти вероятности близки:

, где ŷ₁ — наиболее вероятный класс для объекта x , а ŷ₂ — второй наиболее вероятный класс.

С точки зрения получения информации этот метод более выгоден, так как алгоритм учитывает вдвое больше информации о вероятностном распределении классов. Однако метод также не идеален, поскольку не учитываются распределения всех остальных классов. Например, популярный набор данных MNIST по классификации рукописных цифр содержит десять классов, поэтому учитывается только 1/5 информации о распределении. Метод выборки энтропии призван преодолеть этот недостаток.

3. Выборка энтропии

В стратегии этого типа для измерения неопределенности модели используется значение энтропии:

, где yᵢ — вероятность i -го класса для классифицированного объекта x по модели.

Энтропийный метод удобен тем, что он обобщает два описанных выше метода, выбирая как объекты, для которых наиболее вероятное предсказание менее важно, чем прогнозы для других объектов, так и те, для которых два наиболее вероятных класса имеют аналогичные значения.

Согласно обзорной статье, каждый из перечисленных методов учитывает больше информации, чем предыдущий; поэтому изначально ожидалось, что метод выборки энтропии будет наиболее эффективным.

Однако практические результаты для нашей задачи показали расхождение с теоретическими предположениями (рис. 7).

Роль оценщиков поисковых систем в формировании результатов поиска / Sudo Null IT News

Наш взгляд на оценщиков. Для профессионалов ничего нового, новичкам может пригодиться.

Ни для кого не секрет, что человеческий фактор уже давно играет большую роль в ранжировании сайтов. Держать штат «ручных модераторов» дорого и нетехнологично. С другой стороны, поисковики — это уже давно не просто технологии, а бизнесы, причем крупные (Яндекс — крупнейшая интернет-компания в Старом Свете).

Итак, в этой статье мы поговорим об оценщиках поисковых систем и их роли в формировании результатов поиска.

Главное, что владельцы коммерческих сайтов должны знать об оценщиках, это то, что оценщики не могут напрямую влиять на проблему — «понижать» или «повышать» сайты в результатах.Оценщики, скорее, действуют как некие «маяки», которые подают сигналы поисковым алгоритмам. В частности, новый алгоритм Яндекс ранжирования сайтов в Московском регионе, который был представлен 20 ноября 2011 года, оценивает такие параметры, как доверие к сайту и дизайн сайта. Алгоритмический расчет этих параметров очень сложен (к тому же можно вычислить с большой погрешностью), и здесь коллективная оценка оценки может дать качественный сигнал поиску, который будет учтен при ранжировании, но не станет определяющим фактором.

Другими словами, оценщики Яндекса — это просто квалифицированные зарплатные пользователи, благодаря которым поисковые системы получают сигналы по субъективным критериям оценки сайта.

Инструкция оценщика Яндекс

В Интернете можно найти документ, который выдается по поручению оценщика Яндекс.

Неважно, настоящая она или фальшивая. Но суть задач оценщика в этом документе в целом отображена правильно. Эксперты оценивают коммерческие сайты по шкале оценок — от наиболее релевантных результатов до спама.Более подробно обо всех существующих категориях:

«Vital Page» часто является единственно правильным ответом. Следует понимать, что далеко не на каждый запрос есть «жизненный» ответ. Как правило, «жизненно важные» страницы могут быть для запросов в виде названия компании. Очень часто «жизненно важные» ответы выдаются не по одной ссылке на сайт на странице выдачи, а по большому количеству ссылок.

Но что интересно. По одному из запросов в виде продвигаемого бренда, продавец не был в верхней части списка (наш клиент).Мы сделали запрос в поддержку Яндекса и получили буквально такой ответ: «Что касается жизнеспособности, мы не считаем, что для этого запроса должен быть жизненно важный сайт». В принципе, все оказалось логично. По запросу один из дилеров вендора был в топе, с точки зрения логики он имел право там находиться, соответственно «жизненно важные» страницы могли даже не быть для запросов по брендам, если дилеров вендора достаточно. в Интернете, на сайтах которого есть вся необходимая и полная информация о бренде.

«Полезная страница» — страница, на которой можно найти ответ на заданный вопрос, полезную информацию, имеющую отношение к запросу.

«Соответствующая страница +» — страница, полностью отвечающая запросу.

«Соответствует странице» — страница, частично удовлетворяющая заданному запросу.

«Нерелевантная страница» — страница, не соответствующая запросу.

«Спам» — страница имеет признаки поискового спама, дорвея.

«Не об этой странице» — Эта категория очень интересна.Для того, чтобы разобраться в этом, нужно немного углубиться в принципы текстового ранжирования сайтов с помощью поисковых алгоритмов. Текстовое ранжирование — это, по сути, поисковая попытка понять, «о чем эта страница?» Понимание этого — полшага для определения того, какие запросы (высокие или низкие) ранжируют сайт. Как алгоритм поиска понимает, о чем страница? Очевидно, есть некоторый семантический анализ документа и по маркерам странице присваивается принадлежность к определенной теме.Примерно на одинаковых основаниях свойство всего сайта закрепляется за определенной темой. Очевидно, алгоритм, работающий по этому принципу, может ошибаться. Обнаружив в тексте случайные смысловые конструкции, относящиеся к определенной теме, поисковая машина присваивает эту тему странице,

Как влиять на оценщиков и стоит ли на них влиять?

В первую очередь приходит в голову мысль: можно ли повлиять на оценщика, чтобы он принял решение в пользу вашего сайта? На самом деле вопрос не такой «нелепый», как может показаться на первый взгляд, и ответ на него не так прост, как кажется.Давайте разберемся.

Во-первых, совершенно бессмысленно влиять на одного конкретного оценщика. Оценщик не контролирует вопрос напрямую. Сигналы, которые создают оценщики, обрабатываются поисковым роботом на основе алгоритмов машинного обучения. Оценщики, по сути, являются навигаторами, которые помогают в океане шума уловить правильный вектор движения. Для поисковых алгоритмов важна не одна конкретная оценка конкретного оценщика, а коллективная оценка большого количества оценщиков.Поэтому оценщиков достаточно много (правда, все они внештатные сотрудники, за исключением руководителей направления). Никто точно не знает, сколько оценщиков в Яндексе. Но по некоторым данным, летом 2010 г. их было около 120, в 2011 г. — около 200, зимой 2012 г. — более 250. По большому счету, увеличивать количество оценщиков дальше нет смысла. На наш взгляд, дальнейшее развитие оценок оценщиков будет происходить не за счет найма и обучения сотрудников, а за счет использования данных анализа поведенческих факторов некоторых качественных пользовательских выборок.

А пока мы должны научиться влиять на существующих экспертов. Мы должны это сделать. Как? Есть только один ответ. Необходимо повысить пользовательские характеристики сайта, сделать его полезным и нужным для вашей целевой аудитории. Также смотрите новости о том, что важно для Яндекса с точки зрения повышения уровня доверия со стороны оценщиков.

Автор: Денис Савельев, генеральный директор Texterra

Организация года по оценке BREEAM 2021 года — Atelier Ten

Atelier Ten вот уже 30 лет является лидером в области проектирования экологичных зданий.Постоянный упор на совместный дизайн для повышения эффективности и производительности был нашей мантрой, и за это время мы завершили множество новаторских проектов, некоторые из которых действительно «нулевые». Поскольку низкоуглеродный дизайн становится новой нормой для зданий в Лондоне и во всем мире, мы продолжаем уделять внимание новым способам разработки и проектирования зданий следующего поколения, ставя на первое место людей и планету.

Мы в Atelier Ten считаем, что BREEAM — это мощный инструмент, который помогает дизайнерам быть в авангарде инноваций и разрабатывать новаторские решения для постоянно меняющихся проблем, с которыми сталкивается строительная отрасль.

Как оценщики и специалисты по оценке BREEAM с сильным опытом в области экологического проектирования и устойчивого развития, мы можем положительно влиять на проектирование с самого начала и обеспечивать развитие этих проблем посредством постоянной поддержки команды разработчиков и предоставления консультаций специалистов на всех этапах RIBA. Применяя проактивный и заинтересованный подход к развитию, мы имеем репутацию последовательного создания высококачественных, экологически чистых зданий, которые превосходят ожидания клиентов и достигают целевого рейтинга BREEAM.Мы реализовали множество проектов, сертифицированных BREEAM; штаб-квартира Всемирного фонда дикой природы, Центр живой планеты в Уокинге, был нашим первым «выдающимся» проектом BREEAM. Только в 2020 году мы сертифицировали следующие проекты:

«Центр« Живая планета »- это новый дом для WWF, который не просто воплощает принципы организации, он трубит о них … Он также устанавливает лидерство с точки зрения экологически безопасного строительства, устанавливая новый маркер того, какие коммерческие устойчивые здания должны быть быть будто.В немалой степени это связано с храбростью команды клиентов, которая привлекла группу блестящих умов для его разработки… инженеров-экологов, работающих на грозного Патрика Беллью в Atelier Ten ».

• Студенческое общежитие «Эгхэм Гейтвей»
• Йорк Сент-Джон Творческий центр
• Блоссом-стрит (оценки x5)

В этом году мы в настоящее время сотрудничаем с командами по четырем различным проектам, каждый из которых имеет рейтинг «Выдающийся»:

.

• Эдж-Лондон-Бридж
• 2-3 Финсбери-авеню
• Беркли-сквер, 36-38,
• Тауэрский мост

Толока Яндекс Международная публичная группа

Что такое Яндекс Толока

Яндекс Толока — это сервис, позволяющий выполнять задачи за финансовую плату.Здесь от вас не потребуется иметь опыт работы или глубокие знания в какой-либо области. Потому что типы задач… More довольно просты, они похожи на работу с ящиками. Однако сразу же отвечая на вопрос: «как заработать на Яндекс Толоке» — вам не придется просматривать вирусный контент и бездумно ставить лайки под фото или видео.

Ваша основная задача — протестировать различные сервисы и ответить на вопросы, связанные с улучшением продуктов самого Яндекса или его партнеров, то есть клиентов.Вы также проверяете качество работы ваших «коллег». Подробнее о видах деятельности мы узнаем ниже.

А что в итоге получается: «Толока — сайт для заработка в Интернете» — звучит очень неубедительно, не правда ли? Почему Яндекс должен платить третьим лицам за простые задачи?

Ответ очень прост — согласно информации, предоставленной сервисом Яндекс Радар, поисковая система Яндекса ежедневно обрабатывает более 180 миллионов запросов:

Диаграмма Яндекс Радар: количество пользователей поисковой системы

Система не может безупречно работать с таким большим объемом данных, проходящих через него.Мы имеем в виду, что когда вы вводите запрос в поисковой строке Яндекса, вы обычно получаете осмысленный ответ на него. Это происходит потому, что алгоритмы поисковых систем, а также оценщики (сотрудники поисковых систем) проверяют релевантность ответов на поисковые запросы, а система, в свою очередь, пытается предоставить пользователям наиболее актуальную информацию, но это не всегда происходит «плавно». Иногда оценщики делают ошибку или система дает сбой, и в результате вывод не соответствует цели запроса.

Например, если вас попросят «Купить самокат», вы увидите ресурсы, продающие белье для сна. Сотрудники-фрилансеры Толока несут ответственность за распознавание таких ошибок.

На этом примере построены принципы работы сервиса. Исполнители, так сказать, оптимизируют работу поисковых систем, выполняя такие задачи, как исправление топографических запросов, проведение анализа качества фото или видео, обнаружение нефункционирующего материала или неподходящего для просмотра, определение релевантности ответов на запрашиваемая информация и так далее.

Первоначально с этой работой самостоятельно справлялись оценщики. Но количество ресурсов растет в геометрической прогрессии, поэтому модераторы начали не обрабатывать все свои данные своевременно. В итоге Толока была создана как вспомогательный инструмент для улучшения качества контента. Если вас интересует процесс выбора соответствующего ответа на запрос, вы можете прочитать наши статьи о Key Collector и WordStat.

Надеемся, что смогли подробно объяснить, что такое Яндекс.Сервис Толока — это все о том, почему был создан этот портал.

Эксперт — это кто?

Assessor — это лицо, выполняющее по заданию разработчиков поисковой системы оценку того, насколько найденный документ соответствует запросу. Чаще всего оценщики профессионально не знакомы с поиском информации. Их квалификация близка к знаниям обычных пользователей Интернета. Одна из первых работ оценщиков начала использовать Google в 2003 году. Яндекс оценщики появились в 2006 году.

Порядок работы оценщика

Первоначально выполняется автоматический поиск, и поисковая машина формирует последовательность сайтов в соответствии с их релевантностью, рассчитанную роботом. Затем оценщик, который в этот момент может находиться в любой точке мира с помощью специальной программы и обычной логики, оценивает результат. Рейтинговая шкала разрабатывается каждой поисковой системой самостоятельно. Часто он содержит шесть или более предметов. Работа оценщиков отличается погрешностью примерно 5%.

Результат своей деятельности оценщик отправляет в головную поисковую систему, где на основе совместного анализа данных поискового робота и информации оценщика рассчитывается окончательная оценка документа. Результат, которого помогает достичь оценщик, — значительное повышение объективности оценки документов, исключение ресурсов, ошибочно включенных в рейтинговый список на основании формальных характеристик.

У всех поисковых систем есть свои штатные оценщики, которые подлежат постоянной ротации.Наиболее подходящий оценщик — это пользователь со средним уровнем знаний в Интернете. Цель выполняемой им работы — улучшить работу поисковых систем, чтобы они максимально точно отвечали на вопросы пользователя.

Оценщик, оценивая результаты поиска, выполняет задания. Их содержание — это ключевое слово, ссылка и инструкция для оценки соответствия ссылки заданному слову. Указанное слово в соответствии с инструкцией, которую должен выполнять оценщик, является действием формы «иди», «сделай» или «научись».

Оценщик должен решить, какое ключевое слово использовать для определенного действия, предпринятого пользователем (совершение покупки, просмотр фильма, прослушивание музыки), или некоторых данных, которые его интересуют.

Типы оценок оценщика в «Яндексе»

Оценщики Яндекса последовательно дают два вида оценок:

1. Предварительная оценка. Относится ли этот документ к порнографии и содержит ли он вредоносный код. Если дан ответ «да», оценка документа прекращается.

2.Оценка актуальности. Эта оценка не является количественной. Оценщик дает оценку, отнеся документ к любой категории:

  • «Жизненно важный» — будь то официальный сайт или официальный ответ на вопрос.
  • «Полезно» — это документ, содержащий данные, которые точно соответствуют поисковому запросу.
  • «Релевант +» — документ, соответствующий поисковому запросу.
  • «Релевантный» — документ, не совсем соответствующий поисковому запросу.
  • «Нерелевантный» — документ, не соответствующий поисковому запросу.
  • «Спам» — документ с признаками черной оптимизации (попытки обмануть поисковую систему).
  • «Не об этом» — категория, которая предназначена для роботов, схожих для роботов, но для человека принципиально других понятий. Таким образом, по поисковому запросу «Лев Толстой» поисковая система не должна выдавать в качестве результатов документы о полных людях и животных.

Значение оценок

Работа оценщиков помогает оценить степень точности поиска и обучения поискового робота.Оценщики не могут влиять на позиции, занимаемые тем или иным сайтом.

Оценщики сайтов в своей работе руководствуются четкими инструкциями. Он стал довольно большим и сложным документом и постоянно обновляется с учетом новых требований.

Извлечение запросов, связанных с новостями, из журнала веб-запросов

Извлечение запросов, связанных с новостями, из журнала веб-запросов

Журнал запросов поисковой системы — это богатый
источник ценной информации о предпочтениях пользователей, поиск
стратегии и др.В сети есть большое количество публикаций.
анализ журнала запросов, который стал мощным методом для
повышение эффективности поиска и взаимодействия конечных пользователей с
поисковая машина. Ряд научных публикаций посвящен
временного анализа журнала запросов появились недавно. Для
Например, исследование [1] обнаруживает актуальные варианты запросов.
в течение дня. Чиен и Имморлика [2]
кластер семантически связанных запросов на основе аналогичных временных
поведение их популярности.

На этом плакате мы представляем метод
извлечение запросов, связанных с недавними, текущими или предстоящими
события из реальной жизни, отраженные в новостях, или связанных с новостями
Запросы
. Наш подход в определенном смысле дополняет друг друга
к методу, описанному в [3]. В то время как Henzinger et al.
извлекать запросы из текущих транскриптов телетрансляций, таким образом
позволяя «поиск новостей без запросов», мы стремимся извлекать запросы
связанные с реальными событиями из универсального веб-поиска
журнал двигателя, используя относительную частоту запросов и проверяя
их против текущих новостных лент.

Запросы, связанные с новостями, могут быть использованы для
устранение неоднозначности потребностей пользователя в информации (например, подсказка пользователю
со ссылкой на новостную онлайн-службу), а также для очень
эффективная обработка новостей онлайн, включая кластеризацию новостей,
обобщение и ранжирование.

Плакат кратко описывает метод
извлечение новостных запросов реализовано в Яндекс Новостях
сервис (http://news.yandex.ru), использующий
журнал запросов и инфраструктура универсального поиска
движок Яндекс (www.yandex.ru).

Значение запроса во временном интервале по сравнению с
другой интервал определяется как отношение соответствующего запроса
частоты:

,

, где F ( q, Δ) —
частота q во временном интервале
Δ .

Мгновенная новизна запроса может быть определена как значимость запроса
за последний час по сравнению с предыдущим днем:

MQN ( q ) = S ( q,
Δ last_int , Δ пред_день ).

Для подавления некоторых почасовых отклонений (например,
погодные запросы утром и порно запросы ночью),
мы определяем ежечасно новизну запроса как запрос
значимость в последний час по сравнению с тем же часом
средний день за предыдущую неделю:

HQN ( q ) = S ( q ,
Δ last_int , Δ pre_week ),

, где Δ prev_week — это совокупность временных интервалов, соответствующих
семь часов за предыдущие семь дней.

Окончательный запрос Новинка определяется как
минимум мгновенный запрос и почасовой запрос
новинка:

QN ( q ) = мин { MQN ( q ),
HQN ( q )}.

Для обнаружения новых запросов, очень редких
запросы удалены; остальное нормализуется (этот шаг включает
выделение, использование заглавных букв и удаление некоторых символов, e.грамм.
кавычки). Запросы с оценкой новизны, превышающей
предопределенный порог считается
Роман .

Запросы, связанные с новостями , являются подклассом новых запросов . К
извлеките их, сначала удаляются очень широкие запросы (т.е.
запросы с более чем 0,1% релевантных документов в сети Яндекса
база данных). Во-вторых, должны поступать соответствующие новости.
в пределах трехчасового временного окна вокруг отметки времени запроса.Для запросов с более чем 0,01% релевантных документов в
База данных Яндекса, поиск по новостной коллекции
ограничено только заголовками.

Описанная процедура извлекает до десятков тысяч
новых запросов , а затем от десятков до сотен
запросов, связанных с новостями из около миллиона запросов
ежечасно. По нашим оценкам, доля запросов, связанных с новостями,
составляет около 0.01-0,1% (однако при увеличении
происходит важное событие). Мы намеренно извлекаем узкую
класс запросов из потока по соображениям производительности,
стремясь достичь высокой точности, а не высокой отзывчивости.
Извлеченные запросы имеют ряд интересных
Особенности.

Во-первых, запросы, связанные с новостями, имеют разное распределение длины.
по сравнению с обычными веб-запросами. На рисунке 1 представлена ​​длина
раздача запросов, связанных с трагедией в Беслане в сентябре
1–3, 2004 г. (однако такое распределение типично
для запросов, связанных с новостями в целом).Статистика веб-запросов
происходят из часового журнала одного из интерфейсов Яндекс.
машины. Большинство (33%) веб-запросов состоят из одного слова
запросов, тогда как основная доля (37%) запросов, связанных с новостями
состоит из биграмм. 81% запросов, состоящих из нескольких слов,
общее количество запросов, связанных с новостями.

Рис. 1. Длина запросов, связанных с новостями / Интернетом

Запросы, связанные с новостями, не просто длиннее: они
очень сжатые дескрипторы событий, часто связывающие вместе
важные аспекты мероприятия (например,грамм. место, дата, актеры или
тип мероприятия). Эта особенность иллюстрируется тремя парами
примерные запросы, связанные с тремя событиями (пресса президента Путина
конференция, объявлены номинанты на «Оскар» и компьютерный вирус
предупреждение) (см. Таблицу 1). В Яндексе реализована кластеризация новостей
Новости позволяет сгруппировать лексически разные запросы, относящиеся к
мероприятие. Следовательно, используя относительно простой
техники, мы можем получить важную дополнительную информацию, которая
делает обработку новостей более надежной и точной.Извлечение
токены из нескольких слов только из новостных статей потребуют
исчерпывающие лингвистические методы.

Таблица 1. Пример извлеченных запросов, связанных с событиями (31 января 2006 г.)

Исходный запрос Английский эквивалент
пресс-конференция Путина
пресс-конференция в кремле
3 компьютерный вирус 3 февраля
nyxem вирус никсема
горбатая гора анг ли
номинанты на Оскар

Кроме того, интенсивность
извлеченные запросы — хороший индикатор для текущего пользователя
информационные потребности.Как показали наши результаты, пользователи Интернета
интерес (вроде бы спровоцированный телевидением) более реактивный, чем
Ответ интернет-источников новостей, который делает новости, связанные с
запрашивает полезный параметр для ранжирования новостей.

Яндекс
обрабатывает около миллиона запросов в час в светлое время суток,
что позволяет вручную оценить значительную часть
журнал невыполнимо. Мы выбрали четыре часовых интервала между 10 утра.
и 19:00 в два последовательных рабочих дня в декабре 2005 года.Тест
образец включал все запросы, автоматически определяемые как
связанные с новостями плюс случайно выбранные 2% оставшихся запросов
в соответствующие интервалы. Тестовая выборка содержала 831
запросов, 244 (30%) из которых были автоматически определены как
связанные с новостями.

тестовый образец был представлен оценщику, который оценивал запросы
в последовательности. Оценщик ответил на вопрос: «Безопасно ли
предполагают, что подавляющее большинство пользователей, выполняющих запрос на
в данный момент были заинтересованы в текущих новостях? »Итоги
оценки сведены в Таблицу 2 (количество промахов
умножается на 50; из-за нехватки места мы не упоминаем
частотно-взвешенные значения отзыва и точности, которые примерно
На 10% выше).Данные позволяют нам сделать некоторые
наблюдения.

Во-первых, соглашение между
асессор и автомат постепенно вырастают с первого оцениваемого
часть до последней. Этот факт можно объяснить
повышение компетентности оценщика во время оценки,
поскольку переходя от ранних запросов дальше, оценщик получает
более полный обзор соответствующих событий.

Во-вторых, в обоих случаях отзыв для утренних запросов
значительно ниже, чем для вечерних запросов.Это может быть
объясняется дизайном алгоритма. Для продуктивности
причины, новые запросы обнаруживаются на основе статистики запросов
за весь предыдущий день (см. Раздел 2). Таким образом, если событие
произошло вчера, и есть как связанные статьи, так и
запросы, датированные вчерашним днем, то алгоритм часто не справляется
определять запросы как связанные с новостями на следующее утро.

Таблица 2. Результаты оценки

19 декабря, 13:00 7: 18 дек. 8 декабря, 10:00 дек 20:15
Промахи 9 * 50 7 * 50 7 * 50 5 * 50
TruePos 122 130 101 145
FalsePos 30 25 12 27
точность 0.80 0,84 0,89 0,84
Отзыв 0,21 0,27 0,22 0,37
F1 0,34 0,41 0,35 0,51

Представленная методика для
извлечение запросов, связанных с новостями, из универсального поиска
двигатель дает хорошую точность.Извлеченные запросы могут быть
эффективно используется для улучшения взаимодействия пользователя с поиском
движок и в обработке новостей онлайн.

Результаты, указанные в Разделе 4
предположить, что обнаружение запросов, связанных с новостями, утром может быть
улучшено за счет сравнения статистики запросов не с предыдущими
день, но со скользящим интервалом.

Дополнительно мы собираемся
поэкспериментируйте с интервалами обработки около 15 минут в
для повышения чувствительности метода, который
важно для задач обработки новостей.

[1] Бейтцель, С.М., Дженсен, Э.С., Чоудхури, А., Гроссман, Д., Фридер, О. Почасовой анализ очень большого журнала веб-запросов с тематической категорией. In SIGIR04 , 2529 июля 2004 г., Шеффилд, Южный Йоркшир, Великобритания, 321-328.

[2] Чиен С. и Имморлика Н. Семантическое сходство между запросами поисковых систем с использованием временной корреляции. In WWW2005 , 10-14 мая 2005 г., Чиба, Япония, 2-11.

[3] Henzinger, M. et al.Поиск новостей без запросов. In WWW2003 , 20-24 мая 2003 г., Будапешт, Венгрия, 1-10.

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *