Start-365.ru

Работа и Занятость
15 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Собеседование data scientist

Собеседование по Data Science: чего от вас ждут

Data Science – область очень перспективная. За прошлый год мы в ЕРАМ получили 210 резюме от людей, которые хотят заниматься Data Science. Из них на техническое интервью мы пригласили 43 человека, а предложили работу семи. Если спрос большой, почему так?

Мы поговорили с техническими интервьюерами и выяснили: проблема многих кандидатов в том, что они плохо представляют, чем занимаются аналитики данных. Поэтому их знания и навыки не всегда релевантны для работы. Кто-то считает, что опыта работы с Big Data достаточно, чтобы работать в Data Science, кто-то уверен, что хватит просмотра нескольких курсов по машинному обучению, некоторые думают, что хорошо разбираться в алгоритмах необязательно.

Дмитрий Никитко и Михаил Камалов – аналитики данных и технические интервьюеры из ЕРАМ – рассказали, чего ждут на собеседованиях от кандидатов, какие вопросы задают, что ценится в резюме и как подготовиться к собеседованию.

В разных компаниях понимание того, что делают аналитики данных, разное. Кто-то понимает это понятие шире, кто-то – уже. Вот что делают такие специалисты в ЕРАМ:

  • Занимаются предобработкой данных
  • Ищут закономерности в данных и проверяют гипотезы
  • Создают предсказательные модели, используя алгоритмы машинного обучения
  • Оценивают качество полученных моделей
  • Визуализируют данные
  • Помогают интегрировать решение

Задач, с которыми работают аналитики данных, много. Например, ранжирование можно применять не только к поисковой выдаче, но и к созданию рекомендательных систем, поиску похожих картинок, музыки и даже 3D-модели лица. В каждом их этих случаев нужно найти релевантный ответ по запросу. Но типы данных различны, и нужно знать, какую стратегию применить в том или ином случае.

В ЕРАМ сделали тест, который рекрутеры присылают кандидатам до собеседования. Часть, где нужно выбрать верный вариант, проверяется автоматически. Часть, в которой содержатся развернутые ответы на вопросы, читают технические интервьюеры.

Что нужно уметь

Если коротко, аналитик данных – это человек, который умеет программировать (в большинстве случаев на Python), разбирается в статистике, математике, алгоритмах и владеет английским.
Английский нужен не только для того, чтобы читать специализированную литературу и разбираться с документацией. Многие аналитики напрямую общаются с иностранными заказчиками. Кстати, здесь пригодится еще и умение переводить с языка дата-сайентиста на тот, что понятен бизнесу.

Обязательно ли профильное образование?

Важно хорошо знать математику, и высшее техническое образование – большой плюс. Большинство дата-сайентистов в ЕРАМ по образованию математики, программисты или физики. Но это не жесткое требование – у нас есть сотрудник-лингвист, а недавно мы взяли еще и социолога, который после окончания университета обрабатывал результаты социологических исследований, создавал модели, занимался прогнозированием и анализом социальных графов. Такой опыт – релевантный для работы в Data Science, поэтому кандидат был нам интересен.

В общем, нельзя сказать, что человек с техническим образованием нам подойдет, а с гуманитарным – нет. Все зависит от навыков и опыта. Например, компьютерный лингвист, который научился писать код, – более интересный кандидат, чем Big Data-инженер, работавший с MapReduce и Hadoop, но не разбирающийся в алгоритмах, или чем обладатель научной степени по статистике без опыта работы.

Что ценится в резюме

Больше всего ценится опыт работы. Если вы уже работали в Data Science, подробно напишите, что делали, какие алгоритмы использовали и какие навыки у вас есть.
Если у вас нет опыта работы, большим плюсом в резюме станет:

  • Краткий рассказ о пет-проектах. Важно, чтобы кандидат не только знал теорию, но и успел попрактиковаться.
  • Участие в хакатонах. Это говорит как минимум о том, что вы работали в команде и (скорее всего) создали работающее решение в ограниченный срок. Участие в хакатонах хорошо еще и тем, что на них вас могут заметить работодатели. Тогда отправлять резюме, возможно, вообще не потребуется.
  • Участие в соревнованиях по машинному обучению (Kaggle, DrivenData). Если вы участвовали или даже победили в соревновании Instacart на Kaggle, где нужно было создать рекомендательную систему, вы сможете решить бизнес-задачу с похожими целями быстрее. Но, по нашему опыту, победа в таких соревнованиях не всегда значит, что кандидат знает, например, как работают алгоритмы, которые он использовал.

Что спрашивают на собеседовании

Цель собеседования по Data Science, как и везде, – понять, насколько хорошо человек разбирается в своей предметной области. Сначала интервьюер задает вопросы по основам машинного обучения и статистики. По ответам можно понять глубину и ширину знаний кандидата по базовым вопросам. После этого задают специфические вопросы, например, по обработке естественного языка, работе с временными рядами или рекомендательными системами. Если кандидат говорит, что умеет работать с графами, изображениями или другими данными, его спросят и об этом.

Универсальные солдаты встречаются крайне редко, и вопросы на собеседовании зависят от опыта кандидатов. Обычно спрашивают о прошлых проектах, о том, какие технологии они использовали и почему. После этого могут попросить порассуждать. И конечно зададут несколько теоретических вопросов.

Вот какие вопросы могут задать на собеседовании:

— Какие методы предотвращения переобучения (регуляризации) для нейронных сетей вы знаете? Как они работают? Куда вставлять batch normalization?

— Чем отличается нейронная сеть с одним выходом и сигмоидальной функции активации и такая же нейронная сеть, но с двумя выходами и softmax?

— Представим, что у нас есть многослойная полносвязанная сеть с нелинейной функцией активации. Что будет с нейронной сетью, если мы уберём нелинейность?

— Для чего используют global pooling?

— Как оценивают качество в задачах object detection?
— Какие архитектуры нейронных сетей для семантической сегментации вы знаете?
— Как и зачем использовать transfer learning?

— Как правильно тестировать качество моделей в работе с временными рядами?
— Что мы должны делать с сезонностью в данных?
— Как искать аномалии во временных рядах?

Обработка естественного языка

— Что лежит в основе моделирования тематик? Как работает этот алгоритм? Как вы выберете число тематик, которые будут обучаться этим алгоритмом?

— У вас есть текст отзывов и рейтинг, пользователи используют 5-балльную шкалу. Как бы вы построили систему, которая сможет предсказывать оценку по тексту отзыва? Как оценивать качество этой системы?

В ходе рассуждений и решения задач интервьюеры задают много уточняющих вопросов и пытаются поместить кандидата в «боевые условия». Наример, кандидат предлагает решение, а интервьюер добавляет новые условия к задаче.

«Что вы будете делать, если дата-сет несбалансированный?»
«Как вы будете решать проблему, если есть пропуски в данных?»
«Как поступите, если будут выбросы в данных?»

Помимо этого, могут спросить, как кандидат организует свое рабочее время, как логирует эксперименты, следит ли за их воспроизводимостью, как обрабатывает большие объемы данным и строит пайплайны обработки данных.

Типичные ошибки на собеседованиях

Кандидат не понимает, как работают алгоритмы, которые он использовал
Интервьюеры всегда спрашивают об алгоритмах, которые использовали кандидаты: какие параметры в них есть, как их настроить. Если ответа нет, или кандидат отвечает, что настроил алгоритм «по наитию» – это плохо. Если вы берете алгоритм, стоит потратить время, чтобы понять, как его настроить.

Кандидат не понимает, как применять свои знания в «боевых условиях»
Бывает так: кандидат хорошо знает теорию, но не представляет, как справляться с проблемами на проектах. Важно не только уметь находить инсайты в данных, делать фича-инжинеринг, строить модели, но и понимать, как поместить все это в продакшен или сделать решение, которое будет работать быстрее.

Читать еще:  Стоит ли перезванивать работодателю после собеседования

Кандидат не может рассуждать самостоятельно
Если человек слишком часто отвечает на вопрос: «Я погуглю» – это нехороший знак. Конечно, дата-сайентисты гуглят, но уметь рассуждать самостоятельно тоже важно: иногда встречаются проблемы, для которых нет готового решения, и нужно придумывать что-то свое.

Кандидат выдумывает, как работает система
Иногда люди не могут ответить на вопрос, как работает та или иная система, и начинают придумывать, надеясь попасть пальцем в небо. Так делать не рекомендуется: интервьюер это заметит. Лучше честно сказать: «Я не знаю», тогда останется больше времени на другие вопросы. Вероятность, что вас спросят о том, в чем разбираетесь, вырастет.

Список литературы

Всем, кто хочет заниматься Data Science, советуем посмотреть/прочитать:

Big Data. Machine Learning. Data Science.

Блог компании Даталитика. Интересное об искусственном интеллекте, машинном обучении, больших данных и ИТ-консалтинге

Подписаться на этот блог

Подписаться на обновления

Тест на настоящего Data Scientist: знание всего

  • Получить ссылку
  • Facebook
  • Twitter
  • Pinterest
  • Электронная почта
  • Другие приложения

В области Data Science часто можно попасть на собеседование, где вас будут тестировать абстрактными вопросами, ответы на которые весьма отдаленно оценивают вас как хорошего кандидата. Страдают этим, как правило, вчерашние выпускники или интервьюеры, которые в ходе собеседования решают какие-то другие задачи, например, показать, какие они умные или самоутвердится перед руководством.

Мне приходится проводить много собеседований в сфере Data Science. Так как в Даталитике мы ищем по-настоящему крутых сотрудников, чтобы отделять талантливых кандидатов от средних, приходится искать варианты нестандартных задач. С одной стороны, емкие, а с другой — чтобы у соискателя оставалось легкое и приятное впечатление от собеседования.

Задачку ниже я первый раз озвучил на одном из выступлений чуть более года назад, но как сейчас помню удивленные лица слушателей, которые транслировали: картинки — это, конечно, прикольно, но как решить — непонятно.

Теперь попробовать можете и вы 🙂

Итак, задача: Выберите наиболее подходящий порядок картинок для следующей последовательности терминов: XGBoost, Linear regression, Kaggle, Confusion Matrix.

Начнем с самого простого, картинка с беременным мужчиной (False Positive) из представленных вариантов относится к Confusion Matrix (Матрица ошибок). Юмористы могут увидеть в ней kaggle — «не верь ничему, в соревновании все окажется не так, как учили».

Попробуем сгруппировать предложенные варианты:

  • XGBoost — метод.
  • Linear regression — семейство методов.
  • Kaggle — платформа для соревнования.
  • Confusion Matrix — термин.

XGBoost и Linear regression относятся к популярным методам и, если подумать про отношения между ними, то большинство скажет, что XGBoost дает лучше результат, т.е. круче. Если в оставшихся трех картинках искать пару с похожим отношением, это автомобиль и вертолет.

Методом исключения kaggle это картинка с башней из кубиков, которая символизирует популярную технику стекинг.

Итого правильный ответ: 2. C, B, A, D.

Для скептиков, что вилами по воде писано, решение может быть основано и на эрудиции, так пара картинок автомобиль-вертолет взята из популярной статьи про XGBoost, а башня из кубиков — мем в очень известном в узких кругах сообществе.

И конечно же в формулировке задачи есть важный акцент «Выберите наиболее подходящий порядок», задачи, которые могут иметь несколько решений, куда интереснее задач с одним железобетонно правильным ответом. Подобные вопросы подразумевают открытый ответ и диалог для обсуждения хода мыслей соискателя, в процессе которого последний может продемонстрировать свою эрудицию и интеллект.

Какие еще встречаются интерпретации? Башня из кубиков может ассоциироваться с XGBoost, там как он сам является композицией деревьев, тогда вертолет это Kaggle, как что-то современное, но возникает проблема с отнесением регрессии.

Если у вас есть альтернативные решения, пишите в комментарии.

4 способа провалить собеседование на должность Data Scientist

«Data Scientist» вполне можно считать самой сексуальной профессией века, чего не скажешь о самом процессе принятия на работу Data Scientist’а. На самом деле, для компаний это может быть невыносимым мучением. Столь же большое дело и для кандидатов сопоставить предложение работодателя с основами Data Science.

В то время как машинное обучение – процесс сложный, то обучение человека, способного обучать машины, может быть еще более трудоемким. Такой человек проходит через разные этапы, чтобы стать продуктивным Data scientist’ом.

Для компаний, пытающихся идентифицировать подходящих кандидатов, это похоже на поиск иглы в стоге сена. После нескольких лет найма Data Scientist’ов в Gramener, я заметил некоторые явно повторяющиеся тенденции недостатков в навыках на рынке. Несмотря на то, что есть сотни способов провалить собеседование, их можно поделить на 4 большие группы.

4 причины отказа

Учитывая, что только единицы из тысячи кандидатов будут приняты на данную должность, полезно понять, где большинство людей терпит неудачу. Любой Data scientist, будь то начинающий или тот, кто желает продвинуться по карьерной лестнице, должен обращать внимание на эти подводные камни и избегать их.

Осознание своей слабости — это уверенный и надежный первый шаг в ее устранении.

Чтобы стать по-настоящему успешным специалистом Data Science, нужен особый набор навыков. Для более наглядной иллюстрации проведем параллель со снайпером – еще одной профессией, требующей детализации и высокого уровня мастерства.

Итак, начнем…По каким же причинам можно провалить собеседование на должность Data Scientist?

1. Оформление резюме с использованием модных словечек связанных с Machine learning

Как и с любой работой может возникнуть соблазн адаптировать свое резюме под профессиональный жаргон. Так и Data Science не лишен своего сленга. И, хотя вариант такого резюме повышает шансы при прохождении проверки специальными ботами в отделе HR, это может дать обратный эффект довольно быстро.

Не редкость обнаружить, что передовые навыки в области аналитики, заявленные в резюме, фактически являются не более, чем базовыми знаниями таблиц Excel, SQL-запросов или аналитики Google. Даже если не брать в расчет впустую потраченное время на составление подобного резюме, такая тактика обрекает кандидата на провал.

Если спроецировать данную ситуацию на нашего воображаемого снайпера, такое действие – это все равно что надеть солдатскую форму и взять в руки пистолет без какого-либо уровня профессиональной подготовки. Как бы абсурдно ни звучало, но это совсем не шутка, когда овца охотится в костюме волка.

2. Сокращение моделирования до вызовов библиотек

Многие кандидаты, которые утверждают, что знают все о моделировании, во многом спорят насчет вызовов функции и параметров. Даже перед тем, как спросить, что представляет собой, например, алгоритм Random Forest, наиболее важный вопрос заключается в том, почему это необходимо в первую очередь.

Честно говоря, модель работает и с однострочным вызовом библиотеки. Но это не входит в понятие машинное обучение. Понять нужно одно: где логистическая регрессия более приемлема, чем SVM. Или, когда простая экстраполяция более действенна, чем методы прогнозирования, такие как ARIMA или Holt-Winters.

Хорошему снайперу нужно уметь делать гораздо больше, чем просто целиться и стрелять. На самом деле, стрельба – это всего 20% того, чему учат снайпера. Нужны наиболее тонкие навыки, такие как терпение, дисциплина и отличное наблюдение для оценки дальности действия цели.

Читать еще:  Тест продать ручку на собеседовании

3. Отсутствие фундаментальных знаний, необходимых для анализа данных

Хотя интуитивное понимание техник machine learning является большим плюсом для кандидатов, они, к несчастью, зачастую ограничиваются только этим. Инвестирование в практическое обучение для освоения более фундаментальных навыков, таких как анализ статистики и прочих данных, часто игнорируется.

Моделирование занимает лишь небольшую часть жизненного цикла аналитики. В любом успешном ML проекте более 50% времени приходится на подготовку данных, решение спорных моментов и выбор подходящей техники. Затем 25% — на интерпретацию и рекомендацию модели.

Даже если кандидаты афишируют 90% accuracy в проектах, то, порой, это трагедия – видеть как тает на глазах их уверенность, когда они пытаются объяснить, что такое «p-value» и почему необходимы «confidence intervals» для модели.

Твердое владение фундаментальными знаниями имеет решающее значение во всех дисциплинах, так и снайпер сначала должен быть отличным пехотинцем. Ведь какая польза от превосходной стрельбы, если стрелок не может исправить пистолет, который заклинило, в самом разгаре битвы?

4. Неумение применять аналитику для решения бизнес-задач

Очевидно, что это сложная задача, охватывающая все аспекты, рассмотренные ранее. Но до этого момента мы не говорили о главном моменте, а именно на нем с треском валятся большинство кандидатов.

Основной миссией Data Scientist’ов является решение бизнес-задач, а не просто анализ данных или построение отличной модели. Это Святой Грааль аналитики данных. Необходимо правильно сформулировать вопросы и разработать последовательность шагов для их решения еще до загрузки данных в программу.

При вопросе «как бизнес может решить проблему с клиентами», явно проигрышный вариант, когда кандидат торопится с идеями аналитики данных или, что еще хуже, разбрасывается названиями моделей впустую. Лучше начать исследовать, почему клиенты регистрируются, каковы их ожидания и что влияет на бизнес.

Представьте себе снайпера-эксперта, который знает это все, но не может спрятаться или замаскироваться и выбрать цель уничтожения. Такой человек действительно опасен, и его риск направлен именно вовнутрь, чем вовне.

ПОДВЕДЕНИЕ ИТОГОВ: В ПОГОНЕ ЗА DATA SCIENCE

Таким образом, по отношению к Data Science необходимо следующее:

  • Рассмотрение бизнес-проблем через переосмысление вопросов и разработку последовательных шагов для их решения;
  • Использование фундаментальных знаний в анализе данных с целью получить представление о них и применить соответствующий аналитический подход;
  • Выбор набора аналитических методов или моделей машинного обучения, а затем разработка и интерпретация результатов для бизнес-пользователей;
  • И, наконец, правильная демонстрация этих навыков

Что ж, удачи в исправлении указанных пробелов! Взорвите рынок вакансий аналитиков!

109 популярных вопросов на собеседовании в сфере Data science

Подготовка к интервью – часто непростая задача. Вне зависимости от своего опыта работы и знаний в технической области, кандидат часто бывает застигнут врасплох вопросами работодателя. Во время интервью в сфере Data Science круг вопросов, которые могут быть заданы, охватывает мат. статистику, программирование и создание сложных моделей. Также соискатель должен продемонстрировать свои коммуникативные способности. Все это значит, что к интервью нужно готовиться.

Портал Spring Board подготовил перечень вопросов, к которым должен быть готов соискатель на должность data science специалиста. Этот список поможет понять, чего следует ждать. Возможные вопросы интервью поделены на шесть тематических категорий: статистику, программирование, моделирование, прошлый опыт, культуру и решение проблем. Представляем вашему внимание адаптированную версию этого материала.

Статистика

Без глубокого знания статистики сложно быть хорошим специалистом, поэтому грамотный интервьюер наверняка задаст кандидату несколько вопросов на понимание ее основ.

Вот несколько примеров элементарных вопросов по статистике:

  • Что такое центральная предельная теорема ? В чем заключается ее практический смысл? Ответ
  • Что такое сэмплирование? Сколько методов выборки вы знаете?
  • В чем разница между ошибками типа I и типа II?
  • Что такое линейная регрессия ? Что означают P-значение , коэффициент, R-квадрат ? Каково значение каждого из этих компонентов? Ответ , ответ
  • Какие допущения применяются к линейной регрессии?

Существует четыре основных допущения: 1. Есть линейная зависимость между зависимой переменной и регрессорами, то есть модель, которую вы создаете, соответствует имеющимся данным . 2. Ошибки или остатки данных обычно распределяются и независимы друг от друга, 3. Существует минимальная мультиколлинеарность между объясняющими переменными, 4. Гомоскедастичность. (Означает, что дисперсия вокруг линии регрессии одинакова для всех значений предикторной переменной).

  • Что такое статистическое взаимодействие? Ответ
  • Что такое смещение выбора?
  • Какие примеры набора данных с негауссовым распределением вы можете привести?
  • Что такое биномиальная формула вероятности?

Программирование

Общие вопросы программирова н ия

  • С какими языками программирования вам удобнее всего работать?
  • Какие плюсы и минусы есть у вашего любимого статистического программного обеспечения?
  • Расскажите об алгоритме, который вы создали.
  • Опишите Data science проект, над которым вы работали продолжительное время. Что вы узнали из этого опыта?
  • Работаете ли вы над проектами с открытым исходным кодом?
  • Как бы вы очистили dataset в (язык программирования)?
  • Расскажите о коде, который вы использовали во время своего последнего проекта?

Вопросы по Big Data

  • Назовите два основных компонента структуры Hadoop.
  • Объясните наиболее простым способом при нцип работы MapReduce. Ответ
  • Как бы вы отсортировали большой массив чисел?
  • Перед вами — большой набор данных. Как вы будете работать с выбросами? Как поступите с недостающими значениями? Что скажете о преобразованиях?

Вопросы по Python

  • Какие модули / библиотеки вы используете? Что вам нравится/ не нравится в них?
  • Каковы поддерживаемые типы данных есть в Python?
  • В чем разница между кортежем и списком в Python?

Чтобы разобраться с дополнительными вопросами по Python, стоит ознакомиться с этим полезным ресурсом, созданным Toptal .

Вопросы по R

  • Каковы различные типы алгоритмов сортировки, доступные на языке R? Существуют алгоритмысортировки вставкой, пузырьком и выбором.
  • Каковы различные объекты данных в R?
  • Какие пакеты вы используете? Что вам нравится/не нравится в них?
  • Как получить доступ к элементу во втором столбце и четвертой строке матрицы с именем M?
  • Какая команда используется для хранения объектов R в файле?
  • Каков наилучший способ совместного использования Handoop и R для анализа?
  • Как вы разделите непрерывную переменную на разные группы/ранги в R?
  • Напишите функцию на R-языке, чтобы заменить отсутствующее значение в векторе средним значением этого вектора.

Вопросы по SQL

Н апример, соискателя могут попросить отфильтровать/сжать/систематизировать данные из таблицы, а потом сделать выводы. При наличии неуверенности в данном вопросе есть смысл воспользоваться информацией ресурса Mode Analytics с отличным введением в SQL.

  • Какова цель групповых функций в SQL? Приведите примеры групповых функций.
  • Групповые функции необходимы для получения суммарной статистики данных. COUNT, MAX, MIN, AVG, SUM и DISTINCT — это все групповые функции.
  • Объясните разницу между внутренним джоином, джоином слева / справа и UNION. Ответ
  • Что делает UNION? В чем заключается разница между UNION и UNION ALL?
  • В чем заключается разница между SQL, MySQL и SQL Server?
  • Если таблица содержит повторяющиеся строки, возвращает ли результат запроса двойные значения по умолчанию? Как вы можете удалить повторяющиеся строки из результата запроса?
Читать еще:  Собеседование в фейсбук

Для дополнительной информации по SQL ознакомьтесь с этим ресурсом, созданным Toptal.

Моделирование

Превращать данные в прогнозы и действительно актуальную информацию так же непросто, как и говорить о моделировании с работодателем. Вопросы, представленные ниже, задаются кандидатам, чтобы те могли описать свой предыдущий опыт, возникшие сложности и их преодоление. Если соискатель не сможет ответить на теоретические вопросы и сделать выводы из своего прошлого опыта, то это вряд ли произведет положительное впечатление на работодателя. Не все приведенные ниже вопросы обязательно встретятся в ходе интервью , их основная цель — освежить в памяти кандидата его прошлый опыт моделирования.

  • Расскажите о том, как вы разработали модель для прошлого работодателя или клиента.
  • Каковы ваши любимые методы визуализации данных?
  • Как бы вы могли наиболее эффективно представить данные с пятью измерениями?
  • Чем kNN отличается от кластеризации k-средних?

kNN, или k-ближайших соседей — это алгоритм классификации, где k является целым числом, которое описывает количество соседних точек данных, которые влияют на представленную классификацию. K-средство — это алгоритм кластеризации, где k — это целое число, описывающее количество кластеров, возникающих из представленных данных. Все они выполняют разные задачи.

  • Как бы выглядела ваша модель логистической регрессии?
  • Вы использовали модель временного ряда? Вы понимаете кросс-корреляцию с временными задержками?
  • Объясните правило 80/20 и расскажите мне о его важности при проверке модели.
  • Объясните, что такое точность и отзыв. Как они относятся к ROC-кривой?

Отзыв описывает, какой процент истинных положительных определен описан в качестве положительных моделью . Точность описывает, какой процент положительных прогнозов был правильным. Кривая ROC показывает взаимосвязь между отзывом модели и её спецификой. Отзыв, точность и ROC являются мерами, определяющими эффективность представленной классификационной модели.

  • Объясните разницу между методами регуляризации L1 и L2.
  • Что такое анализ основных причин?
  • Что такое коллизия хеш-таблиц?
  • Что такое точный тест?
  • На ваш взгляд, что более важно при разработке модели машинного обучения: производительность модели или её точность? Один из подходов к данному вопросу
  • Как вы будете обрабатывать несбалансированные данные, использованные для генерирования прогнозов? ( отрицательных классов больше, чем положительных ).
  • Как бы вы провели валидацию модели, созданной для количественного анализа при помощи множественной регрессии? Есть две модели сопоставимой точности и вычислительной производительности. Какую лучше выбрать для прода почему?
  • Как вы действуете с разреженностью?
  • Лучше потратить 5 дней на разработку на 90% точного решения или же 10 дней на 100% точность?
  • В каких ситуациях общая линейная модель неудачна?
  • Как вы думаете, что 50 маленьких деревьев принятия решений лучше одного большого или нет? Почему?
  • Изменяя алгоритм, как вы понимаете, что предпринимаемые действия лучше других?
  • Какие ошибки предпочтительней: первого или второго рода?

Прошлый опыт

Работодатели любят вопросы о прошлом опыте кандидатов, а также информацию, которая помогает раскрыть личностные качества потенциального члена их команды. Из подобного рода вопросов можно узнать, как кандидат справлялся с трудностями в прошлом, чему он научился из этого опыта.

Соискатель может услышать вопросы, касающиеся следующих тем:

  • Работа в команде
  • Руководство
  • Управление конфликтами
  • Решение проблем
  • Неудачи

Перед интервью стоит записать примеры, связанные с этими темами. Когда кандидата спрашивают о предыдущем опыте, лучше обязательно рассказать историю и в то же время быть кратким и логичным.

Примеры таких вопросов:

  • Расскажите о том рабочем периоде, когда вы взяли инициативу в свои руки.
  • Расскажите об опыте, в рамках которого вы столкнулись с серьезной дилеммой.
  • Расскажите о том, когда вы разрешили конфликт.
  • Расскажите о своем провале и о выводах, сделанных впоследствии.
  • Расскажите о вашем прошлом опыте работы. Почему вы решили заниматься именно этим?
  • Расскажи о трудностях, которые вы преодолели, будучи задействованным в групповом проекте.
  • Сталкиваясь с утомительной, скучной задачей, как вы справляетесь с ней и мотивируете себя на ее завершение?
  • Что вы делали в прошлом, чтобы ваш клиент был удовлетворен результатами работы?
  • Какими своими достижениями на своей предыдущей работе вы гордитесь?
  • Каким образом вам удается поддерживать баланс между работой и личной жизнью?

Соответствие корпоративное культуре

В ходе интервью работодатель также хочет понять, насколько кандидат «соответствует» духу компании, почему он заинтересовался data science в целом, и предложенной вакансией — в частности. Следующие вопросы помогут кандидату не оказаться застигнутым врасплох, но самое главное при ответе на них — это честность. Правильного ответа не существует, однако лучший ответ — это тот, который сказан с уверенностью и улыбкой.

  • Какими data-специалистами вы больше всего восхищаетесь? Какими стартапами?
  • Как вы думаете, что характеризует хорошего data-специалиста?
  • Как вы заинтересовались data science?
  • Приведите несколько примеров «лучших практик» в data science.
  • Какую последнюю книгу о работе с данными вы прочитали? В каких мероприятиях по изучению данных вы в последний раз участвовали? Если вы давно ничего не читали ничего стоящего по data science, то у Springboard есть отличная подборка книг , которые заслуживают внимания!
  • Над каким проектом вы бы хотели поработать в нашей компании?
  • Какие уникальные навыки вы бы принесли команде?
  • Какой областью данных вы бы хотели заниматься при отсутствии ограничений?
  • Вы когда-нибудь задумывались о создании стартапа? Какая концепция/идея вас интересует?
  • О каких ваших хобби нет ни слова в резюме?
  • Каковы ваши прогнозы на следующие 20 лет?
  • Что вы делали сегодня/на этой неделе/на прошлой неделе?
  • Как бы вы поступили, если бы выиграли миллион долларов в лотерее?
  • Во что верите вы, в отличие от большинства людей?
  • Какие “пробивные” черты характера у вас есть?
  • Чем вы увлекаетесь?

Навыки решения проблем

Работодатель хочет оценить способности кандидата к критическому мышлению, именно поэтому спрашивать и уточнять — это отличная возможность продемонстрировать умение задавать правильные вопросы. Если для ответа на вопрос нужно создать схематичную диаграмму или написать что-то на доске, соискателю стоит воспользоваться этой возможностью.

  • Какие решения вы можете предложить для выявления плагиата?
  • Сколько «полезных» голосов получит отчет Yelp?
  • Как вы обнаруживаете, что индивидуальным аккаунтом пользуется несколько пользователей?
  • Вы собираетесь отправить миллион электронных писем. Как оптимизировать доставку? Как вы оптимизируете ответ?
  • У вас есть набор данных, содержащий 100 тысяч строк и 100 столбцов, причем один из этих столбцов является нашей зависимой переменной для решаемой проблемы. Как быстро определить, какие столбцы будут нужны для прогноза? Определите два метода и объясните их как пятилетнему ребенку.
  • Как вы обнаружите фиктивные отзывы или фиктивные аккаунты на Facebook?

Это возможность продемонстрировать свои знания алгоритмов машинного обучения; особенно, сентиментального анализа и алгоритмов анализа текста. Продемонстрируйте свои знания о “мошенническом” поведении: что его характеризует ?

  • Как бы вы выполняли кластеризацию на миллион уникальных ключевых слов, при том, что у вас есть 10 миллионов точек данных — каждая из двух ключевых слов, и метрика, оценивающая, насколько похожи два этих ключевых слова? Как бы вы создали эту таблицу из 10 миллионов таблиц данных на первом месте?
  • Как бы вы оптимизировали поисковик для более быстрой работы, получения более качественной информации и лучшего суммирования данных?

Идеальной методике по подготовке к data science собеседованию не существует, однако с помощью данного руководства почувствовать себя уверенно станет гораздо проще.

Ссылка на основную публикацию
Adblock
detector
×
×