Грокаем машинное обучение
Серрано Люсия
0
(0)
Это бета-версия LiveLib. Сейчас доступна часть функций, остальные из основной версии будут добавляться постепенно.
Серрано Люсия
0
(0)

Сказал Luis Serrano, написав одну из самых больших книжек в серии гроккинг. Автор обещает, что после освоения этой книги, вы станете профессионалом в области machine learning, что ж. Сравним в конце книги.
ЦА - все, кто между просмотром сериала на нетфликс и книгой выберет книгу.
Книга фокусируется на предикативных моделях machine learning и не требует специфичного бэкграунда, так что если вы предсказывали на таро и решили повысить квалификацию, велкам!
Считаю, что у автора дар излагать концепции на простом и понятном языке, и книга действительно может приоткрыть дверь в мир machine learning. На 85ой странице первая ссылка на гитхаб. Irl никто конечно не кодит алгоритмы с нуля и все пользуются пакетами, тем не менее it’s good to “know what’s happening in the background”. Так, в книге приводится алгоритм Байеса, но можно воспользоваться готовой реализацией, например в пакете Scikit-Learn.
Автор подчеркивает, что помимо навыка тренировать модели, важно также уметь их оценивать. В книге приводятся такие метрики как:
не путать с Precision = True positives/(True positives+False positives)
Полнота/Чувствительность: recall/sensitivity = True positives/(True positives+False negatives)
Specificity = True negatives/(True negatives+False positives)
и их комбинированные показатели:
F-score, являющийся гармоническим средним полноты (recall) и точности (precision),
а в таких областях как медицина - AUC, или площадь под кривой/area under the ROC curve (receiver operating characteristic) (строится на основе значений sensitivity и specificity)
Помимо навыков обучения и оценки моделей в арсенале дата-сайентиста, автор также выделяет критический навык очистки и предварительной обработки данных, так как для того чтобы сделать это должным образом, важно иметь хорошее представление о решаемой проблеме и самих данных. Также автор призывает быть mindful и помнить о предрассудках (касательно расы, гендера, сексуальной ориентации, социального статуса, национальности и т.д.), дабы не увековечить их в моделях.
Про то как выбрать признак для разбиения датасета для генерации дерева решений здесь тоже расскажут (путем минимизации средней точности/Gini impurity index (мера неоднородности Джини) /энтропии или максимизации прироста Джини / информации).
В книге рассмотрены такие модели как линейная регрессия (с функцией средней абсолютной MAE и среднеквадратичной ошибки MSE), перцептроны (с функцией ошибки перцептрона PE), логистические классификаторы и нейронные сети с логарифмической функцией потерь LL, модели с использованием регуляризации (L1 или L2 норма, добавляемая к функции ошибки, чтобы уменьшить оверфиттинг) и другие.
Последние 100 страниц - это ответы к упражнениям и немножко математики.
Возможно, в будущем перечитаю. Хорошая база.
Это бета-версия LiveLib. Сейчас доступна часть функций, остальные из основной версии будут добавляться постепенно.
Серрано Люсия
0
(0)

Сказал Luis Serrano, написав одну из самых больших книжек в серии гроккинг. Автор обещает, что после освоения этой книги, вы станете профессионалом в области machine learning, что ж. Сравним в конце книги.
ЦА - все, кто между просмотром сериала на нетфликс и книгой выберет книгу.
Книга фокусируется на предикативных моделях machine learning и не требует специфичного бэкграунда, так что если вы предсказывали на таро и решили повысить квалификацию, велкам!
Считаю, что у автора дар излагать концепции на простом и понятном языке, и книга действительно может приоткрыть дверь в мир machine learning. На 85ой странице первая ссылка на гитхаб. Irl никто конечно не кодит алгоритмы с нуля и все пользуются пакетами, тем не менее it’s good to “know what’s happening in the background”. Так, в книге приводится алгоритм Байеса, но можно воспользоваться готовой реализацией, например в пакете Scikit-Learn.
Автор подчеркивает, что помимо навыка тренировать модели, важно также уметь их оценивать. В книге приводятся такие метрики как:
не путать с Precision = True positives/(True positives+False positives)
Полнота/Чувствительность: recall/sensitivity = True positives/(True positives+False negatives)
Specificity = True negatives/(True negatives+False positives)
и их комбинированные показатели:
F-score, являющийся гармоническим средним полноты (recall) и точности (precision),
а в таких областях как медицина - AUC, или площадь под кривой/area under the ROC curve (receiver operating characteristic) (строится на основе значений sensitivity и specificity)
Помимо навыков обучения и оценки моделей в арсенале дата-сайентиста, автор также выделяет критический навык очистки и предварительной обработки данных, так как для того чтобы сделать это должным образом, важно иметь хорошее представление о решаемой проблеме и самих данных. Также автор призывает быть mindful и помнить о предрассудках (касательно расы, гендера, сексуальной ориентации, социального статуса, национальности и т.д.), дабы не увековечить их в моделях.
Про то как выбрать признак для разбиения датасета для генерации дерева решений здесь тоже расскажут (путем минимизации средней точности/Gini impurity index (мера неоднородности Джини) /энтропии или максимизации прироста Джини / информации).
В книге рассмотрены такие модели как линейная регрессия (с функцией средней абсолютной MAE и среднеквадратичной ошибки MSE), перцептроны (с функцией ошибки перцептрона PE), логистические классификаторы и нейронные сети с логарифмической функцией потерь LL, модели с использованием регуляризации (L1 или L2 норма, добавляемая к функции ошибки, чтобы уменьшить оверфиттинг) и другие.
Последние 100 страниц - это ответы к упражнениям и немножко математики.
Возможно, в будущем перечитаю. Хорошая база.
Ваш комментарий
, чтобы оставить комментарий.
Комментарии 0
Ваш комментарий
, чтобы оставить комментарий.