Логотип LiveLibbetaК основной версии

Это бета-версия LiveLib. Сейчас доступна часть функций, остальные из основной версии будут добавляться постепенно.

Рецензия на книгу

Грокаем машинное обучение

Серрано Люсия

0

(0)

  • Аватар пользователя
    fru-n-quiz
    16 апреля 2026



    Did you think machine learning is complicated and hard to master? It’s not! Read this book!

    Сказал Luis Serrano, написав одну из самых больших книжек в серии гроккинг. Автор обещает, что после освоения этой книги, вы станете профессионалом в области machine learning, что ж. Сравним в конце книги.

    ЦА - все, кто между просмотром сериала на нетфликс и книгой выберет книгу.

    Книга фокусируется на предикативных моделях machine learning и не требует специфичного бэкграунда, так что если вы предсказывали на таро и решили повысить квалификацию, велкам!


    Считаю, что у автора дар излагать концепции на простом и понятном языке, и книга действительно может приоткрыть дверь в мир machine learning. На 85ой странице первая ссылка на гитхаб. Irl никто конечно не кодит алгоритмы с нуля и все пользуются пакетами, тем не менее it’s good to “know what’s happening in the background”. Так, в книге приводится алгоритм Байеса, но можно воспользоваться готовой реализацией, например в пакете Scikit-Learn.

    Автор подчеркивает, что помимо навыка тренировать модели, важно также уметь их оценивать. В книге приводятся такие метрики как:

    Доля правильных ответов: Accuracy=(TP+TN)/(TP+TN+FP+FN)

    не путать с Precision = True positives/(True positives+False positives)

    Полнота/Чувствительность: recall/sensitivity = True positives/(True positives+False negatives)

    Specificity = True negatives/(True negatives+False positives)

    и их комбинированные показатели:

    F-score, являющийся гармоническим средним полноты (recall) и точности (precision),

    а в таких областях как медицина - AUC, или площадь под кривой/area under the ROC curve (receiver operating characteristic) (строится на основе значений sensitivity и specificity)


    Помимо навыков обучения и оценки моделей в арсенале дата-сайентиста, автор также выделяет критический навык очистки и предварительной обработки данных, так как для того чтобы сделать это должным образом, важно иметь хорошее представление о решаемой проблеме и самих данных. Также автор призывает быть mindful  и помнить о предрассудках (касательно расы, гендера, сексуальной ориентации, социального статуса, национальности и т.д.), дабы не увековечить их в моделях. 

    Про то как выбрать признак для  разбиения датасета для генерации дерева решений здесь тоже расскажут (путем минимизации средней точности/Gini impurity index (мера неоднородности Джини) /энтропии или максимизации прироста Джини / информации).

    В книге рассмотрены такие модели как линейная регрессия (с функцией средней абсолютной MAE и среднеквадратичной ошибки MSE), перцептроны (с функцией ошибки перцептрона PE), логистические классификаторы и нейронные сети с логарифмической функцией потерь LL, модели с использованием регуляризации (L1 или L2 норма, добавляемая к функции ошибки, чтобы уменьшить оверфиттинг) и другие.

    Последние 100 страниц - это ответы к упражнениям и немножко математики.


    Возможно, в будущем перечитаю. Хорошая база.


    like3 понравилось
    20

Комментарии 0

Ваш комментарий

, чтобы оставить комментарий.