Files
freeCodeCamp/guide/russian/machine-learning/dataset-splitting/index.md
Mariya 9f5e016e64 improved translation (#27825)
improved some key terms, changed sentences structure
2019-02-18 15:39:57 +04:00

3.4 KiB
Raw Blame History

title, localeTitle
title localeTitle
Dataset Splitting Разбивка массива данных

Разбивка массива данных

Разделение массива данных на сет для тренировки, тестирования и кросс-валидации относится к общепринятым практикам. Это позволяет настраивать различные параметры модели без принятия суждений, независимо.

мотивация

Разбивка массива данных возникает как необходимость устранения смещения для обучения данных в моделях машинного обучения. Изменение параметров модели для наилучшего соответствия учебным данным обычно приводит к переобучению модели, что пагубно влияет на ее точность. По этой причине мы разделили массив данных на несколько дискретных подмножеств, на которых мы обучаем разные параметры.

Тренировочный сет

Тренировочный сет используется для вычисления параметров, которые ваш алгоритм будет использовать при работе с новыми данными. Этот набор данных обычно составляет 60% -80% от всех доступных вами данных (в зависимости от того, используете ли вы набор кросс-валидации).

Сет для кросс-валидации

Сет для кросс-валидации предназначен для выбора модели (обычно ~ 20% массива данных). Используйте этот набор данных, чтобы попробовать различные параметры для алгоритма, прошедшего обучение в наборе обучения. Например, вы можете оценить различные параметры модели (полиномиальная степень или лямбда, параметр регуляризации) в наборе кросс-валидации, чтобы увидеть, что может быть наиболее точным.

Сет для тестирования

Сет для тестирования - последний массив данных, который оценивает качество работы модели (обычно ~ 20% от ваших данных). Это источник истины. Ваша точность в предсказании набора тестов - это точность вашего алгоритма машинного обучения.

Дополнительная информация: