Files
freeCodeCamp/guide/russian/machine-learning/dataset-splitting/index.md
Mariya 9f5e016e64 improved translation (#27825)
improved some key terms, changed sentences structure
2019-02-18 15:39:57 +04:00

30 lines
3.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: Dataset Splitting
localeTitle: Разбивка массива данных
---
## Разбивка массива данных
Разделение массива данных на сет для тренировки, тестирования и кросс-валидации относится к общепринятым практикам. Это позволяет настраивать различные параметры модели без принятия суждений, независимо.
### мотивация
Разбивка массива данных возникает как необходимость устранения смещения для обучения данных в моделях машинного обучения. Изменение параметров модели для наилучшего соответствия учебным данным обычно приводит к переобучению модели, что пагубно влияет на ее точность. По этой причине мы разделили массив данных на несколько дискретных подмножеств, на которых мы обучаем разные параметры.
#### Тренировочный сет
Тренировочный сет используется для вычисления параметров, которые ваш алгоритм будет использовать при работе с новыми данными. Этот набор данных обычно составляет 60% -80% от всех доступных вами данных (в зависимости от того, используете ли вы набор кросс-валидации).
#### Сет для кросс-валидации
Сет для кросс-валидации предназначен для выбора модели (обычно ~ 20% массива данных). Используйте этот набор данных, чтобы попробовать различные параметры для алгоритма, прошедшего обучение в наборе обучения. Например, вы можете оценить различные параметры модели (полиномиальная степень или лямбда, параметр регуляризации) в наборе кросс-валидации, чтобы увидеть, что может быть наиболее точным.
#### Сет для тестирования
Сет для тестирования - последний массив данных, который оценивает качество работы модели (обычно ~ 20% от ваших данных). Это источник истины. Ваша точность в предсказании набора тестов - это точность вашего алгоритма машинного обучения.
#### Дополнительная информация:
* [AWS ML Doc](http://docs.aws.amazon.com/machine-learning/latest/dg/splitting-the-data-into-training-and-evaluation-data.html)
* [Хорошее сообщение stackoverflow](https://stackoverflow.com/questions/13610074/is-there-a-rule-of-thumb-for-how-to-divide-a-dataset-into-training-and-validatio)
* [Учебный документ](https://www.mff.cuni.cz/veda/konference/wds/proc/pdf10/WDS10_105_i1_Reitermanova.pdf)