Введение в деревья решений | Питон | GPTMain News

Деревья решений — одна из самых мощных и широко используемых моделей с учителем, которая может выполнять либо регрессию, либо классификацию. В этом уроке мы сосредоточимся только на настройке классификации.

Дерево решений состоит из правил, которые мы используем, чтобы сформулировать решение о прогнозе точки данных. По сути, это последовательность простых правил if/else.

Мы можем визуализировать дерево решений как структуру, основанную на последовательности процессов принятия решений, от которых можно ожидать другого результата.

структура дерева решений

Источник: Краткий справочник по машинному обучению.
Начиная с корневого узла дерева, узел решения представляет собой основу, на которой принимается решение с каждым возможным результатом, приводящим к ветви. Каждая ветвь представляет, как выбор может привести либо к узлам решения, либо к конечному узлу, и каждый терминал представляет результат.

Построение дерева решений:

Важно понимать, как построить дерево решений. Итак, давайте возьмем простой пример и построим дерево решений вручную.

Предположим, что дан следующий обучающий набор данных. Нам нужно определить метку класса, используя четыре функции: возраст, доход, учащийся, кредит_рейтинг.

все электронные компьютерные данные

Есть три разных способа разделить дерево решений.

  • Прирост информации и энтропия
  • Индекс Джини
  • Коэффициент усиления

В этом руководстве мы увидим, как определить, по какой функции следует разделить, на основе энтропии и прироста информации.

ЭНТРОПИЯ И ИНФОРМАЦИЯ:

Энтропия пришла из теории информации и измеряет, насколько случайным образом распределяются значения атрибутов. Это мера случайности или неопределенности.

Энтропия определяется следующим образом

\ mathrm {E} = \ sum_ {i = 0} ^ {n} – \ mathrm {p} _ {\ mathrm {i}} \ log _ {\ mathrm {2}} \ mathrm {p} _ {\ mathrm {я}}

Предположим, что если мы подбрасываем беспристрастную честную монету с 50% вероятностью выпадения орла и 50% вероятностью выпадения решки, то энтропия будет следующей:

E=-0,5 * \log_{2}(0,5)-0,5 * \log_{2}(0,5)=0,5+0,5=1

С другой стороны, если у нас есть смещенная монета с 25% вероятностью выпадения орла и 75% вероятностью выпадения решки, то энтропия равна

E=-0,25 * \log_{2}(0,25)-0,75 * \log_{2}(0,75)=0,81127812445

Дерево решений пытается найти расщепления, которые уменьшают энтропию и повышают однородность внутри групп.

Теперь мы хотим определить, какой атрибут наиболее полезен. Получение информации говорит нам, насколько важен атрибут.

Чтобы описать прирост информации, нам сначала нужно вычислить энтропию распределения меток. У нас есть девять кортежей класса «да» и пять кортежей класса «нет». Энтропия, принадлежащая начальному распределению, выглядит следующим образом.

E(D)=-\frac{9}{14} \log _{2}\left(\frac{9}{14}\right)-\frac{5}{14} \log _{2}\ слева (\ гидроразрыва {5} {14} \ справа) = 0,940

Формула для получения информации дается следующим образом

Прирост информации = Энтропия (родительский) – Средневзвешенное * Энтропия (детский)

Теперь нам нужно вычислить энтропию для каждого атрибута и выбрать атрибут с наибольшим приростом информации в качестве корневого узла.

Рассчитаем энтропию для атрибута возраста.

\begin{aligned}E(Возраст) &=\frac{5}{14} \times\left(-\frac{2}{5} \log _{2} \frac{2}{5}-\frac {3}{5} \log _{2} \frac{3}{5}\right) \\&+\frac{4}{14} \times\left(-\frac{4}{4} \ log _{2} \frac{4}{4}\right) \\&+\frac{5}{14} \times\left(-\frac{3}{5} \log _{2} \frac {3}{5}-\frac{2}{5} \log _{2} \frac{2}{5}\right) \\&=0,694 \end{выровнено}

Следовательно, прирост информации для разделения в возрасте равен
\text {InfoGain}(возраст)=E(D)-E(возраст)=0,940-0,694=0,246

Точно так же прирост информации для остальных атрибутов равен

Инфоприрост(доход) = 0,029

Прирост информации (студент) = 0,151

Прирост информации (кредит_рейтинг) = 0,048

Здесь возраст атрибута имеет самый высокий информационный прирост 0,246, поэтому мы можем выбрать возраст в качестве атрибута разделения.

Корневой узел помечается как возраст, а ветви растут для каждого из значений атрибута.

Возраст атрибута может принимать три значения: низкий, средний и высокий.

Древо решений

Поскольку все экземпляры, попадающие в раздел middle_aged, принадлежат к одному и тому же классу, мы сделаем его конечным узлом с пометкой «да».

Теперь снова мы должны рекурсивно повторить процесс, чтобы сформировать дерево решений в каждом разделе.

Полностью сформированное дерево решений приведено ниже.

Древо решений

КРИТЕРИИ ОСТАНОВКИ:

Дерево решений растет до тех пор, пока все конечные узлы не станут чистыми, т. е. все точки в листовом узле принадлежат одному классу. Такие деревья могут привести к переоснащению и снижению точности невидимых данных.

По мере увеличения глубины дерева точность обучающих данных может повышаться, но она не будет обобщаться для невидимых данных.

Поэтому нам нужно найти компромисс между максимальной глубиной дерева и точностью.

Некоторые из часто используемых критериев остановки:

  1. Ни один атрибут не удовлетворяет минимальному порогу получения информации.
  2. Дерево выросло на максимальную глубину
  3. Количество выборок в поддереве меньше порогового значения

Теперь давайте реализуем дерево решений с помощью scikit-learn.


ЗАКЛЮЧЕНИЕ:

Дерево решений — это контролируемый алгоритм машинного обучения, который может выполнять либо классификацию, либо регрессию. Дерево решений строится рекурсивно сверху вниз.

Различные компоненты дерева

КОРНЕВОЙ УЗЕЛ: Корневой узел представляет всю выборку.

УЗЕЛ РЕШЕНИЯ: Узлы — это место, где принимается решение.

ВЕТВЬ: Ветвь показывает, как выбор может привести к решению.

ЛИСТОВОЙ УЗЕЛ: Последний узел в дереве решений. Каждый листовой узел содержит метку класса.

Код для этого руководства можно найти в этом репозитории Github.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس