מילון מונחים ללמידת מכונה: יערות החלטה

בדף הזה תמצאו מונחים במילון המונחים 'יערות החלטה'. לכל המונחים במילון המונחים, יש ללחוץ כאן.

A

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות שבו כל עץ ההחלטות מתייחס רק לקבוצת משנה אקראית של תכונות כשלומדים את התנאי. באופן כללי, קבוצת משנה שונה של תכונות נדגמת לכל סוג צומת. לעומת זאת, כשאימון עץ החלטות ללא דגימת מאפיינים, כל התכונות האפשריות מביאות בחשבון עבור כל צומת.

תנאי יישור לציר

#df

בעץ החלטות, יוצרים תנאי שכולל רק תכונה אחת. לדוגמה, אם שטח היא תכונה, והתנאי הבא הוא יישור לציר:

area > 200

השוו בין מצב משופע.

B

כבודה

#df

שיטה לאימון של מערך שבו כל מאמן מודל אחד על קבוצת משנה אקראית של אימון דוגמאות נדגם עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו עם כבודה.

המונח תיק נשיאה הוא קיצור של bootstrap agging.

תנאי בינארי

#df

בעץ החלטות, יוצרים תנאי יש לה רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, התנאי הבא הוא תנאי בינארי:

temperature >= 100

השוו בין תנאי לא בינארי.

C

תנאי

#df

בעץ החלטות, כל צומת מחשבת ביטוי מסוים. לדוגמה, החלק הבא של עץ ההחלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו
          (y > 0).

תנאי נקרא גם פיצול או בדיקה.

ניגודיות בין המצב עם עלה.

ראה גם:

D

יער החלטה

#df

מודל שנוצר מכמה עצי החלטות. יער ההחלטות יוצר חיזוי על ידי צבירת החיזויים של עצי ההחלטות שלו. סוגים פופולריים של יערות החלטה: יערות אקראיים ועצים מוגדלים הדרגתיים.

עץ ההחלטות

#df

מודל של למידה מונחית שמורכב מקבוצה תנאים ועלים שמסודרים בהיררכיה. לדוגמה, זהו עץ ההחלטות:

עץ החלטות המורכב מארבעה תנאים
          באופן היררכי, שמוביל לחמישה עלים.

E

אנטרופיה

#df

לחשבון תורת המידע, תיאור של מידת ההסתברות הבלתי צפויה של הסבירות. לחלופין, האנטרופיה מוגדרת גם בתור כל דוגמה מכילה. להתפלגות יש את האנטרופיה הגבוהה ביותר האפשרית כאשר כל הערכים של משתנה אקראי בסבירות שווה.

האנטרופיה של קבוצה עם שני ערכים אפשריים – 0 ו-'1' (לדוגמה, התוויות בבעיה של סיווג בינארי) מכיל את הנוסחה הבאה:

H = -p יומן - q יומן = -p יומן - (1-p) * יומן (1-p)

איפה:

  • H היא האנטרופיה.
  • p הוא החלק של '1' דוגמאות.
  • q הוא החלק של '0' דוגמאות. שימו לב ש-q = (1 - p)
  • log הוא בדרך כלל יומן2. במקרה הזה, האנטרופיה הוא קצת.

לדוגמה, נניח את הדברים הבאים:

  • 100 דוגמאות מכילות את הערך '1'
  • 300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ביט לכל דוגמה

קבוצה מאוזנת לחלוטין (לדוגמה, 200"0" ו-200"1") תהיה אנטרופיה של 1.0 ביט לכל דוגמה. ככל שהקבוצה הופכת לא מאוזן, האנטרופיה שלו נעה לכיוון 0.0.

בעצי ההחלטות, האנטרופיה עוזרת לנסח צבירת מידע כדי לעזור splitter בוחרים את התנאים במהלך הצמיחה של עץ החלטות מסוג סיווג.

השוו בין אנטרופיה עם:

אנטרופיה נקראת בדרך כלל 'אנטרופיה של שנון'.

F

חשיבות התכונות

#df

מילה נרדפת לחשיבות משתנה.

G

טוהר ג'יני

#df

מדד שדומה ל-entropy. פוצצים משתמשים בערכים שנגזרים מ-gini impurity או מאנטרופיה כדי להרכיב תנאים לסיווג עצי החלטות. איסוף מידע נגזר מאנטרופיה. אין מונח מקביל ומקובל באופן אוניברסלי עבור המדד שנגזר מפני טוהר ג'יני, עם זאת, המדד הזה ללא שם חשוב באותה מידה מידע נוסף.

זיהום ג'יני נקרא גם מדד ג'יני, או פשוט gini.

עצים מוגברים הדרגתיים (החלטה) (GBT)

#df

סוג של יער החלטות שבו:

הגדלה הדרגתית

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים באופן איטרטיבי לשפר את האיכות (לצמצם את האובדן) של מודל חזק. לדוגמה, מודל חלש יכול להיות מודל ליניארי או מודל של עץ החלטות קטן. המודל החזקה הופך לסכום של כל המודלים החלשים שאימנו קודם לכן.

בצורה הפשוטה ביותר של שיפור הדרגתי, בכל איטרציה, מודל חלש מאומנות כדי לחזות את הדרגתיות של הפסד של המודל החזקה. לאחר מכן, הפלט של מודל חזק מתעדכן על ידי חיסור ההדרגתיות החזויה, בדומה לירידה הדרגתית.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

איפה:

  • $F_{0}$ הוא המודל החזקה מתחיל.
  • $F_{i+1}$ הוא המודל החזקה הבא.
  • $F_{i}$ הוא המודל החזקה הנוכחי.
  • $\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא כיווץ, מקביל קצב למידה ב- ירידה הדרגתית.
  • $f_{i}$ הוא המודל החלשה שאומן לחזות את שיפוע האובדן של $F_{i}$.

וריאציות מודרניות של הגדלה הדרגתית כוללות גם את הנגזרת השנייה (הסיאן) של האובדן בחישובים שלהם.

עצי החלטה משמשים בדרך כלל כמודלים חלשים הגדלה הדרגתית. צפייה עצים מוגברים בהדרגתיות (החלטה).

I

נתיב ההסקה

#df

בעץ ההחלטות, במהלך הסקה, את המסלול שדוגמה מסוימת לוקחת root לתנאים אחרים, שמסתיים ב- עלה. לדוגמה, בעץ ההחלטות הבא, בחיצים עבים יותר, אתם יכולים לראות את נתיב ההסקה לדוגמה. :

  • x = 7
  • y = 12
  • z = -3

נתיב ההסקה באיור הבא עובר דרך שלוש תנאים לפני הגעה לעלה (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
          התנאי הבסיסי הוא (x > 0). מאחר שהתשובה היא 'כן',
          נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
          מכיוון שהתשובה היא 'כן', נתיב ההסקה עובר
          התנאי הבא (z > 0). מכיוון שהתשובה היא 'לא', נתיב ההסקה
          עובר לצומת הטרמינל שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מראים את נתיב ההסקה.

איסוף מידע

#df

ביערות החלטה, ההבדל בין אנטרופיה של צומת והשקלול (לפי מספר הדוגמאות) סכום האנטרופיה של צמתי הצאצאים. האנטרופיה של צומת היא האנטרופיה של הדוגמאות שבצומת הזה.

לדוגמה, נבחן את ערכי האנטרופיה הבאים:

  • האנטרופיה של צומת ההורה = 0.6
  • אנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
  • ב-צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות צומת צאצא אחר. לכן:

  • סכום האנטרופיה המשוקללת של צומתי צאצא = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

כלומר, כמות המידע שמתקבלת היא:

  • השגת מידע = אנטרופיה של צומת הורה – סכום אנטרופיה משוקלל של צומתי צאצא
  • רווח מידע = 0.6 - 0.14 = 0.46

רוב המפזרים מנסים ליצור תנאים כדי להפיק מידע מקסימלי.

תנאי מוגדר

#df

בעץ החלטות, יוצרים תנאי שבודק אם יש פריט אחד בקבוצת פריטים. לדוגמה, הדוגמה הבאה היא תנאי מוגדר:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של התכונה בסגנון בית הוא tudor או colonial או cape, אז התנאי הזה מקבל את הערך 'כן'. אם המיקום הערך של התכונה 'סגנון בית' הוא משהו אחר (לדוגמה, ranch), התנאי הזה מקבל את הערך 'לא'

תנאים קבועים בדרך כלל מובילים לעצי החלטה יעילים יותר מאשר תנאים שבודקים תכונות בקידוד חם אחד.

L

עלה

#df

כל נקודת קצה בעץ החלטות. ביטול לייק condition, עלה לא מבצע בדיקה. במקום זאת, עלה הוא חיזוי אפשרי. עלה הוא גם הטרמינל צומת של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

לא

צומת (עץ החלטות)

#df

בעץ ההחלטות, כל מצב או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

תנאי א-בינארי

#df

תנאי שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלושה מקרים אפשריים תוצאות:

תנאי (number_of_legs = ?) שמוביל לשלוש אפשרויות
          ואת התוצאות שלו. תוצאה אחת (number_of_legs = 8) מובילה להעלאת עלה
          שנקרא "ספיידר". תוצאה שנייה (number_of_legs = 4) מובילה
          עלה שנקרא כלב. תוצאה שלישית (number_of_legs = 2) מובילה
          עלה בשם פינגווין.

O

מצב משופע

#df

בעץ ההחלטות, תנאי שכולל יותר מאפשרות אחת תכונה. לדוגמה, אם גובה ורוחב הם שתי הישויות, אז זהו תנאי אלכסוני:

  height > width

השוו בין תנאי יישור לציר.

הערכה מחוץ לתיק (הערכת OOB)

#df

מנגנון להערכת האיכות של יער החלטות על ידי בדיקת כל אחד מהם עץ החלטות שעומד מול דוגמאות לא בשימוש הדרכה של עץ ההחלטות הזה. לדוגמה, ב בתרשים הבא, שימו לב שהמערכת מאמנת כל עץ החלטות כשני שלישים מהדוגמאות, ואז מבצעת הערכה מול שליש מהדוגמאות שנותרו.

יער החלטה שמורכב משלושה עצי החלטה.
          עץ החלטות אחד עובר אימון על שני שלישים מהדוגמאות
          ואז משתמש בשליש הנותר להערכת OOB.
          עץ החלטות שני עובר אימון על שני שלישים שונים
          של הדוגמאות מעץ ההחלטות הקודם,
          משתמש בשליש שונה להערכת OOB בהשוואה
          עץ ההחלטות הקודם.

הערכה מחוץ לתיק היא שיטה יעילה מבחינה חישובית ושמרנית הערכה של מנגנון אימות צולב. באימות צולב, מודל אחד מאומן לכל סבב של אימות מוצלב (לדוגמה, 10 מודלים מאומנים בתהליך אימות צולב של 10 פעמים). בעזרת הערכת OOB, מתבצע אימון של מודל יחיד. כי כבודה מסתירה נתונים מסוימים מכל עץ במהלך האימון, הערכת OOB יכולה להשתמש את הנתונים כדי לבצע אימות צולב משוער.

P

חשיבות של משתנה תמורה

#df

סוג של חשיבות משתנה לצורך הערכה לגידול בשגיאת החיזוי של מודל אחרי החלפה של של התכונה הזו. חשיבות משתנה הפרמוטציה היא בלתי תלויה במודל מדד.

R

יער אקראי

#df

שילוב של עצי החלטה בתוך שכל עץ החלטות אומן לפי רעש אקראי ספציפי, כמו כבודה.

יערות אקראיים הם סוג של יער החלטות.

הרמה הבסיסית (root)

#df

הצומת שמתחיל (הראשון) תנאי) בעץ החלטות. לפי המוסכמה, תרשימים מציבים את השורש בחלק העליון של עץ ההחלטות. לדוגמה:

עץ החלטות עם שני תנאים ושלושה עלים. 
          תנאי ההתחלה (x > 2) הוא השורש.

S

דגימה עם החלפה

#df

שיטה של בחירת פריטים מתוך קבוצת פריטים מועמדים שבהם אותם פריטים ניתן לבחור את הפריט מספר פעמים. הביטוי "עם החלפה" זה שאחרי כל בחירה, הפריט שנבחר מוחזר למאגר של פריטים מועמדים. השיטה ההפוכה, דגימה ללא החלפה, המשמעות היא שאפשר לבחור פריט מועמד רק פעם אחת.

לדוגמה, נבחן את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באקראי את fig בתור הפריט הראשון. אם משתמשים בדגימה עם החלפה, המערכת תבחר הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, הקבוצה זהה לזו הקודמת, כך שהמערכת עשויה צריך לבחור שוב את fig.

אם משתמשים בדגימה ללא החלפה, לא ניתן לבחור דגימה לאחר בחירתה היא בחרה שוב. לדוגמה, אם המערכת בוחרת באקראי את fig בתור הדוגמה הראשונה, ואז אי אפשר לבחור שוב את fig. לכן המערכת בוחר את הדוגמה השנייה מתוך הקבוצה (המצומצמת) הבאה:

fruit = {kiwi, apple, pear, cherry, lime, mango}

כיווץ

#df

היפר-פרמטר ב- שיפור הדרגתי ששולט התאמת יתר. כיווץ בהגדלה הדרגתית מקבילה לקצב למידה ירידה הדרגתית. הכיווץ הוא מספר עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך יותר מפחית התאמת יתר גדול יותר מערך כיווץ גדול יותר.

פיצול

#df

בעץ ההחלטות, שם אחר של מצב.

פיצול

#df

בזמן אימון של עץ החלטות, התרחיש (והאלגוריתם) האחראי למציאת מצב בכל צומת.

T

test

#df

בעץ ההחלטות, שם אחר של מצב.

סף (עבור עצי החלטות)

#df

בתנאי יישור לציר, הערך של מתבצעת השוואה אל feature. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

V

חשיבות משתנה

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל אחד מהם. feature למודל.

לדוגמה, נבחן עץ החלטות אומדנים של מחירי הבית. נניח שעץ ההחלטות הזה משתמש בשלושת תכונות: גודל, גיל וסגנון. אם קבוצה של חשיבות משתנה לגבי שלוש התכונות {size=5.8, גיל=2.5, style=4.7}, אז הגודל חשוב יותר עץ החלטות מאשר גיל או סגנון.

קיימים מדדים שונים של חשיבות של משתנים, שיכולים לתת מידע מומחים ללמידת מכונה על היבטים שונים של מודלים.

W

חוכמת ההמונים

#df

הרעיון שלפיו חישוב הממוצע של דעות או אומדנים לגבי קבוצה גדולה של אנשים ('הקהל') מניב בדרך כלל תוצאות טובות ומפתיעות. לדוגמה, נניח שיש משחק שבו אנשים מנחשים את מספר סוכריות ג'לי ארוזות בצנצנת גדולה. למרות שרוב האנשים לא יהיו מדויקות, וממוצע כל הניחושים באופן מפתיע, קרובים למספר בפועל סוכריות ג'לי בצנצנת.

Ensembles הם תוכנה שמקבילה לחוכמה של הקהל. גם אם מודלים ספציפיים מספקים תחזיות מאוד לא מדויקות, חישוב הממוצע של תחזיות של מודלים רבים מייצר באופן מפתיע חיזויים טובים. לדוגמה, למרות שהאדם הפרטי עץ ההחלטות עלול ליצור תחזיות גרועות, ביער ההחלטות מוצגות בדרך כלל חיזויים טובים מאוד.