Λέσχη Μαθηματικών

Χειμερινό εξάμηνο 2024-25

08
10

Αίθουσα A11

Ώρα 15:00

Statistical learning through Baysian regression trees (σε 1 μέρος)

Μαυρίκιος Μαυρίκος

Περίληψη: Μέσα από την τεράστια ποικιλία μεθόδων στατιστικής μάθησης, τα μοντέλα που ενσωματώνουν δυαδικά δέντρα είναι η πιο δημοφιλής επιλογή τόσο σε προβλήματα κατηγοριοποίησης όσο και σε προβλήματα παλινδρόμησης. Τέτοιοι αλγόριθμοι αποτελούν τα Random Forests (Breinman, 2001) και το Stochastic Gradient Boosting (Friedman, 2002).

Το ενδιαφέρον στρέφεται στα Bayesian Additive Regression Trees, γνωστά ως BART, μια μη παραμετρική, Μπευζιανή προσέγγιση παλινδρόμησης η οποία διαφοροποιείται από τις προηγούμενες , αφού βασίζεται σε ένα Μπευζιανό μοντέλο πιθανοτήτων και όχι σε έναν καθαρό αλγόριθμο. Η αξιοσημείωτη διαφορά του BART είναι η ανάπτυξη ενός μοντέλου αθροίσματος δέντρων, καθιστώντας το ένα αθροιστικό μοντέλο, όπου κάθε δέντρο περιορίζεται από μια συγκεκριμένη prior προκειμένου να έχει μικρή επίδραση. Πέρα από την συμπερασματολογία που αντλείται από έναν MCMC αλγόριθμο, το BART μπορεί να θεωρηθεί κατάλληλο για την επιλογή και στατισιτκά σημαντικών μεταβλητών. Τέλος, η εφαρμογή του BART έχει δείξει αρκετά θετικά αποτελέσματα σε μια μεγάλη ποικιλία προβλημάτων του πραγματικού κόσμου, όπως η πρόβλεψη χιονοστιβάδων σε ορεινούς δρόμους (Blattenberger and Fowles, 2014) ή ο τρόπος με τον οποίο οι μεταγραφικοί παράγοντες αλληλεπιδρούν με το DNA (Zhou and Liu, 2008).

Abstract: Among the vast variety of statistical learning methods, models that incorporate binary trees are the most popular choice for both classification and regression problems. Such algorithms include Random Forests (Breinman, 2001) and Stochastic Gradient Boosting (Friedman, 2002).

Interest is focused on Bayesian Additive Regression Trees, known as BART, a non-parametric Bayesian regression approach that differs from previous methods, as it is based on a Bayesian probability model rather than a pure algorithm. The notable distinction of BART is the development of a sum-of-trees model, making it an additive model, where each tree is constrained by a specific prior to have minimal impact. Beyond the inferences drawn from an MCMC algorithm, BART can be considered suitable for selecting statistically significant variables. Finally, the application of BART has shown quite positive results in a wide variety of real-world problems, such as predicting avalanches on mountain roads (Blattenberger and Fowles, 2014) or understanding how transcription factors interact with DNA (Zhou and Liu, 2008).