Τετάρτη, 30 Μαρτίου 2016 08:32

Four factor analysis: ένα παράδειγμα.

Από :

Η αλήθεια είναι ότι ο τίτλος ίσως είναι λίγο παραπλανητικός γιατί το κέιμενο έχει περισσότερο θεωρία και νούμερα παρά μπασκετική ανάλυση. Ο Giorgos ήδη την επόμενη του αγώνα ανέβασε μια αρκετά κατατοπιστική ανάλυση των αιτίων της νικής, και 6 μέρες μετά τον αγώνα μικρό ενδιαφέρον θα έχει μια ακόμα ανάλυση του από την ίδια σκοπιά. Τότε ποιος ακριβώς ο λόγος του κειμένου ρε φίλε, σε ακούω να διερωτάσαι. Λογική η απορία σου, αλλά άσε με να σου εξηγήσω.

Αν είσαι πιστός αναγνώστης και θαμώνας της παρέας μας, τότε είναι πολύ πιθανό να διάβασες ένα παλιότερο άρθρο που μιλούσε για τους 4 παράγοντες του Dean Oliver που οδηγούν μια ομάδα στη νίκη ενός αγώνα μπάσκετ. Στο σημερινό κείμενο θα βασιστώ σε εκείνο το άρθρο και θα σας παρουσιάσω έναν πίνακα που θα χρησιμοποιώ από δω και πέρα όταν θα προσπαθώ να αναλύσω κάποιο από τα παιχνίδια της Ευρωλίγκας που θα ακολουθήσουν χρησιμοποιώντας ώς παράδειγμα τον αγώνα ανάμεσα στην Νταρουσαφακα και τον Παναθηναϊκό την προηγούμενη Πέμπτη.

Χωρίς να μπω σε περισσότερες λεπτομέρειες, υπενθυμίζω ότι σύμφωνα με τον Dean Oliverοι 4 παράγοντες που είναι οι πιο σημαντικοί και καθορίζουν το νικητή σε έναν αγώνα μπάσκετ είναι:

  1. Η ευστοχία μιας ομάδας
  2. Τα επιθετικά ριμπάουντ
  3. Τα λάθη
  4. Η συχνότητα με την οποία μια ομάδα εκτελεί βολές και η ευστοχία σε αυτές

Όμως όταν τελειώνει ένας αγώνας, αυτό που βλέπουμε στο φύλλο της στατιστικής δεν μας λέει όλη την αλήθεια για αυτούς τους παράγοντες, καθώς έχουμε τα απόλυτα νούμερα και όχι τα ποσοστά για τα οποία είχαμε μιλήσει στο παλιότερο άρθρο. Στη συνέχεια του κειμένου θα χρησιμοποιήσω τους ελληνικούς όρους όταν και όποτε είναι δόκιμοι και χρησιμοποιούνται ευρέως βάζοντας σε παρένθεση τον αγγλικό όρο, ενώ όπου δεν υπάρχει ελληνικός όρο ή δεν μου φαίνεται ιδιαίτερα δόκιμος θα χρησιμοποιώ κατευθείαν τον αγγλικό.

Επιθέσεις (Plays):
Προσωπικά όταν βλέπω το boxscore ενός αγώνα το πρώτο πράγμα που κάνω είναι να υπολογίσω τις κατοχές (possesions) επιπλέον επιθέσεις (plays) που έκανε η μία ομάδα από την άλλη. Ο λόγος που υπολογίζω πρώτα τις επιπλέον επιθέσεις και όχι τις κατοχές, είναι γιατί είναι πολύ πιο εύκολο και δεν χρειάζεται να κάνω καμιά πράξη πολύπλοκη. Για να υπολογίσω τις επιπλέον επιθέσεις της ομάδας Α χρησιμοποιώ τον τύπο PLA2 = ORA - ORB - TOA + TOB. Κοινώς, η διαφορά των επιθετικών ριμπάουντ και των λαθών ανάμεσα στις 2 ομάδες μας δίνουν τη διαφορά των επιθέσεων. Αν το νούμερο βγεί αρνητικό πχ -Ψ αυτό σημαίνει ότι η ομάδα Α έκανε Ψ επιθέσεις λιγότερες από την Α, ενώ αν βγει θετικό τότε η ομάδα Α έκανε Ψ επιθέσεις παραπάνω από τη Β. Στο παράδειγμά μας όπως βλέπουμε και στο boxscore της αναμέτρησης ο ΠΑΟ είχε 4 επιθετικά ριμπάουντ λιγότερα και 3 λάθη λιγότερα, βάζοντας τα νούμερα στην παραπάνω φόρμουλα το αποτέλεσμα βγαίνει -1, που σημαίνει ότο ο ΠΑΟ έκανε μία λιγότερη επίθεση.

Κατοχές (Possesions) και ρυθμός (Pace):
Το επόμενο πράγμα που κοιτάω σε έναν αγώνα που με ενδαφέρει είναι οι κατοχές και κατά συνέπεια ο ρυθμός (Pace). Πριν όμως προχωρήσω στην εξίσωση υπολογισμού, νομίζω είναι η κατάλληλη στιγμή για να εξηγήσουμε τη διαφορά ανάμεσα στην κατοχή και την επίθεση. Αλλαγή κατοχής έχουμε όταν η ομάδα που αμύνεται πάρει την μπάλα στα χέρια της και ξεκινήσει την επίθεσή της. Μέσα σε μία κατοχή η ομάδα που επιτίθεται μπορεί να έχει 1 άστοχο σουτ, στη συνέχεια ο σέντερ να πάρει το επιθετικό ριμπάουντ και να σκοράρει. Σε αυτό το παράδειγμα έχουμε μια κατοχή που συνεχίζεται με το επιθετικό ριμπάουντ και ολοκληρώνεται με το καλάθι. Στο ίδιο παράδειγμα όμως έχουμε 2 επιθέσεις (plays). Από τα παραπάνω συμπεραίνουμε ότι ο αριθμός των κατοχών σε ένα παιχνίδι για κάθε ομάδα, θα πρέπει να είναι παραπλήσιος της άλλης συνήθως ± 1, αλλά ο αριθμός των επιθέσεων μπορεί να διαφέρει αρκετά.

Αφού λοιπόν ξεκαθαρίσαμε τις δυο έννοιες πάμε να δούμε πώς υπολογίζονται οι κατοχές και ο ρυθμός. Σύμφωνα με το basketball-reference οι κατοχες της κάθε ομάδας υπολογίζονται από τον απλό3 τύπο: PossA = 0.5 * ((Tm FGA + 0.4 * Tm FTA - 1.07 * (Tm ORB / (Tm ORB + Opp DRB)) * (Tm FGA - Tm FG) + Tm TOV) + (Opp FGA + 0.4 * Opp FTA - 1.07 * (Opp ORB / (Opp ORB + Tm DRB)) * (Opp FGA - Opp FG) + Opp TOV)). Πρίν κλείσεις τον υπολογιστή και αρχίσεις να με βρίζεις για το πως καταστρέφω ένα τόσο ωραίο άθλημα με τόσες μαθηματικές εξισώσεις, θα επιστρέψω στον αγαπημένο Dean Oliver ο οποίος για τύπους σαν εμένα που δεν έχουμε το χρόνο να κάνουμε όλες αυτές τις πράξεις, μας έδωσε την παρακάτω εξίσωση για να υπολογίσουμε κατα προσέγγιση τις κατοχές μιας ομάδας Poss4 = FGA + OR - TO + 0.4*FTA.

Με βάση την παραπάνω εξίσωση, μπορούμε να υπολογίσουμε τον ρυθμό (Pace) στον οποίον παίχτηκε ένα παιχνίδι, χρησιμοποιούμε τη φόρμουλα Pace5 = 40 * ((Tm Poss + Opp Poss) / (2 * (Tm MP / 5))). Το Pace ενός αγώνα μπορεί να μας δώσει πολλά στοιχεία σχετικά με την έκβασή του. Επιστρέφοντας στο παράδειγμα του αγώνα του Παναθηναϊκού ο αγώνας είχε Pace 72.9, το οποίο αν το συγρκίνουμε με τα στοιχεία του gigabasket.org για τη φάση του Top 16, θα δούμε ότι είναι πολύ κοντά στον ΜΟ της διοργάνωσης. Επίσης συγκρίνοντας το σκορ του αγώνα με το Offensive Rating6 της διοργάνωσης για τη φάση του Top 16 (107,1) μπορούμε να καταλάβουμε ότι οι άμυνες δεν τα πήγαν και πολύ καλά στο συγκεκριμένο παιχνίδι7.

4 Παραγοντες: 
Πάμε όμως να δούμε τους 4 παράγοντες τι μας λένε. Όπως είχαμε πει στο προηγούμενο κείμενο για την ευστοχία θα χρησιμοποιήσουμε το eFG%, για τα επιθετικά ριμπάουντ το OR%, για τα λάθη το TOV%. Για την ευστοχία στις βολές, προκειμένου να χρησιμοποιήσουμε ένα νούμερο (αντί για δύο μεγέθη το FTrate και το FT%) τόσο για το ποσοστό ευστοχίας όσο και για το FTrate, θα χρησιμοποιήσουμε το FTMrate8 = FTM/FGA. Επίσημα το τελευταίο μέγεθος δεν θα το βρεις σε κάποιο από τα σαιτ, αλλά μιλώντας σε διάφορα φόρουμ με χρήστες που έχουν μεγαλύτερη εμπειρία στη στατιστική ανάλυση αγώνων, καταλήγανε ότι η παραπάνω φόρμουλα είναι καλύτερη από το FTrate, όπου στον αριθμητή είναι οι βολές που εκτέλεσε μια ομάδα, γιατί λαμβάνει υπόψη και την ευστοχία. Για να το κάνω πιο απλό με ένα παράδειγμα, έστω ότι σε έναν αγώνα η ομάδα Α εκτελεί 50 σουτ εντός παιδιάς και 20 βολές. Αυτό σημαίνει ότι το FTrate είναι 20/50 = 0.4. Αν από τις 20 βολές όμως έχει βάλει μόνο τις 10 (περιπτώσεις πχ ομάδων που είναι θύμα τις τακτικής "hack a somebody" και έχουν στο ρόστερ τους παίκτες όπως ο DeAndre Jordan) το FTMrate θα είναι 10/50 = 0.2.

Προκειμένου να βλέπω με μια ματιά και πιο εύκολα τι έγινε με τους 4 παράγοντες, έφτιαξα τον παρακάτω πίνακα στο exel. Στο παράδειγμα που ακολουθεί είναι η ανάλυση των 4 παραγόντων του αγώνα του Παναθηναϊκού κόντρα στη Νταρουσάφακα. Η ευστοχια των 2 ομάδων ήταν η ίδια (αν βάζαμε και δεύτερο δεκαδικό ο ΠΑΟ ήταν οριακά καλύτερος), στα επιθετικά ριμπάουντ η Νταρουσάφακα ήταν καλύτερη αφού πήρε το 39% των ριμπάουντ που κρίθηκαν στην άμυνα του ΠΑΟ σε σύγκριση με το 28% που πήρε ο Παναθηναϊκός όταν έκανε επίθεση. Στα λάθη, όπως είναι φυσικό ο μικρότερος αριθμός κερδίζει, άρα ο Παναθηναϊκός που τελείωσε με λάθος το 21.9% των κατοχών του ήταν σε καλύτερη θέση σε σχέση με την ομάδα από την Τουρκία, που τελείωσε με λάθος 26.1% των κατοχών της (λίγο παραπάνω από 1 στις 4!). Εκεί όμως που η διαφορά ήταν μεγάλη ήταν στις ελευθερες βολές. H ομάδα του Τζόρτζεβιτς είχε FTMrate 51% (!) ενώ η ομάδα του Μαχμούτι 29,8%. Το πράσινο και κόκκινο χρώμα βοηθάει για να καταλάβουμε καλύτερα ποιον παράγοντα κέρδισε η Ελληνική ομάδα και ποιον η Τουρκική.

.  

Από δω και πέρα, όποτε θα κάνω κάποια ανάλυση αγώνα για την Ευρωλίγκα θα σου ποστάρω και τον αντίστοιχο πίνακα, όπου θα βλέπουμε μέσα από την μαθηματική ματιά, πως εξηγείται το τελικό αποτέλεσμα. Με αυτόν τον τρόπο σε γλυτώνω από τον κόπο να κάνεις εσύ τις πράξεις και θα μπορώ να περάσω κατευθείαν στην επεξήγηση του και στα συμπεράσματα.

Αντί επιλόγου:

Αν είσαι αρκετά παρατηρητικός, θα διαπίστωσες ότι ακόμα δεν έχω κάνει καμία πρόταση και επίσης έχω αφήσει ασχολίαστες τις γραμμές 18 - 21 στον παραπάνω πίνακα. Συγχαρητήρια για όσους το αντιλήφθηκαν εγκαίρως, κερδίσατε τον θαυμασμό μου! Αλλά πάμε να δούμε αναλυτικότερα τι έχουμε σε εκείνες τις γραμμές. Ο Dean Oliver στο βιβλίο του, μας έδειξε και ανέλυσε τους 4 παράγοντες και επίσης τους ταξινόμησε ανάλογα με τη βαρύτητα που έχουν. Όμως, ένα πράγμα που δεν έκανε είναι να μας πει τι σημασία/βάρος έχει ο κάθε ένας από αυτούς. Προκειμένου να κρατήσω την ίδια ιεραρχία στη βαρύτητα και μετά από μια σειρά πειραμάτων κατέληξα (προς το παρόν) ότι η ευστοχία έχει έναν συντελεστή βαρύτητας 40%, τα ριμπάουντ 25%, τα λάθη 20% και οι βολές 15%8. Αυτούς τους συντελεστές βαρύτητας, μπορείς να τους δεις σε κάθε στηλη στη σειρά 18.

Στη σειρά 19, για κάθε έναν από τους 4 παράγοντες πολλαπλασιάζω με τον αντίστοιχο συντελεστή βαρύτητας και στη συνέχεια επί 100, ώστε να μετατρέψω τα ποσοστά σε πόντους. Αυτό είναι πολύ σημαντικό, γιατί στο μπάσκετ δεν κερδίζει η ομάδα με τα καλύτερα ποσοστά, αλλά η ομάδα που στο τέλος του αγώνα έχει τους περισσότερους πόντους.

Στη σειρά 20, προσθέτω τους πόντους του κάθε παράγοντα (όπως προέκυψαν από τις παραπάνω πράξεις) και η σούμα είναι η διαφορά που θα έπρεπε να έχει η γηπεδούχος ομάδα από την φιλοξενούμενη, σύμφωνα με την ανάλυση των 4 παραγόντων. Φυσικά, καταλαβαίνεις ότι ανάλογα με τους συντελεστές βαρύτητας που χρησιμοποιήσαμε στη σειρά 18, εξαρτάται και το αποτέλεσμα που θα πάρουμε στο τέλος. Επίσης στο άθροισμα προσθέτω και την επίδραση της έδρας που είναι στη σειρά 21 (edit: Gracias στον Γιάννη για την σημείωση ότι κάτι έλειπε).

Και ετσι τελικά φτάνουμε και στη σειρά 21, όπου έχω βάλει την επίδραση της έδρας (Home Court Advantage). Όλοι όσοι έχουμε πάει σε έναν αγώνα μπάσκετ ή κάποια στιγμή διαβάσαμε κάποια αθλητική εφημερίδα, έχουμε ακούσει για τον 6ο παίκτη, τον λαο της ομάδας που την οδήγησε στη νίκη κόντρα στους 8 αντιπάλους (5 + 3 διαιτητές a priori για τις ελληνικές φυλλάδες). Ποια είναι όμως η επίδραση της έδρας; Πόσους πόντους κερδίζει μια ομάδα όταν παίζει στην έδρα της;

Αυτά τα πολύ σημαντικά ερωτήματα έχουν απασχολήσει πολλούς επιστήμονες χωρίς να υπάρχει ακόμα μια απάντηση που να θεωρείται η απόλυτη αλήθεια (βασικά δεν υπάρχει απόλυτη αλήθεια, αλλά αυτό θα μας το εξηγήσει καλύτερα ένας δικηγόρος). Σε αυτή τη δημοσίευση οι Oliver Entine και Dylan Small, υπολόγισαν το πλεονέκτημα της έδρας για το ΝΒΑ τις σεζόν 2001-2002 ότι ήταν 3,62 πόντοι ανά αγωνα, αν και όπως δημοσίευσε πρόσφατα (2015) ο Tom Haberstroh στο ESPN, η επιδραση της έδρας στους αγώνες του ΝΒΑ τα τελευταία χρόνια έχει μειωθεί δραματικά. Βέβαια, πριν ο αλέκτωρ λαλήσει τρις ήρθε ο Economist και έβαλε ένα μικρό φρένο στη θεωρεία του Tom Haberstoh, λεγοντας πως η μείωση δεν είναι τόσο μεγάλη όσο υποστηριζε στο άρθρο του.

 Όπως κάθε σοβαρός "επιστήμονας", έτσι και γω αφού παιδεύτηκα πάρα πολύ μέχρι να υπολογίσω το πλεονέκτημα της έδρας σε πόσους πόντους μεταφράζεται, κατέληξα στην πανάκεια του 21ου αιώνα που είναι οι μπούκηδες aka εταιρείες στοιχημάτων. Εδώ υπάρχει κόσμος που ψηφίζει ή κάνει ανάλυση στις εκλογές ανάλογα με τα ποσοστά των εταιρειών στοιχηματισμού, εγώ θα είχα πρόβλημα να ζητήσω τη βοήθειά τους για το πλεονέκτημα της έδρας; Να ναι καλά το google και η Betfirm που με βοήθησαν δείχνοντάς μου και το πλεονέκτημα της έδρας για τη σεζόν 2014 στο ΝΒΑ μεταφραζόταν σε 2.3 πόντους κατα ΜΟ για τη γηπεδούχου ομάδα (-1,3 πόντοι από την ανάλυση του 2001-2002 των Oliver Entine και Dylan Small). Μετά από όλα αυτά, στους υπολογισμούς μου για την Ευρωλίγκα χρησιμοποιώ 1,5 ποντους ως πλεονέκτημα έδρας σε έδρες χαλαρές όπως της Τσεντεβίτα, 2 στις λίγο πιο ισχυρές όπως και στο παράδειγμά μας και 3 σε Ερυθρό Αστέρα, Ολυμπιακό, Παναθηναϊκό κτλ όταν παίζουν με sold out. 

Όπως είπα και πριν, από δω και πέρα οι αναλύσεις μου θα έχουν το παραπάνω πίνακα προκειμένου να δούμε πως εξηγείται το αποτέλεσαμ ενός αγώνα με βάση τις προαναφαιρθείσες παραμέτρους. Τέλος, 'οποιος από τους αναγνώστες θέλει να συμμετάσχει ώστε να βελτιώσουμε τη φόρμουλα και το παραπάνω εργαλείο ανάλυσης ας στείλει ένα μύνημα είτε εδώ μέσω disqus, είτε μέσω twitter στο @Lonis_t. Για να δούμε αν μπορούμε συλλογικά να κάνουμε κάτι ωραίο!

Σημειώσεις:

  1. Θα μπορούσαμε να πούμε ότι είναι ο πατέρας των advanced analytics για το μπάσκετ.
  2. όπου ORA: τα επιθετικά ριμπάουντ της ομάδας Α
    ORΒ: τα επιθετικά ριμπάουντ της ομάδας Β
    ΤΟΑ: τα λάθη της ομάδας Α
    ΤΟΒ: τα λάθη της ομάδας Β
  3. Ναι το ξέρω ότι δεν είναι απλός ο τύπος, απλά για τους λάτρεις των μαθηματικών είπα να τον βάλω.
  4. FGA: Field Goals Attempted (Σουτ Εντος Παιδιάς)
    OR: Ofensive Rebound (Επιθετικά Ριμπάουντ)
    TO: Turnover (Λάθη)
    FTA: Free Throws Attempted (Ελεύθερες Βολές)
  5. Tm Poss + Opp Poss = το αθροισμα των κατοχών των 2 ομάδων
    TmMP = τα άθροισμα των λεπτών που έπαιξανοι παίκτες μιας ομάδας. Για αγώνες ΝΒΑ, αντί στην αρχή να πολλαπλασιάσουμε με 40 το κάνουμε με 48 που είναι τα λεπτά που διαρκεί μια αναμέτρηση
  6. Οι πόντοι που βάζει μια ομάδα ανά 100 κατοχές
  7. Με απλή μέθοδο των τριών, αν οι ομάδες στο Top 16, βάζουν 107 πόντους ανά 100 κατοχές, σε ένα παιχνίδι 73 (72,9 για την ακρίβεια) κατοχών θα έβαζαν περίπου 78 πόντους (78,11 το ακριβές νούμερο). Το ότι ο αγώνας έληξε 84-86 δείχνεί ότι ή οι άμυνες πήγαν περίπατο ή οι επιθέσεις ήταν πολύ αποτελεσματικές ή και τα δυο ;)
  8. Δεν μπορώ να το αιτιολογήσω με επιχειρήματα, είναι πιο πολύ έντσικτο και αναλύσεις διάφορων αγώνων και το αποτέλεσμα που μου έδωσαν
Περισσότερα σε αυτή την κατηγορία: « Ένα κείμενο για τον Γιάννη Μπουρούση By the Book »

Basketballguru.gr 2018 All righs reserved.      Designed and Developed by Web Rely