Årsag og virkning inden for statistik

Fora ASTRO-FORUM NYT FRA VIDENSKABEN Årsag og virkning inden for statistik

  • Dette emne har 3 svar og 1 stemme, og blev senest opdateret for 6 år, 1 måned siden af Bjarne. This post has been viewed 514 times
Viser 4 indlæg - 1 til 4 (af 4 i alt)
  • Forfatter
    Indlæg
  • #316135

    Bjarne
    Moderator
      • Super Nova

      Jeg vil starte en tråd, som forklarer forskellen mellem traditionel statistik og Thomas Bayes’ statistik. Den traditionelle statistik omhandler sandsynligheden P(A) for, at en påstand A er sand. Om sandsynligheden for at A er falsk gælder A(¬A) = 1 – P(A), da A enten må være sand eller falsk. Sandsynligheden for, at både A og B er sande, kan udtrykkes ved P(A,B) = P(A|B)P(B) = P(B|A)P(A), hvor P(A|B) og P(B|A) er betingede sandsynligheder, dvs P(A|B) er sandsynligheden for A, hvis vi kender B med sikkerhed. Der er symmetri mellem A og B. Der findes ingen årsag og virkning mellem A og B.

      Thomas Bayes opfatter situationen anderledes. Statistik vedrører ikke blot sandsynligheder for påstandes sandhedsværdi. Statistik kan i stedet anvendes til at finde den grad af tiltro, som vi på et givet tidspunkt kan have til en bestemt hypotese H. Det nye begrep er bevismaterialet eller på engelsk evidence e, som vi har på hypotesens sandhed. Vi får ved at indsætte H og e i ligningen ovenfor: P(H|e)P(e) = P(e|H)P(H). Hjertet i den bayesiske slutning (inference) er formlen:

      P(H|e) = P(e|H)P(H)/P(e)

      hvor P(H) er den oprindelige tiltro (apriori sandsynlighed) til hypotesen og P(e|H) er likelihood for at finde bevismaterialet e, hvis hypotesen H er sand. P(H|e) er den efterfølgende tiltro (posterior sandsynlighed) til hypotesen H efter fund af bevismaterialet. P(e) er en normeringskonstant.

       

      #316145

      Bjarne
      Moderator
        • Super Nova

        Jeg vil nu indføre begrebet odds for en hypotese H. Jeg indførte ovenfor sandsynligheden P(H) for, at en hypotese H er sand, men en hypotese H kan også være falsk, hvis P(H) < 1. Man indfører derfor sandsynligheden P(¬H) for, at den negerede hypotese ¬H er sand (¬ betyder not). Der gælder selvfølgelig, at en hypotese enten er sand eller falsk, d.v.s. P(H)+P(¬H) = 1. Jeg indfører nu prior odds for hypotesen H ved udtrykket

        O(H) = P(H)/P(¬H) = P(H)/[1 – P(H)]

        Disse begreber stammer fra spil i England. Jeg vil undgå en oversættelse. Man indfører på tilsvarende vis posteririor odds ved udtrykket

        O(H|e) = P(H|e)/P(¬H|e)

        hvor e angiver et observeret bevismateriale eller evidence for hypotesens sandhed. Jeg vil nu nedskrive Bayes’ inference både for hypotesen H og den negerede hypotese ¬H:

        P(H|e) = P(e|H)P(H)/P(e) og P(¬H|e) = P(e|¬H)P(¬H)/P(e). Jeg dividerer nu de to ligninger med hinanden og indsætter de to odds:

        O(H|e) = O(H)P(e|H)/P(e|¬H)

        P(e|H) er the likelihood for at finde bevismaterialet e, hvis man ved, at H er sand, d.v.s. P(H) = 1.

        P(e|¬H) er the likelihood for at finde bevismaterialet e, hvis man ved, at H er falsk, d.v.s. P(¬H) = 1.

        Jeg definerer nu the likelihood ratio som L(e|H) = P(e|H)/P(e|¬H). Man finder nu på simpel vis posterior odds ved at gange prior odds med likelihood forholdet L(e|H):

        O(H|e) = L(e|H)O(H)

        Man ser altså, hvordan de oprindelige odds for hypotesen H forbedres ved observationen af et bevismateriale e.

        Dette er Thomas Bayes’ ide i en nøddeskal. Observationer af et bevismateriale forbedrer på simpel vis odds for en hypotese.

         

        #316148

        Bjarne
        Moderator
          • Super Nova

          Judea Pearl giver et eksempel i introduktionen til bogen CAUSALITY. Eksemplet er en tyverialarm. Hypotesen er, at et tyveri er igang. Bevismaterialet består af alarmen. Tyveristatistikken for nabolaget siger, at tyveriraten er P(tyveri) = 0.0001 per nat. Fabrikanten oplyser, at 95% af alle tyveriforsøg medfører, at alarmen lyder. Dette er ensbetydende med, at P(alarm|tyveri) = 0.95.  Erfaringer med falske alarmer viser, at en alarm i 1% af tilfældene udløses af andre årsager end et indbrud. Dette er ensbetydende med, at P(alarm|¬tyveri) = 0.01.

          Prior odds er derfor O(tyveri) = P(tyveri)/[1 – P(tyveri)] = 0.0001

          Den relative likelihood er L(e|tyveri) = 0.95/0.01 = 95.

          Posterior odds er derfor O(tyveri|e) = 0.0095. Jeg får fra P(A) = O(A)/[1 + O(A)], at

          P(tyveri|alarm) = 0.0095/(1+0.0095) = 0.00941.

          Alarmen forøger sandsynligheden fra 0.0001 til 0.0094, men der er stadig 99% sandsynlighed for, at det er falsk alarm.

           

          #316156

          Bjarne
          Moderator
            • Super Nova

            Når jeg har valgt at forklare begreberne bag Thomas Bayes’ statistik, skyldes det, at der for tiden offentliggøres så mange artikler, som baserer sig på en bayesisk analyse.

            Thomas Bayes (1701 – 1761)

             

          Viser 4 indlæg - 1 til 4 (af 4 i alt)
          • Emnet 'Årsag og virkning inden for statistik' er lukket for nye svar.