生物信息中常用的那些统计分布→

group
date
Nov 21, 2024
slug
bioinfo-statistic
status
Published
tags
statistics
bioinformatics
summary
在生物信息学中常见的有关测序数据或是临床信息,需要用到的一些统计分布,仅仅涉及到通俗易懂的基础感性概念,方便大家理解👀
type
Post

数据类型

数据类型即统计学中的随机变量,主要有两种,分别为离散数据和连续数据
  • 离散数据:数据的取值不连续
  • 连续数据:可以取任意的连续数值,例如时间变量
分布
数据在统计图中的形状
概率分布
概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。
notion image

离散分布

  • 二项式分布
    • 特点 :1)做某件事次数是固定的,用n表示 2)每一次事件都有两个可能的结果(成功,或者失败) 3)每一次成功的概率都是相等的,成功的概率用p表示 4)你感兴趣的是成功x次的概率是多少
    • 计算方式:
    • notion image
    • 二项分布经常要计算的概率还有这样一种情况:抛硬币5次,硬币至少有3次正面朝上(即x>=3)的概率是多少?(反向思路就是最多2次正面朝上。只要我们先计算出最多2次正面朝上的概率p(x<=2),那么至少3次正面朝上的概率就是1-p(x<=2)。
    • 期望E(x)=np (表示某事情发生n次,预期成功多少次。)
    • 做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5 1/2=2.5次,也就是有大约3次你可以抛出正面。
notion image
  • 几何分布
    • 作用:如果你需要知道尝试多次能取得第一次成功的概率,则需要几何分布
    • 1)做某事件次数(也叫试验次数)是固定的,用n表示 (例如抛硬币3次,表白5次), 2)每一次事件都有两个可能的结果(成功,或者失败) (例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。 每一次表白有2个结果:表白成功,表白失败)。 3)每一次“成功”的概率都是相等的,成功的概率用p表示 (例如每一次抛硬币正面朝上的概率都是1/2。 假设你是初出茅庐的小伙子,还不是老油条,所以你表白每一次成功的概率是一样的)4)你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大。(例如你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是滴1次成功)正面朝上的概率是多大。
    • 公式:
notion image
  • 几何分布的期望是E(x)=1/p
    • 假如你每次表白的成功概率是60%,同时你也符合几何分布的特点,所以期望E(x)=1/p=1/0.6=1.67,所以你可以期望自己表白1.67次(约等于2次)会成功。
    • 几何分布的标准差:
notion image
  • 泊松分布
    • 作用:如果你想知道某个时间范围内,发生某件事情x次的概率是多大。这时候就可以用泊松分布轻松搞定。比如一天内中奖的次数,一个月内某机器损坏的次数等。
    • 泊松分布的特点:1)事件是独立事件 (之前如果你看过我的《投资赚钱与概率》已经知道赌徒谬论了,所以类似抽奖这样的就是独立事件) 2)在任意相同的时间范围内,事件发的概率相同 (例如1天内中奖概率,与第2天内中间概率相同) 3)你想知道某个时间范围内,发生某件事情x次的概率是多大 (例如你搞了个促销抽奖活动,想知道一天内10人中奖的概率)
    • 用x代表事情发的次数(例如中奖10个人中奖),u代表给定时间范围内事情发生的平均次数(例如你搞的抽奖活动1天平均中奖人数是5人),概率计算公式为:
notion image
期望:概率的平均值 标准差:衡量数据的波动大小。

连续分布

  • 正态分布:实验伽尔顿板实验
 
notion image
notion image
notion image
notion image
  • 显著差异:
    • P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。 The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true.
    • P值指的是比较的两者的差别是由机遇所致的可能性大小。P值越小,越有理由认为对比事物间存在差异。例如,P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的研究,得出相反结论的可能性不足5%。P>0.05称“不显著”;P<=0.05称“显著”,P<=0.01称“非常显著”。
  • T检验: t检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
  • 假设检验:
    • 假设检验的第一步是确定原假设(H0)和备择假设(H1)。
    • “备择假设”对应的是“拒绝域”,“原假设”对应的是“接受域”。
    • “等号”一般是在“原假设”里。

© Willow 2022 - 2025