抽样方法有几种（8种样本抽样方法）

介绍

你肯定很熟悉以下情况：你下载了一个比较大的数据集，并开始分析并建立你的机器学习模型。当加载数据集时，你的计算机会爆出"内存不足"错误。

即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一，在受计算限制的计算机上处理大量数据（并非所有人都拥有 Google 的资源实力！）。

那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析，并且该子集可以很好地表示整个数据集？

这种方法称为抽样。我相信你在学校期间，甚至在你的职业生涯中，都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是，那我们只是随机取一个子集呢？

我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术，以及每种方法的使用场景。

内容目录

1、什么是抽样?

2、为什么我们需要抽样?

3、抽样步骤

4、不同类型的抽样技术

5、概率抽样的类型

6、非概率抽样的类型

内容

1、什么是抽样？

让我们从正式定义什么是抽样开始。抽样是一种方法，它使我们能够基于子集(样本)的统计信息来获取总体信息，而无需调查所有样本。

上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。

我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi 的人口大约为 3 千万，男性大约为 1500 万(这些都是假想数据，不要当成实际情况了)。你可以想象，要找到Delhi所有男性的身高来计算平均身高几乎是不可能的。

我们不可能接触到所有男性，因此我们无法真正分析整个人口。那么，什么可以我们做的呢?我们可以提取多个样本，并计算所选样本中个体的平均身高。

但是，接下来我们又提出了一个问题，我们如何取样?我们应该随机抽样吗?还是我们必须问专家？

假设我们去篮球场，以所有职业篮球运动员的平均身高作为样本。这将不是一个很好的样本，因为一般来说，篮球运动员的身高比普通男性高，这将使我们对普通男性的身高没有正确的估计。

这里有一个解决方案，我们在随机的情况下随机找一些人，这样我们的样本就不会因为身高的不同而产生偏差。

2、为什么我们需要抽样？

我确定你在这一点上已经有了直觉的答案。抽样是为了从样本中得出关于群体的结论，它使我们能够通过直接观察群体的一部分 (样本)来确定群体的特征。

令选择一个样本比选择一个总体中的所有个体所需的时间更少；

令样本选择是一种经济有效的方法；

令对样本的分析比对整个群体的分析更方便、更实用。

3、抽样步骤

将概念形象化是在记忆的好方法。因此，这是一个以流程图形式逐步进行抽样的流程图。

让我们以一个有趣的案例研究为例，将这些步骤应用于执行抽样。几个月前，我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查：

这些结果是根据全国9 亿选民的意见得出的还是根据这些选民的一小部分得出的？让我们看看是怎么做的。

第一步：

抽样过程的第一步是明确定义目标群体。

因此，为了进行民意调查，投票机构仅考虑 18 岁以上且有资格在人口中投票的人。

第二步：

抽样框架(Sampling Frame) –这是构成样本总体的个体列表。

因此，这个例子的抽样框架将是名字出现在一个选区的所有投票人列表。

第三步：

一般来说，使用概率抽样方法是因为每一张选票都有相等的价值。不考虑种姓、社区或宗教，任何人都可以被包括在样本中。不同的样品取自全国各地不同的地区。

第四步：

样本量(Sample Size)-是指样本中所包含的个体的数量，这些个体的数量需要足量以对期望的准确度和精度进行推断。样本量越大，我们对总体的推断就越准确。

在民意调查中，各机构试图让尽可能多的不同背景的人参与抽样调查，因为这有助于预测一个政党可能赢得的席位数量。

第五步：

一旦确定了目标人群，抽样框架，抽样技术和样本数量，下一步就是从样本中收集数据。

在民意测验中，机构通常会向人民提出问题，例如他们要投票给哪个政党或前政党做了什么工作，等等。根据答案，各机构试图解释选民投票给谁，以及一个政党要赢得多少席位。

4、不同类型的抽样技术

这里是另一个图解!这一个是关于我们可以使用的不同类型的采样技术：

概率抽样：在概率抽样中，总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本。

非概率抽样：在非概率抽样中，所有元素被选中的机会都不相等。因此，有一个显著的风险，即最终得到一个不具代表性的样本，它不会产生可推广的结果。

例如，假设我们的人口由 20 个人组成。每个个体的编号从 1 到 20，并由特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中，每个人被选中的概率是 1/20。

对于非概率抽样，这些概率是不相等的。一个人被选中的机会可能比别人大。现在我们对这两种抽样类型有了一定的了解，让我们分别深入了解每种抽样类型，并理解每种抽样的不同类型。

5、概率抽样的类型

(1) 简单随机抽样（Simple Random）

这是你一定要遇到的一种抽样技术。在这里，每个人都是完全由随机选择的，人口中的每个成员都有被选择的机会。简单的随机抽样可减少选择偏差。

这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点，它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

(2) 系统抽样（Systematic）

在这种类型的抽样中，第一个个体是随机选择的，其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

假设我们的总体大小是x，我们必须选择一个样本大小为n 的样本，然后，我们要选择的下一个个体将是距离第一个个体的x/n 个间隔。我们可以用同样的方法选择其余的。

假设，我们从第 3 个人开始，样本容量是 5。因此，我们要选择的下一个个体将是(20/5)= 4，从第 3 个人开始，即 7(3 4)，依此类推。

系统抽样比简单随机抽样更方便。然而，如果我们在人群中选择项目时存在一种潜在的模式，这也可能导致偏差（尽管这种情况发生的几率非常低）。

(3) 分层抽样（Stratified）

在这种类型的抽样中，我们根据不同的特征，如性别、类别等，把人口分成子组(称为层)。然后我们从这些子组中选择样本：

在这里，我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后，从每一种颜色中，我们根据它们在人口中的比例选择一个个体。

当我们想要从总体的所有子组中得到表示时，我们使用这种类型的抽样。然而，分层抽样需要适当的人口特征的知识。

(4) 整群抽样（Cluster）

在整群抽样中，我们使用总体的子组作为抽样单位，而不是个体。全体样本被分为子组，称为群，并随机选择一个完整的群作为抽样样本。

在上面的例子中，我们将人口分为 5 个群。每个群由4 个个体组成，我们在样本中选取了第 4 个群。我们可以根据样本大小包含更多的群。

当我们集中在一个特定领域或区域时，就会使用这种类型的抽样。

6、非概率抽样的类型

(1) 便利抽样（Convenience）

这可能是最简单的抽样方法，因为个人的选择是基于他们的可用性和参与意愿。

这里，假设编号为 4、7、12、15 和 20 的个体想要成为样本的一部分，因此，我们将把它们包含在样本中。

便利抽样容易产生显著的偏见，因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

(2) 配额抽样（Quota）

在这种抽样中，我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为 4 的个体：

因此，编号为 4、8、12、16 和 20 的个人已经为我们的样本保留。

在配额抽样中，选择的样本可能不是未考虑的人口特征的最佳代表。

(3) 判断抽样（Judgement）

这也称为选择性抽样。在选择要求参加者时，取决于专家判断。

假设，我们的专家认为，应该将编号为 1、7、10、15 和 19 的人作为我们的样本，因为它们可以帮助我们更好地推断人口。你可以想象，配额抽样同样也容易受到专家的偏见，不一定具有代表性。

(4) 雪球抽样（Snowball）

我很喜欢这种抽样方法。现有的人被要求推荐更多他们认识的人，这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时，这种采样方法是有效的。

在这里，我们随机选择了 1 个人作为样本，然后他推荐了6 个人，6 个人推荐了 11 个人，依此类推。

雪球抽样有很大的选择偏见风险，因为被引用的个体将与推荐他们的个体具有共同的特征。

7、总结

以上为8种常用的抽样方法。平时工作中比较常用的还是概率抽样的类型，因为没有随机性，我们是无法通过统计学和编程来完成自动化操作的。

本文分类：生活百科
本文标签：无
浏览次数：810 次浏览
发布日期：2024-04-15 19:04:53
本文链接：https://www.hongwu.com/shenghuo/133230.html

上一篇 > “脏弹”，到底是个什么玩意儿？
下一篇 > 栏杆高度标准（栏杆的安全高度HJSJ）