鲈鱼一般吃什么饵料(鲈鱼要吃什么饵钓鲈鱼呢)
1859
2023-07-05
关于【统计学原理的本质】,今天犇涌小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
内容导航:1、统计学原理的本质:关于当代统计学的几点思考2、统计学原理的本质,有意思的统计学1、统计学原理的本质:关于当代统计学的几点思考内容提要: 噼里啪啦一顿牛皮的内容分享完毕,记住考察统计推理方法的特点、统计学所具备的科学与艺术双重特性、以及电子表格软件对统计学应用的重要性等几方面,以加深我们对当代统计学的认识,更有效地使用它。
关键词: 归纳推理;数据分析;XD建模法
统计学是人类认识世界的基础科学之一,其重要作用在当代愈发显现:凡是通过对自然、社会及经济现象等从事观察而得到相关数据,并在此基础上进行分析、提炼有用信息,从而对所获数据做出合理解释的人类活动,都离不开统计学。统计学因此受到了前所未有的重视。
噼里啪啦一顿牛皮的内容分享完毕,记住通过考察统计推理方法的特点、统计学所具备的科学与艺术双重特性、以及电子表格软件对统计学应用的重要性等几方面,来加深对当代统计学的认识,并试图在此基础上提出某些带有规律性的东西供读者参考。
一、统计学采用归纳法作为推理方法
“从统计学发展历史、从统计学原理、思想体系和方法来看,其大部分并不出自数学,而是来自对真实世界的观察、以及基于观察得到的各种形态信息的分析与推断方法,从而(使人们)更好地直接认识世界,这和数学仅限于利用形式逻辑来建立推理基础间接认知世界的思维方式有很大差别……。在认知世界的过程中,大多数结论或结果是通过观察和分析得到的,无需或无法用数学严格证明,即用科学的推断比用严格的数学证明更多更广。人类获取知识要经过从观察到认识、再观察再认识循环不止的过程,统计学的任务就是为人们提供这类从观察得到信息认知世界的一般原理和方法的。”鉴于统计学的这种特点,归纳推理在统计学中得到了广泛的应用。
因此,我们需要对归纳推理在统计学中的应用有一个较为全面的认识。
如同演绎推理一样,归纳推理也是人们获取知识的一种重要手段,但它和演绎推理有很大不同。对于前者,只要推理的前提符合客观实际(是真判断)且推理的过程遵守推理规律(推理形式正确),则其结论必然真实可信;对于后者,它是以个别(或特殊性)的知识为前提,推出一般性知识为结论的推理。需要指出,人们一旦超越观测数据而进行相应的推断,所表达的其实就是观测数据和相应推断之间的一种逻辑联系,这种逻辑联系显然不属于演绎推理,因为它并不声称由观测数据演绎地证明或否证相应的推断,而只给出在一定数据下对推断的支持,更重要的是这种支持可以在程度上有所不同。在给定条件下,一个事件无例外屡次出现的证据,比在同样条件下该事件只出现一次的证据,自然要强许多倍。我们可以把一组数据与相应结论之间的联系称之为概率,它在本质上可视为当代多值逻辑。
在科学研究乃至实际生活中,根据案例进行归纳推断的情形到处可见。换句话说,如何从经验和数据中进行学习,已经成为科学发展(以及人们的日常生活)所面临的一个基本问题。由于贝叶斯定理“后验概率 ∝ 先验概率 * 似然”抓住了要害,又满足信息时代的要求,它自然就成了科学推断的主要形式。
因此,我们需要对贝叶斯定理和科学推断之间的关系作比较深入的讨论。
普通逻辑通常是预先给定一组公设,以后所有命题都根据这组公设(不必每次重述一遍)进行断定。但在概率论中观测数据及所考虑的命题假设均可随时改变,因此有必要把有关的数据清楚地表示出来,即命题假设关于给定数据的概率等于某一个数a。而为了和加法规则相容,表达信念程度的数允许在0及其某正数(常取为1)之间选取。
如果在数据变动的条件下考虑关于不同命题的相信程度,就需考虑数据变动的后果,此时要求考察概率时所用的数据不能自相矛盾。如果在数据中存在自相矛盾,应采用演绎推理予以检查并作相应的修正。显然,观测数据本身不应该有矛盾,但在两个假设之间或在观测数据与假设之间却可能存在矛盾,而这些假设正是有待检验的。
实际上,所谓的贝叶斯定理就是乘法规则的直接结果,若将贝叶斯公式具体写出则很容易理解该定理和科学推断之间的种种关系。
自然,由归纳推理做出错误断言的事例也屡见不鲜,而科学的进步,在很大程度上正是依靠深入研究被归纳推理做出错误断言的事实而取得的。科学的进步是没有终结的,它是一种不断逼近的过程。实际上我们只需把所研究的某种学科的定律用最普通、最简单的形式表述出来,而后随着经验的增加不断地修正这些定律即可(此即“简单化原则”)。这种作法不仅能避免自相矛盾,而且唯一可行。
总之,从经验中学习并据以做出超越直接由感官所获信息的推理是可能的,先验概率可以用多种方法无矛盾地加以指定,而要求所考虑的命题关于某一经验事实有正概率亦已足够,要解决的问题是如何找出最能满足研究目的的先验概率。(“劝说某人去不假思索地考虑贝叶斯方法并不符合贝叶斯统计的初衷。进行贝叶斯分析要花更多的努力。如果存在只有贝叶斯计算方法才能处理的很强的先验信息或者复杂的数据结构,这时收获能很容易超过付出,由此能热情地推荐贝叶斯方法。另一方面,如果有大量的数据和相对较弱的先验信息,而且一目了然的数据结构能导致已知合适的经典方法,即近似于在弱先验信息时的贝叶斯分析,则没有理由过分地敲贝叶斯的鼓“即过分强调贝叶斯方法”,S. Kotz,吴喜之《现代贝叶斯统计学(前言)》,中国统计出版社. 2000)。
在结束本节时我们再次强调,这里所说的数据都是和具体对象有关的,不是抽象的数据,抽象的数据没有任何意义。
二、统计学是收集和分析数据的科学与艺术
《大英百科全书》认为,统计学是“收集和分析数据的科学与艺术”。与传统定义——统计学是对数据进行收集、分析及解释的数学分支——不同,《大英百科全书》强调统计学的艺术性,重在说明为了灵活使用统计方法,人们不应满足于机械地套用公式,不能以教条式的态度来看待数理统计方法,而要充分依靠判断力以至灵感才行(陈希孺. 数理统计学简史. 湖南教育出版社. 2002)。
我们认为,《大英百科全书》的这个定义极其重要,它揭示了统计学的本质,为我们在信息时代深入认识统计学从而更好地使用它、发展它提供了依据。
现试举几个例子来做说明。
先看赤池信息准则(Akaike InformationCriterion, AIC)。它是1971年由日本学者赤池弘次正式提出的,但这项工作开始于1968年。当时赤池弘次正在运用多变量自回归时间序列模型,从事正态噪声操作环境下水泥回转窑生产过程的统计识别研究。在此项研究中,他很快发现最主要的问题在于确定所用时间序列的阶数,以及需要多少历史数据才能预测水泥回转窑未来的工作状态。通过引进“最终预测误差”概念(FPE),利用某种统计方法估计模型的参数,进而得到预测的均方误差,赤池弘次得到了该问题的一个解答(Akaike H. Fitting autoregressive models for prediction. Ann. Inst.Statist. Math. 21:243-7, 1969),而FPE估计的最小化是通过对模型的定阶加以实现的。
1970年,赤池弘次应邀参加在前苏联亚美尼亚Tsahkadso举行的第二届国际信息论论坛。那时,他对把FPE扩展到因子分析模型以确定因子数目很感兴趣(因子分析模型肇始于心理学研究)。但是非常遗憾,因子分析模型的预测误差到底为何人们却一无所知。随着上交会议论文的最后期限越来越近,赤池弘次倍感压力。由于压力过大,他竟然接连好几个星期都长夜难眠。
1971年3月16日的早晨,赤池弘次坐上城际列车去上班。当他坐在座位上的一瞬间,他突然意识到因子分析模型中的参数是通过最大化似然估计出来的,而且似然比对数的均值恰与Kullback-Leibler信息数有联系。于是,赤池弘次考虑用Kullback-Leibler信息数替代预测均方误差。这样,一种新的衡量统计模型预测质量的方法应运而生了。其定义由下式给出:
AIC = (-2) loge (最大化似然) + 2 (参数数目)
在AIC表达式的右边,第一项反映拟合的优劣,增加模型的复杂性(即参数的个数)有可能使这一项减少;但模型的复杂性由第二项来处罚,最优模型即极小化AIC是这两项间的一种权衡。
事实上,基于观测数据选择最优参数模型的AIC,是20世纪统计学的重要发现之一,它具有一般性和简单性的特点。用AIC作为选取模型的准则已经在各个领域,例如水文地质学、地理学、工程学,计量经济学、心理学和医学等得到了广泛的应用。可以证明AIC有独特的优越性,这也是AIC被越来越多的成功引用的重要原因。
我国著名统计学方开泰教授发明的“均匀试验设计”方法(与王元院士合作),堪称体现统计学兼备科学与艺术特性的又一个成功典型。
1978年,航天部三个导弹指挥仪的模型设计需要一种新的试验方法。例如在“舰-舰导弹火控系统数学模型研究与设计”中,提出一个五因素的试验,其中每个因素要求分10个以上的水平,而试验次数又要求不超过50次(如果采用“正交试验法”必须做100多次试验)。受华罗庚与王元合著的《数论在近似分析中的应用》一书的启发,方开泰教授敏感地意识到华、王的这一思想和试验设计有共同之处,数论方法能够应用于试验设计。经过和王元院士三个月的合作,“均匀试验设计”这一全新的试验设计方法问世了。其基本思想是只考虑试验点在实验范围内“均匀散布”而不考虑“整齐可比”,因而可以大大减少实验次数。利用它不但满足了上述设计需要,而且在以后我国国民经济和自然科学的其他研究中, 也连获佳绩,迄今已累积2000多成功案例。该项成果获2008年度国家自然科学二等奖,并引起国际同行的广泛重视,特别地,国际著名统计学家C. R. Rao在主编《统计学手册》时,曾邀请方开泰教授撰写一章,专门介绍均匀设计的理论和它在工业中的应用。
有趣的是,国际同行几乎在同一时刻也遇到上述系统工程中复杂的难题,他们于1979年提出了“超拉丁方抽样方法”,其均匀性布点思想与均匀设计如孪生姊妹,只是前者是随机布点设计,而后者是(利用数论知识)确定性布点设计。它们现在都已成为计算机仿真试验的主要方法。可见,即使对于同样的问题,统计学家所提供的解决方法也可以很不相同(尽管它们都能奏效),从而呈现出某种体现其独特学养的“艺术”品质。
从上述两例我们看到,赤池弘次因为任务紧逼而做了较长时间的专注思考,一天早上突然顿悟!他的这一“灵光闪现”,实质是其思维中心与思维边缘在看似无意间发生碰撞,迸发出了智慧的光芒;而方开泰教授发明均匀设计则是交叉研究取得成功的案例,只有对数论方法和试验设计均具备扎实精湛基础的学者,才有可能迈出这充满想象力的重要一步。这种“艺术”特性,非具备精准捕捉不同学科间共性的统计学家莫属!
事实上,近年来这种统计学方法创新的动人案例还有许多。例如,美国统计学家Efron受重抽样jackknife(刀切法)的启发,发明了bootstrap(自助法);范剑青教授综合整体建模和局部建模的长处,首创了“局部建模”法而为非参数统计奠定了理论基础,等等,均属此列。这就启发我们,在鲜明的时代背景之下,研究人员如果具有解决问题的强烈愿望,而且如果又能像艺术家那样,充分发挥想象力,及时捕捉灵感,则由他们发明、创造出新的统计学方法,就不足为奇了。噼里啪啦一顿牛皮的内容分享完毕,记住希望这种受研究背景与动机刺激、推动的统计方法创新,能够引起我们的高度重视。
三、统计学的应用离不开电子表格软件的支持
我们认为,随着以Microsoft Excel为代表的电子表格软件的普及,现在许多统计分析工作都要以Excel为平台才能完成,而熟练掌握Excel并熟悉至少一种统计专业(可编程)软件,已成为当代统计学人才必须具备的基本素质之一。统计专业(可编程软件)的采用在于它的应用针对性,如Eviews是专门用于计量经济分析的,SPSS是专门用于统计分析的;而采用Excel的原因是,“Excel是一个代表了当代最高水平的、既高效又方便的定量化决策分析工具。一般地说,通用软件在特定领域中的功能很可能不如那些为该领域应用而开发的专用软件强。但Excel却与众不同,它除了作为一个通用软件具有良好的财务报表制作功能、常规的数据统计汇总功能、列表(数据库)处理功能与相应的图形制作功能等之外,在决策模型的建立与相关的数据分析方面所具有的功能,决不比许多专用的决策分析(与统计分析)软件包逊色。Microsoft Excel的这种既是最流行的通用软件又是功能极为强大的决策分析软件的卓越性能,使它成为广大财经管理人员提高定量化决策分析能力的首选软件工具。”( 王兴德. 电子化商务决策. 清华大学出版社. 2003)
顺便指出,Excel 2007已享有更大的电子表格行、列容量:它已有2的20次方行(1048576行)、2的14次方列(16384 列),可以导入和处理大量数据,借助对双处理器或多核处理器的支持完成包括随机模拟在内的、更为高级的计算与图形处理任务。
除了通常的统计计算离不开电子表格,就是某些函数的表示离开列表或模拟也无法表示,维纳过程就是这样的例子。
周知,维纳过程(用W(i)表示)是一个离散的随机游走过程在时间间隔趋于零时的极限,其导数是一个在时间上连续的服从正态分布的白噪声过程。维纳过程是一个抽象概念,并不是一个在实际中可以实现的过程,故W(i)的函数很难用通常的解析法表示,但却可以方便地用列表或模拟法表示其分布。
现在是重新认识查表法的重要性并在统计学中广泛使用该法(与解析法及图像法相结合)的时候了。然而,要高效率地应用Excel解决统计计算与分析问题,首先就需要一个适当的建模分析方法。综合国内外相关的文献并根据我们自己的经验,我们认为上海财经大学王兴德教授创造的“基于Excel的XD建模法”在应用上表现不俗,值得推荐(XD建模法是“基于Excel的、以科学方法论为指导的建模分析方法”之简称)。
我们认为,按照规范建立模型,结合实际问题用活Excel的公式与函数(特别是Match( )函数与Index( )函数的配合),并把由此生成的数据系列、由数据系列生成的图形及其动态调整,作为一个有机的整体加以把握,从而树立关于所研究的问题的完整认识并得到满意的解答,是掌握XD建模法的关键。
事实上,Excel是非常出色,它不仅是极具代表性的电子表格软件,还是集文字处理、数据分析、图表展示、科学计算等功能于一身的功能强大的应用软件,可以满足我们多方面的需要。我们认为,为解决一个不太复杂的统计问题而频繁改换软件的做法并不足取。
最后,我们以C. R. Rao教授在其《统计与真理——怎样运用偶然性》一书的一句话结束噼里啪啦一顿牛皮的内容分享完毕,记住:
“在终极的分析中,一切知识都是历史。在抽象的意义下,一切科学都是数学。在理性的基础上,一切判断都源于统计学”。
参考文献
Robert R. Pagano. Understanding Statistics in the Behavioral Sciences [M]. 北京. 中国统计出版社. 2002.12.Theory of Probability [M] [英] Harold Jeffreys著,龚凤乾译《概率论》.厦门大学出版社. 2014.3. 范剑青,姚琦伟著. 陈敏译. 非线性时间序列——建模、预报及应用. [M]. 北京. 高等教育出版社. 2005.
4. [美]John Walkenbach著.盖江南等译. Excel2003高级VBA编程宝典 [M].北京. 电子工业出版社. 2004.
5. 程民德主编. 中国现代数学家传. 第四卷 [M]. 南京. 江苏教育出版社.2000. 544-559.
6. 王振龙. 统计哲学研究 [M]. 北京. 中国统计出版社. 2002.
7. 陈希孺. 概率论与数理统计 [M]. 北京. 科学出版社. 合肥. 中国科学技术大学出版社. 2000.
8. 范金城,吴可法. 统计推断导引 [M].北京. 科学出版社. 2001.
9. 张尧庭. 指标量化、序化的理论和方法[M]. 北京. 科学出版社. 1999.
10. 王兴德. 投资学原理及其计算机方法[M]. 北京. 清华大学出版社. 2008.
11. 王兴德. 基于Excel的XD建模法 [M]. 北京. 清华大学出版社. 2008.
12. 张晓桐. 计量经济分析(修订版)[M].北京. 经济科学出版社. 2000.
2、统计学原理的本质,有意思的统计学一提到统计学,大家估计首先想到的是一页又一页的公式,求极限,求样本量,求条件概率,求显著性p值等等。一想到这些就头疼,一想到这些就开始头疼脚痛,假装没看见想趁机溜走。还有好多人以“文科生”身份来自保,觉得文科生不了解统计学是理所当然的事情。
但是其实在生活中我们已经无意间在使用一些统计学知识了。
❉ 统计统计,三份统计,七分估计生活场景一:
“水果摊的老板总是热情的让我们试吃,可试吃的这个是不是足以代表那一箩筐的水果质量?”
这就是统计抽样,样本是否能代表整体的问题。
生活场景二:
“早高峰的时候你着急忙慌到了公交站,却发现公交站人很少,你根据周围环境推测估计是刚刚走了一辆。”
这就是拟合回归,通过一系列变量的观测,预估目标发生概率有多大?
生活场景三:
“工作很认真的你,突然打了个喷嚏,接着就流鼻涕了,你心里暗骂一声,糟糕,劳资这是要感冒的节奏么?”
这就是条件概率,当A发生了,发生B的概率有多大。
❉ 统计世界里,绕得开公式,绕不开原理今天让我来给你减减负,给你一个正大光明不用背公式的理由~请叫我仙女。
有很多公式、公式推演、公式前提条件大可不必都钻研透,不用懂公式的由来推演,也不需要实际运用公式计算。毕竟人生苦短。(我用python)
对于大部分童鞋来说只需要了解以下三点就足够了:
统计学中有哪些是我应该了解的原理?我在什么场景下可以使用?结果怎么解读?下面跟着案例一起来学三种简单的统计学原理吧。
❉原理 案例的完美结合❉关联规则之条件概率关联分析,也叫做购物篮分析,为了分析商品被一起购买的概率,从而可以指导商品陈列和摆放位置。最著名的关联分析例子就是啤酒和尿布了。
在关联分析里,就用到了条件概率计算原理。
“条件概率(conditionalprobability)就是事件A在另外一个事件B已经发生条件下的发生概率。联合概率表示两个事件共同发生的概率。需要注意的是,在这些定义中A与B之间不一定有因果或者时间序列关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。”
了解了条件概率计算原理之后,购物篮分析是需要我们计算商品A和商品B一起(只要在一笔订单里就可以,不区分先后顺序)被购买的概率有多大,并找出P(A B)概率最大的商品组合。
具体实践方法如下:
首先数据准备。我们能拿到某段时间内所有订单,以及订单中所有商品。数据可以准备成一条商品一行,需要订单编号、商品名称两列即可。数据集估计会有100万个订单500万行商品。
然后计算概率。我们挑选出来去重后的商品,假如有1万个,需要用组合的方式,组合出来5000*9999种商品组合方式,然后分别计算这些商品组合共同出现一个订单中的数量,再除以100万,就是每两个商品共同被购买的概率。挑选出来概率最大的组合即可。
但现实情况是,受限于算力、精力,第二步遍历所有的商品组合再去做计算实际上非常难。
因此apriority算法就诞生了,从英文名字上就不难理解,它首先通过商品库里最受“欢迎”的商品开始算起,也就是订单中被购买次数最多的商品。因为如果这个商品被购买最多,那么跟这个商品在一起组合的联合概率也会很大。
基本原理就是这些了,具体实践可以通过R的Apriority来计算(R代码后附)。
关联分析结果有三个指标,支持度、置信度、提升度。
“支持度表示订单中含有{A,B}在总订单数里出现的概率,也就是AB出现的联合概率;
置信度是在含有A的订单中,含有B的可能性也就是条件概率;
提升度表示含有A的条件下,同时含有B的概率,与含有B的概率之比。”
这三个指标都是和条件概率相关的,浓浓的geek风。但是理解了之后一点也不难理解(这话好奇怪,自己再理解理解吧)。
#Rlibrary(arules)gouwuche <- read.csv("gouwuche.csv",header=TRUE) #默认工作空间为D盘R文件夹gouwuche <- read.transactions(file ="gouwuche.csv",format = "single",sep = ",",cols =c("orderNo","goods_name"),rm.duplicates = TRUE)#以算法读的懂的方式读取交易数据gouwuche.apriori <- apriori(data =gouwuche, parameter = new("APparameter",support = 0.03,confidence = 0.4))#上算法inspect(gouwuche.apriori)#所有组合概率结果write(gouwuche.apriori, file = "finalRules.csv",sep = ",", col.names = NA) #保存规则集结果,并将其命名为finalRulesgouwuche.eclat<-eclat(data=gouwuche,parameter=new("ECparameter",support=0.05,minlen=2))#频繁规则集inspect(gouwuche.eclat) #查看频繁规则集
关联分析不仅仅能做购物篮分析,还可以做关联点击分析、关联阅读分析等等,有兴趣的同学可以亲自实践,遇到难题可以和我一起讨论。这里是我以前写过的一篇文章,可以做参考:关联规则
奇异值判定之3σ接下来讲一个不那么绕嘴皮子的案例,轻松一下。看到这里的同学估计都是喜欢跑马拉松的,耐力好。
平时做数据挖掘或者是简单的平均值分析时,绕不开奇异值的干扰。但是怎么识别奇异值呢?这里教大家一个冠冕堂皇的原理:3σ。
小写的σ 是指标准差,是指一组数据波动性大小的指标。如果两组数据平均值相等,但标准差不同,那么可以说标准差大的组数据波动性更大,或许有奇异值在里面。
我们把落入到 [μ-3σ,μ 3σ]区间的观测值作为正常值,把未落入到这个区间的观测值作为异常值。其中μ是指数组的平均值。如果一组数据符合正态分布的话,那么99.73%的数据是正常值,会落入到该区间内。
如果想多剔除一些奇异值的话,可以把加减标准差的倍数减小,±1σ时,会保留68.26%的正常数据,±2σ时,会保留95.46%的正常数据。
Excel中,如果要判断B列中的异常值的话,可以在C列写如下公式进行判断:
#ExcelIF(AND((B2>AVERAGE(B:B)-3*STDEV.S(B:B)),(B2<AVERAGE(B:B) 3*STDEV.S(B:B))),"normal","abnormal")
ABtest之 Z 检验“假设检验是一种基本的统计推断形式,也是数理统计学的一个重要的分支,用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。”
常见的假设检验有t 检验,F 检验,z 检验,这三个假设检验各司其职:
t检验是一组样本的均值是否和一个已知均值的群体有显著差异。如难产儿出生体重和一般婴儿出生体重是否有显著差异。F检验是检验多个样本之间是否有显著差异。Z检验是比较两个样本的平均数是否有显著差异。在ABtest中是用Z检验来比较A流和B流用户群体均值差异是否显著。如果A流和B流的数据量足够大,测试时间足够长,如果A流用户行为均值持续好于B流,不用做假设检验也是可以的。但是通常情况下,有时候A流好于B流,有时候B流某天的值能超过A流最高值,我们比较难以下结论,这时候可以借助Z检验来帮助我们下结论。
Z检验可以用Python来做,已知A、B流用户均值、标准差和样本量,可以用Z检验公式计算。公式神马的都交给Python吧~
#pythonclass ABtest_u(): ''' 双样本双尾均值检验 ''' def __init__(self, x1: float, x2: float, s1: float, s2: float, n1: int, n2: int, a: float = 0.05, b: float = 0.2): self.x1 = x1 # 对照组均值 self.x2 = x2 # 测试组均值 self.s1 = s1 # 对照组标准差 self.s2 = s2 # 测试组标准差 self.n1 = n1 # 对照组样本量 self.n2 = n2 # 测试组样本量 self.a = a # alpha self.b = b # beta def significance_u(self) -> (int, float, float): ''' 双样本双尾均值显著性检验 ''' z = (self.x1 - self.x2) / pow(self.s1 ** 2 / self.n1 self.s2 ** 2 / self.n2, 1 / 2) if z > 0: p = (1 - norm.cdf(z)) * 2 if p < self.a: # 拒绝原假设,接受备选假设 f = 1 else: # 接受原假设 f = 0 else: p = 2 * norm.cdf(z) if p < self.a: # 拒绝原假设,接受备选假设 f = 1 else: # 接受原假设 f = 0 return f, format(z, '.2f'), format(p, '.2f') def confidence_u(self) -> tuple: ''' 双样本均值置信区间 ''' d = norm.ppf(1 - self.a / 2) * pow(self.s1 ** 2 / self.n1 self.s2 ** 2 / self.n2, 1 / 2) floor = self.x1 - self.x2 - d ceil = self.x1 - self.x2 d return (format(floor, '.2f'), format(ceil, '.2f')) def power_u(self) -> float: ''' 双样本均数功效 ''' z = abs(self.x1 - self.x2) / pow(self.s1 ** 2 / self.n1 self.s2 ** 2 / self.n2, 1 / 2) - norm.ppf( 1 - self.a / 2) b = 1 - norm.cdf(z) power = 1 - b return format(power, '.2%') def main(self): f, z, p = self.significance_u() ci = self.confidence_u() power = self.power_u() print('保留组均值:',self.x1) print('保留组均值:',self.x2) print('是否显著:' ('统计效果显著,拒绝原假设' if f == 1 else '统计效果不显著,不能拒绝原假设')) print('变化度:' format((self.x2 - self.x1) / self.x1, '.2%')) print('置信区间:',ci) print('p-value:',p) print('功效:',power)# 双样本双尾均值检验test1 = ABtest_u(x1=0.103946, x2=0.089128, s1=0.399114, s2=0.139108, n1=2723.0, n2=2622.0)test1.main()
嚯,终于捋完了三个简单又常用的统计学原理。
如果你只是个文科生,也可以用一些统计学原理来提升你的分析高度,
如果你只是个产品经理,更可以用统计学原理来作证你的分析结论,
如果你只是运营经理,依然可以用统计学原理精益你的数据结论。
不得不说,统计原理,有你真好!
❉如果你还想学,我们这里还有❉2019年12月7号,由中央财经大学财政学毕业、企业数据分析培训担当的曾津老师,以文科生学透统计学、概率论、线性代数的经验,以易于理解的方式给大家带来一堂有意思的统计学。地点在北京双井。呱唧呱唧。
如果你还不知道有哪些统计学原理可以吸纳到你的工作中去,这节课将不容错过哟。
如果你知道但是没有使用过这些统计学知识,这节课将帮助你吃透并很好运用它们。
让我们先来围观一下有意思的统计学大纲吧,带你涨姿势:
第一章 组合数学
七位的车牌号能够有多少种组合?
斗地主的时候叫地主抽到王炸的概率是多少?
基于生活和游戏,系统介绍排列组合计数套路,打好概率基础~
第二章 概率论公理
概率、古典概率、条件概率、基于条件概率的“小骗局”、贝叶斯模型
第三章 随机变量及其分布
连续随机变量(基于应用场景讲解)
离散随机变量(基于应用场景讲解)
集中趋势、离中趋势(基于应用场景讲解)
第四章 极限定理
大数定律及中心极限定理的理论及应用(基于图形和实际案例)
第五章 区间估计及假设检验
区间估计、假设检验、ABTest、ANOVA
第六章 相关与回归分析统计学
噼里啪啦一顿牛皮的内容分享完毕,记住关键词:统计学原理的本质特征,统计学原理有哪些,统计学原理的理解,统计学原理的内容,统计学原理的意义。