您现在的位置是:首页 > 经典句子

Python 中实现 CDF 累积分布图的两种方法

作者:欧阳逸时间:2024-04-29 19:21:39分类:经典句子

简介  文章浏览阅读902次,点赞6次,收藏7次。累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写“CDF”(Cumulative Distribution Function)标记。《百度百科》累积分布函数,又叫分布函

点击全文阅读

什么是累积分布

累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写“CDF”(Cumulative Distribution Function)标记。
《百度百科》

累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写“CDF”(CumulativeDistributionFunction)标记。累积分布图(distribution diagram)是在一组依大小顺序排列的测量值中,当按一定的组即分组时出现测量值小于某个数值的频数或额率对组限的分布图。

简单理解:就是所有 x 左边的值都会落在对应 y 值的概率里。

第一种方法

使用 seaborn 的 ecdfplot 方法, 代码如下:

import seaborn as snsimport matplotlib.pyplot as pltimport pandas as pdimport numpy as np # 假设你有一些数据data1 = np.random.normal(size=1000)  # 生成1000个正态分布的随机数data2 = np.random.normal(size=1000)  # 生成1000个正态分布的随机数df = pd.DataFrame({'data1': data1, 'data2': data2})# 使用sns.distplot()来计算并绘制CDFsns.ecdfplot(data=df, legend=True)plt.grid()# 显示图形plt.show()  

得到的 CDF 图形:

CDF by sns

第二种方法

使用 scipy 的 mquantiles 计算

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy.stats.mstats import mquantilesfrom matplotlib.ticker import PercentFormatterdef cdf_by_data(df, mark, title):    fig, ax = plt.subplots()    y = np.arange(0, 1, 0.01)    x = mquantiles(df, y)    ax.plot(x, y)    ax.set_title(title + " - CDF")    ax.axvline(x=mark, color='r', linestyle='--', label=str(mark))    ax.yaxis.set_major_formatter(PercentFormatter(1))    ax.set_xlabel(title)    ax.set_ylabel('probability')    index = np.abs(x - mark).argmin()    plt.plot(mark, y[index], 'o', color='g')    ax.text(mark + 1, y[index], "({}, {}%)".format(mark, round(y[index] * 100)), color='r')    plt.grid(True)# 假设你有一些数据data1 = np.random.normal(size=1000)  # 生成1000个正态分布的随机数data2 = np.random.normal(size=1000)  # 生成1000个正态分布的随机数df = pd.DataFrame({'data1': data1, 'data2': data2})cdf_by_data(df=df, mark=0, title='cdf of data')plt.grid()# 显示图形plt.show()  

得到的图形如下:
CDF by scipy

点击全文阅读

郑重声明:

本站所有活动均为互联网所得,如有侵权请联系本站删除处理

我来说两句