欢迎使用医学统计助手 V16.1

医学统计助手 (Medical Statistics Assistant) 是一款专为医学科研、公共卫生、临床研究及医学教学设计的统计分析软件。本软件以医学统计学经典教材为理论基础,计算结果经过与主流统计软件交叉验证,旨在为广大医务工作者、科研人员及医学院校师生提供规范、可靠、便捷的统计分析服务。

📥 下载医学统计助手

软件特点

  • 专业聚焦:针对医学研究场景优化,术语规范,结果解读符合医学统计习惯
  • 操作简便:图形化界面,"输入数据 - 选择方法 - 点击计算"三步完成分析,无需编程基础
  • 安全隐私:本地运行,断网可用,不收集、不上传任何用户数据
  • 结果详尽:不仅提供统计量,还提供结果解释、注意事项及适用场景说明
  • 持续更新:激活用户可免费升级至高版本,持续新增统计方法与功能优化

核心功能模块

本软件涵盖从数据描述到多变量分析的完整统计流程,主要包含以下模块:

1. 基础统计

描述性统计(30+指标)、频数分布、正态性检验、样本量估算、概率分布(二项/Poisson)、随机数生成

2. 假设检验

卡方检验(四格表/R×C/配对/Bowker/Fisher)、t检验、Z检验、比例检验、秩和检验、Cochran Q检验、游程检验

3. 一致性检验

Kappa系数(简单/加权)、Kendall协调系数、组内相关系数ICC

4. 方差齐性检验

F检验、Levene检验、Brown-Forsythe检验、Bartlett检验、Fligner-Killeen检验

5. 方差分析

完全随机设计、随机区组设计、重复测量设计、多因素方差分析、协方差分析ANCOVA

6. 回归分析

线性回归、逐步回归、Logistic回归(二元)、Poisson回归、负二项回归

7. 相关分析

Pearson相关、Spearman相关、Kendall相关、偏相关分析

8. 生存分析

Kaplan-Meier法、寿命表法、生存率比较(Log-Rank/Breslow)、Cox回归

9. 多变量分析

聚类分析(系统/K均值)、判别分析(LDA/QDA)、主成分分析PCA、因子分析

10. 问卷分析

题型设置、数据概览、综合分析、交叉分析、分层交叉、信效度分析(Cronbach's α/EFA)

11. 统计图

条形图、折线图、箱线图、小提琴图、饼图、散点图、热力图、正态分布图

适用人群

  • 临床医生、护士、药师等医疗专业人员
  • 医学科研人员、研究生、实验室技术人员
  • 公共卫生、流行病学、生物统计学教学与研究人员
  • 医药企业研发、临床试验统计分析师
  • 医学院校师生统计学课程学习与实践

⚠️ 重要声明

  1. 科研参考:本软件为数据处理与统计分析提供技术支持,所有分析结果仅供科研参考
  2. 非临床决策:软件计算结果不具备任何临床意义或实际参考价值请勿将此类结果用于临床决策、科研结论或任何现实场景
  3. 专业判断:统计分析的正确应用依赖于研究设计、数据质量与方法选择的合理性。使用者应具备基础统计学知识,或咨询专业统计人员协助分析。
  4. 结果解读:任何基于本模型的决策,均需由专业人员结合临床/业务背景综合判断。本结果不构成诊疗或管理建议。
  5. 版权说明:医学统计助手为共享软件,版权归作者所有。禁止对本软件进行反编译、破解、仿冒销售等侵犯版权行为。

描述性统计量

描述性统计量是对数据特征进行描述的统计方法,用于对样本数据的基本特征进行概括和描述。本功能可以计算多种统计指标,包括集中趋势指标、离散程度指标、分布形态指标等,帮助用户全面了解数据的分布特征。

统计指标说明

基本信息

  • 样本量:参与统计分析的有效观测值个数
  • 最小值:数据中的最小观测值
  • 最大值:数据中的最大观测值

集中趋势指标

  • 平均数(均数):所有观测值的算术平均值,反映数据的集中位置
  • 中位数:将数据按大小排序后位于中间位置的数值,不受极端值影响

离散程度指标

  • 极差:最大值与最小值之差,反映数据的变动范围
  • 方差:各观测值与平均数差的平方和的平均值
  • 标准差:方差的平方根,反映数据的离散程度
  • 变异系数:标准差与平均数的比值,用于比较不同量纲或不同均数资料的变异程度
  • 下四分位数(P25):位于第25百分位数的数值
  • 上四分位数(P75):位于第75百分位数的数值
  • 四分位距:上四分位数与下四分位数之差

区间估计指标

  • 标准误:样本统计量的标准差,反映抽样误差的大小
  • 置信区间:在一定置信水平下,总体参数的估计范围

分布形态指标

  • 偏度:描述数据分布对称性的指标
    • 偏度 = 0:对称分布
    • 偏度 > 0:正偏态(右偏)
    • 偏度 < 0:负偏态(左偏)
  • 峰度:描述数据分布陡峭程度的指标
    • 峰度 = 0:正态分布
    • 峰度 > 0:尖峰分布
    • 峰度 < 0:平峰分布

操作步骤

  1. 数据准备:在数据区输入或导入需要分析的数据,数据可以按列排列,每列代表一个变量
  2. 选择计算列:勾选需要分析的变量列(如C1、C2等),可选择单列或多列同时进行分析
  3. 选择统计指标:点击"选择统计指标"按钮,打开指标选择对话框,根据需要勾选相应的统计指标类别
  4. 执行计算:点击"计算"按钮,系统自动计算所选统计指标
  5. 查看结果:结果在右侧结果显示区显示,包括变量特征统计汇总和描述性统计量综合分析表

注意事项

  • 数据应为数值型变量,缺失值会自动排除在计算之外
  • 正态分布资料:重点关注平均数、标准差
  • 偏态分布资料:重点关注中位数、四分位数
  • 比较不同量纲资料:使用变异系数
  • 存在极端值:可参考截尾均值、中位数

缺失值处理

缺失值处理功能用于识别和处理数据集中的缺失数据。在实际研究中,由于各种原因(如受试者失访、数据录入遗漏、检测失败等),数据集中常常存在缺失值。本功能提供多种缺失值处理方法,帮助用户合理处理缺失数据,保证后续统计分析的准确性。

缺失值识别

软件支持两种缺失值识别方式:

  • 自动识别缺失值符号:系统自动识别常见的缺失值表示,如空单元格、NA、N/A、null等
  • 自定义符号:用户可以指定特定的字符或数值作为缺失值标识,如"*"、"缺失"、"-999"等

处理方法

列均值替换

  • 使用该列所有非缺失值的平均数替换缺失值
  • 适用于:数值型变量,数据分布较为对称的情况
  • 优点:操作简单,保持样本量
  • 缺点:可能低估数据的变异性

行均值替换

  • 使用该行所有非缺失值的平均数替换缺失值
  • 适用于:多个相关变量的数据,变量间存在相关性
  • 优点:考虑了个体内变量间的关系
  • 缺点:要求变量具有相似的量纲和含义

线性插值法

  • 根据缺失值前后相邻的非缺失值进行线性插值计算
  • 适用于:时间序列数据或有序数据
  • 优点:考虑了数据的趋势性
  • 缺点:要求数据具有一定的连续性

临近点均值

  • 使用缺失值前后相邻的非缺失值的平均数进行替换
  • 适用于:时间序列数据或有序数据
  • 优点:简单快速,保持数据趋势
  • 缺点:只利用局部信息

用0替换

  • 将所有缺失值替换为0
  • 适用于:缺失值确实表示"无"或"零"的情况
  • 优点:操作简单
  • 缺点:可能严重歪曲数据分布,慎用

跳过整行/整列

  • 在分析时排除包含缺失值的整行或整列数据
  • 适用于:缺失值较少,样本量充足的情况
  • 优点:不引入人为数据
  • 缺点:减少样本量,可能引入偏倚

顺序上移/左移

  • 将缺失值下方或右侧的数据移动,填补空缺
  • 适用于:缺失值确实表示该记录或变量不存在
  • 优点:保持数据连续性
  • 缺点:改变数据顺序,慎用

自定义值替换

  • 使用用户指定的数值替换缺失值
  • 适用于:有明确理论依据或专业知识的场合
  • 优点:灵活可控
  • 缺点:需要专业知识支持

操作步骤

  1. 选择数据列:在数据区勾选需要处理缺失值的变量列
  2. 设置缺失值识别方式:点击"缺失值选项"按钮,选择自动识别或自定义符号
  3. 选择处理方法:在处理方式列表中选择适当的缺失值处理方法
  4. 执行处理:点击"处理"按钮执行缺失值处理,处理后的数据将显示在数据区

注意事项

  • 缺失值类型:完全随机缺失(MCAR)、随机缺失(MAR)、非随机缺失(MNAR),不同缺失类型适合不同的处理方法
  • 处理建议:处理前应先了解缺失值的产生原因和模式,建议比较不同处理方法的结果差异
  • 数据备份:处理缺失值前建议先保存原始数据,便于需要时恢复

频数分布

频数分布功能用于将连续型数据分组,统计各组的频数和频率,帮助了解数据的分布特征。本功能可以生成频数分布表、累积频数表以及标准差计算表,并可自动生成频数分布图(直方图),直观展示数据的分布形态。

统计指标说明

频数分布表

  • 组段:数据的分组区间,如3.8~、4.0~等
  • 组中值:每个组段的中间值,用于代表该组数据
  • 频数:落在每个组段内的数据个数
  • 累积频数:从第一组到当前组的频数之和
  • 频率(%):各组频数占总频数的百分比
  • 累积频率(%):从第一组到当前组的频率之和

标准差计算表

  • 组段:数据的分组区间
  • 组中值:每个组段的中间值
  • 频数:各组的频数
  • fx:组中值与频数的乘积
  • fx²:组中值平方与频数的乘积,用于计算方差和标准差

参数设置

分组方式

  • 组数:指定将数据分成多少组,软件会自动计算组距
  • 组距:指定每个组段的宽度,软件会自动计算组数

其他参数

  • 起始值:第一组的起始数值,可以留空由软件自动确定
  • 小数位:设置统计结果保留的小数位数

操作步骤

  1. 数据准备:在数据区输入或导入需要分析的数值型数据,数据应按列排列
  2. 选择计算列:勾选需要生成频数分布的变量列
  3. 设置频数分布参数:点击"频数分布选项"按钮,选择分组方式(组数或组距),输入相应数值
  4. 执行计算:点击"计算"按钮,系统自动生成频数分布表和标准差计算表
  5. 查看结果:包括频数分布表、标准差计算表和频数分布图(直方图)

注意事项

  • 数据要求:数据应为连续型数值变量,样本量应足够大,一般建议不少于30个观测值
  • 分组原则:组数一般以5-15组为宜,组距应相等,组段的界限应清晰
  • 组数选择建议:
    • 样本量较小(n<50):建议5-7组
    • 样本量中等(50≤n<200):建议8-12组
    • 样本量较大(n≥200):建议10-15组
    • 可参考Sturges公式:组数 ≈ 1 + log₂(n)

正态分布检验

正态分布检验用于判断样本数据是否服从正态分布。正态分布是统计学中最重要的连续概率分布,许多统计方法都要求数据服从或近似服从正态分布。本功能提供矩法正态检验以及多种图形化检验方法,帮助用户全面评估数据的正态性。

正态分布概述

正态分布(Normal Distribution),又称高斯分布,是统计学中最重要的连续概率分布。若随机变量X服从一个数学期望为μ、方差为σ²的正态分布,记为N(μ, σ²)。

正态分布的特点

  • 曲线呈钟形,关于均值对称
  • 均值、中位数、众数三者相等
  • 由均值μ和标准差σ两个参数完全确定
  • 约68%的数据落在均值±1个标准差范围内
  • 约95%的数据落在均值±2个标准差范围内
  • 约99.7%的数据落在均值±3个标准差范围内

检验方法

矩法正态检验

矩法正态检验通过检验数据的偏度(Skewness)和峰度(Kurtosis)来判断数据是否服从正态分布。

  • 原假设H0:γ1=0且γ2=0,即总体服从正态分布
  • 备择假设H1:γ1≠0或γ2≠0,即总体不服从正态分布
  • 偏度系数(γ1):描述数据分布对称性的指标
    • 偏度 = 0:分布对称
    • 偏度 > 0:右偏(正偏)
    • 偏度 < 0:左偏(负偏)
  • 峰度系数(γ2):描述数据分布陡峭程度的指标
    • 峰度 = 0:正态峰度
    • 峰度 > 0:尖峰(比正态分布更陡峭)
    • 峰度 < 0:平峰(比正态分布更平缓)
  • 当偏度和峰度的P值都大于检验水准α(通常为0.05)时,不拒绝H0,可认为样本服从正态分布

概率密度图

概率密度图(直方图叠加正态曲线)通过直观比较样本数据的分布与理论正态分布的吻合程度来判断正态性。

  • 观察要点:
    • 直方图的形状是否呈钟形
    • 数据分布是否关于均值对称
    • 直方图与正态曲线的拟合程度

Q-Q图(分位数-分位数图)

Q-Q图(Quantile-Quantile Plot)是将样本分位数与理论正态分布分位数进行比较的散点图。

  • 判断方法:
    • 如果数据服从正态分布,散点应大致分布在一条直线上
    • 散点偏离直线的程度反映数据偏离正态分布的程度
    • 两端散点偏离中间直线,提示数据可能存在偏态或重尾

P-P图(概率-概率图)

P-P图(Probability-Probability Plot)是将样本累积概率与理论正态分布累积概率进行比较的散点图。

  • 判断方法:
    • 如果数据服从正态分布,散点应大致分布在对角线上
    • 散点偏离对角线的程度反映数据偏离正态分布的程度
    • P-P图对分布中心的偏离更敏感,Q-Q图对分布尾部的偏离更敏感

操作步骤

  1. 数据准备:在数据区输入或导入需要检验的数值型数据,数据应按列排列,每列代表一个变量
  2. 选择计算列:勾选需要进行正态性检验的变量列,可以选择单列或多列同时进行分析
  3. 选择检验选项:点击"正态分布检验选项"按钮,打开设置对话框,根据需要勾选相应的检验方法:
    • 矩法正态检验:进行偏度和峰度的统计检验
    • 概率密度图:生成直方图叠加正态曲线
    • Q-Q图:生成分位数-分位数图
    • P-P图:生成概率-概率图
  4. 执行检验:点击"计算"按钮,系统自动进行正态性检验,检验结果在右侧结果显示区显示
  5. 查看结果:矩法正态检验表显示偏度系数、峰度系数及其Z值、P值;查看正态检验结论(在α=0.05和α=0.10水准下的检验结论);查看图形检验结果,综合判断数据是否服从正态分布

结果解读

  • P > 0.05:不能拒绝原假设,数据服从正态分布
  • P ≤ 0.05:拒绝原假设,数据不服从正态分布
  • 偏度和峰度的P值都应大于α才能认为服从正态分布
  • 图形检验应结合统计检验结果综合判断

注意事项

样本量要求

  • 矩法正态检验适用于大样本(n≥50)
  • 小样本时检验效能较低,可能无法检出不符合正态分布的情况
  • 样本量过大时,即使轻微偏离正态分布也可能检出统计学意义
  • 建议结合图形检验和专业判断

检验水准选择

  • 通常使用α=0.05作为检验水准
  • 对于重要的正态性假设,可使用更严格的α=0.10
  • P>α时,不拒绝H0,认为数据服从正态分布
  • P≤α时,拒绝H0,认为数据不服从正态分布

数据转换

  • 对数转换:适用于右偏数据
  • 平方根转换:适用于计数数据
  • 倒数转换:适用于某些特殊分布
  • Box-Cox转换:寻找最优转换参数

应用场景

  • 参数检验前的正态性验证:t检验、方差分析等要求数据服从正态分布
  • 回归分析的残差检验:线性回归要求残差服从正态分布
  • 质量控制:检验生产数据是否符合正态分布
  • 参考值范围制定:确定医学参考值范围前需验证正态性
  • 数据分布特征描述:了解数据的分布形态

二项分布

二项分布功能模块提供四种常用的二项分布统计分析方法,用于处理二分类数据的概率计算、区间估计和假设检验。

二项分布概率计算

用于描述n次独立重复试验中成功次数的概率分布,适用于二分类结局(成功/失败、阳性/阴性)的概率计算。

参数说明

  • 总体阳性概率:每次试验成功的概率p(0-1之间)
  • 样本数:试验总次数n
  • 样本阳性数:成功的次数X

结果解释

  • P(X):恰好X次成功的概率
  • 累积概率(0~X):0到X次成功的累积概率
  • 累积概率(X~n):X到n次成功的累积概率

应用场景

  • 计算某药物治疗一定数量患者的有效例数概率
  • 计算一定数量检测中阳性结果的概率

总体率的区间估计

用于根据样本数据估计总体率的可能范围,基于样本率计算总体率的置信区间。

参数说明

  • 可信度:置信水平,通常为95%或99%
  • 样本数:观察的总例数n
  • 样本阳性数:成功的例数

结果解释

  • 95%置信区间表示:如果重复抽样100次,约有95次的置信区间会包含真实的总体率
  • 区间越窄,估计越精确
  • 样本量越大,置信区间越窄

样本率与总体率比较

用于检验样本率是否与已知的总体率存在显著差异,基于正态近似法进行假设检验。

结果解释

  • P < 0.05:样本率与总体率差异有统计学意义
  • P ≥ 0.05:样本率与总体率差异无统计学意义
  • Z值绝对值越大,差异越显著

两样本率比较

用于检验两个独立样本的率是否存在显著差异,基于正态近似法进行假设检验。

应用场景

  • 比较两种治疗方法的有效率
  • 比较两个群体的患病率
  • 比较男女某指标的阳性率差异

注意事项

  • 二项分布的前提条件:每次试验只有两种可能结果;各次试验相互独立;每次试验成功的概率保持不变
  • 正态近似的适用条件:样本率与总体率比较要求np₀ ≥ 5且n(1-p₀) ≥ 5;如不满足条件,建议使用精确检验方法

Poisson分布

Poisson分布功能模块提供四种常用的Poisson分布统计分析方法,用于处理稀有事件或计数的概率计算、区间估计和假设检验。

Poisson分布概率计算

用于描述单位时间或空间内稀有事件发生次数的概率分布,适用于稀有事件、计数数据的概率计算。

参数说明

  • 总体均数λ:单位时间或空间内事件发生的平均次数
  • 总体率π:事件发生的概率(可选)
  • 样本数n:观察的样本量(可选)

结果解释

  • P(X):恰好X次事件发生的概率
  • 累积概率(0~X):0到X次事件的累积概率
  • 累积概率(X~n):X到n次事件的累积概率

应用场景

  • 计算某段时间内电话呼叫次数的概率
  • 计算单位面积内缺陷数的概率
  • 计算稀有疾病发病人数的概率

总体均数的区间估计

用于根据样本数据估计Poisson分布总体均数的可能范围,基于查表法计算总体均数的置信区间。

应用场景

  • 估计某地区疾病发病率的范围
  • 估计单位时间内事件发生数的范围
  • 估计产品质量缺陷率的范围

样本均数与总体均数比较

用于检验样本均数是否与已知的总体均数存在显著差异,基于正态近似法进行假设检验。

结果解释

  • Z值:检验统计量
  • P值(双侧):显著性水平
  • 显著性:判断是否有统计学意义

两样本均数比较

用于检验两个独立样本的均数是否存在显著差异,基于正态近似法进行假设检验。

应用场景

  • 比较两个地区的发病率差异
  • 比较两种工艺的缺陷数差异
  • 比较不同时间段的事故数差异

注意事项

  • Poisson分布的前提条件:事件发生是独立的;事件发生的概率在单位时间或空间内是恒定的;两个或多个事件不会在同一时刻发生;适用于稀有事件(发生率较小)
  • 正态近似的适用条件:当λ较大时(通常λ≥20),Poisson分布近似正态分布;样本量较小时,建议使用精确方法

样本量估算

样本量估算是研究设计阶段的重要环节,用于确定满足统计学要求的最小样本量。合理的样本量既能保证研究的统计学功效,又能避免资源浪费。本功能提供四种常用的样本量估算方法,适用于不同的研究设计类型。

影响样本量估算的因素

  • Ⅰ类错误概率(α,显著性水平):α越小所需样本含量越多。对于相同α,双侧检验比单侧检验所需要的样本含量更多
  • 检验功效(1-β)或Ⅱ类错误概率(β):检验功效越大,第二类错误的概率愈小,所需要样本含量愈多
  • 容许误差δ:容许误差δ愈大,所需的样本含量愈小
  • 总体标准差σ或总体概率π:总体概率越接近0.5,则所需样本含量愈多

单样本均数

用于比较样本均数与已知总体均数的差异,估算所需样本量。

参数设置

  • Ⅰ类错误概率(α):通常取0.05或0.01
  • Ⅱ类错误概率(β):通常取0.10或0.20(对应检验功效90%或80%)
  • 双侧/单侧:根据研究目的选择
  • 总体均数μ0:已知的总体均数值
  • 样本均数μ1:预期的样本均数值
  • 总体标准差σ:总体的标准差

结果解读

软件会生成样本量估算表,显示不同α和β水平下的样本量需求。研究者应根据实际情况选择合适的检验水准和检验功效,确定最终样本量。

单样本率

用于比较样本率与已知总体率的差异,估算所需样本量。

参数设置

  • Ⅰ类错误概率(α):通常取0.05或0.01
  • Ⅱ类错误概率(β):通常取0.10或0.20
  • 双侧/单侧:根据研究目的选择
  • 总体率π0:已知的总体率(以百分比表示)
  • 样本率π1:预期的样本率(以百分比表示)

结果解读

软件会生成样本量估算表,显示不同α和β水平下的样本量需求。注意总体率越接近50%,所需样本量越大。

两样本均数

用于比较两个独立样本均数的差异,估算两组所需的样本量。

参数设置

  • Ⅰ类错误概率(α):通常取0.05或0.01
  • Ⅱ类错误概率(β):通常取0.10或0.20
  • 双侧/单侧:根据研究目的选择
  • 样本1均数μ1:第一组的预期均数值
  • 样本2均数μ2:第二组的预期均数值
  • 两样本量比率(k=n1/n2):两组样本量的比例,默认为1表示两组样本量相等
  • 总体标准差σ:假设两组标准差相同

结果解读

软件会生成样本量估算表,显示不同α和β水平下两组的样本量需求(n1+n2)。两组样本量相等时统计效率最高。

两样本率

用于比较两个独立样本率的差异,估算两组所需的样本量。

参数设置

  • Ⅰ类错误概率(α):通常取0.05或0.01
  • Ⅱ类错误概率(β):通常取0.10或0.20
  • 双侧/单侧:根据研究目的选择
  • 样本1比例p1:第一组的预期率(以百分比表示)
  • 样本2比例p2:第二组的预期率(以百分比表示)
  • 两样本量比率(k=n1/n2):两组样本量的比例,默认为1表示两组样本量相等

结果解读

软件会生成样本量估算表,显示不同α和β水平下两组的样本量需求(n1+n2)。两组率差异越大,所需样本量越小。

操作步骤

  1. 选择估算类型:根据研究设计选择相应的样本量估算方法
  2. 设置参数:输入Ⅰ类错误概率(α)、Ⅱ类错误概率(β),选择双侧或单侧检验,输入相应的均数、率、标准差等参数
  3. 查看结果:软件自动生成样本量估算表,显示不同α和β组合下的样本量,根据研究实际情况选择合适的样本量

注意事项

  • 样本量估算应在研究设计阶段进行,需要基于文献或预研究确定相关参数
  • 估算的样本量是最小样本量要求,实际研究中应考虑失访、脱落等因素,适当增加样本量
  • 两样本比较时,两组样本量相等时统计效率最高
  • 样本量估算结果依赖于输入参数的准确性,参数估计不准确可能导致样本量不足或浪费
  • 伦理考虑:样本量不应过大,避免不必要的资源浪费和受试者暴露

四格表卡方检验

四格表卡方检验用于分析两个二分类变量之间是否存在统计学关联。

术语解释

  • Pearson卡方检验:适用于大样本(n≥40且所有T≥5),检验两变量是否独立
  • Yates校正卡方:对Pearson卡方进行连续性校正,适用于1≤T<5的情况
  • 期望频数(T):在两变量独立假设下,各格子的理论频数
  • 本分析根据样本量和最小期望频数自动选择最合适的检验方法,并提供多种关联性指标供综合判断

数据输入格式

四格表格式

直接输入四个格子的实际频数:

  • 组1:事件发生数(a)、事件未发生数(b)
  • 组2:事件发生数(c)、事件未发生数(d)
  • 适用于已知四个格子实际频数的情况

发生数格式

输入样本数和事件发生数:

  • 组1:样本数、事件发生数
  • 组2:样本数、事件发生数
  • 系统自动计算事件未发生数(样本数-事件发生数)

发生率格式

输入样本数和发生率:

  • 组1:样本数、发生率(%)
  • 组2:样本数、发生率(%)
  • 系统自动计算事件发生数和未发生数

主要结果

卡方检验结果比较

同时显示Pearson卡方和Yates校正卡方的结果:

  • 自由度:四格表自由度=1
  • 卡方值:检验统计量
  • P值(双侧):显著性水平
  • 显著性:P>0.05或P<0.05
  • 系统根据样本量和最小期望频数给出推荐使用的检验方法

四格表期望值

显示四个格子的理论频数(Ta、Tb、Tc、Td)和总样本数(n),用于判断是否满足卡方检验的应用条件

关联性统计指标

  • Fisher精确检验(双侧和单侧):适用于小样本资料
  • 列联系数(C):衡量关联强度,0≤C<1,值越大关联越强
  • Cramer's V系数:适用于四格表的关联强度指标,0≤V≤1
  • Pearson相关系数(R):衡量线性相关程度,-1≤R≤1
  • 线性关联检验:Mantel-Haenszel卡方检验及P值

风险指标

  • OR值(比值比):组1发生事件的比值是组2的多少倍
  • OR 95%置信区间:OR值的95%置信区间
  • RR值(相对风险度):组1的事件发生率是组2的多少倍
  • RR 95%置信区间:RR值的95%置信区间

操作步骤

  1. 选择数据输入格式:根据已有数据选择四格表格式、发生数格式或发生率格式
  2. 输入数据:在相应的文本框中输入数据,系统自动计算合计数
  3. 执行计算:点击"计算"按钮,系统自动进行卡方检验并显示结果
  4. 查看结果:查看卡方检验结果比较表、四格表期望值、关联性统计指标和风险指标,根据推荐选择合适的检验结果进行解释

注意事项

应用条件

  • n≥40且所有T≥5:使用Pearson卡方检验
  • n≥40且1≤T<5:使用Yates校正卡方检验
  • n<40或T<1:使用Fisher精确检验

结果解释

  • P<0.05:两组差异有统计学意义
  • P≥0.05:两组差异无统计学意义
  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • OR或RR的95%置信区间包含1,差异无统计学显著性

关联强度判断

  • 列联系数或Cramer's V < 0.1:极弱或无关
  • 0.1 ≤ 列联系数或Cramer's V < 0.3:弱关联
  • 0.3 ≤ 列联系数或Cramer's V < 0.5:中等关联
  • 列联系数或Cramer's V ≥ 0.5:强关联

应用场景

  • 比较两组治疗效果的有效率差异
  • 比较两组疾病发生率的差异
  • 分析两个二分类变量之间的关联性
  • 病例对照研究中的暴露与疾病关联分析

行×列表卡方检验

行×列表卡方检验(R×C卡方检验)用于分析两个分类变量(至少一个为多分类)之间是否存在统计学关联。

术语解释

  • Pearson卡方检验:适用于大样本,要求:①无T<1;②T<5的格子不超过总格子数的20%
  • 期望频数(T):在两变量独立假设下,各单元格的理论频数,T=(行合计×列合计)/总样本量
  • 本分析基于Pearson卡方检验,并自动计算效应量、线性趋势及智能解读。若不满足卡方检验条件,结果可能不可靠

数据输入格式

行列表格式

直接输入行×列表的实际频数:

  • 设置行数和列数,在表格中输入各单元格的频数
  • 适用于已知完整的行×列表频数资料

使用样本数、发生数格式

输入各组的样本数、发生数和未发生数:

  • 系统自动计算合计行
  • 适用于已知各组样本量和事件发生数的资料

使用样本数、发生率格式

输入各组的样本数、发生率和发生数:

  • 系统自动计算未发生数和合计
  • 适用于已知各组样本量和发生率的资料

参数设置

  • 行数:设置行变量的分类数
  • 列数:设置列变量的分类数
  • 两两比较:勾选后进行多重比较,找出差异来源
  • Bonferroni校正:对两两比较的P值进行Bonferroni校正,控制I类错误

主要结果

行乘列卡方检验

  • 自由度:df=(行数-1)×(列数-1)
  • 卡方值:Pearson卡方检验统计量
  • P(双侧):双侧检验的P值
  • 显著性:P值范围判断
  • 列联系数:衡量关联强度的指标,0≤C<1,值越大关联越强
  • Cramer's V:适用于R×C表的效应量指标,0≤V≤1
  • Pearson R:Pearson相关系数,衡量线性相关程度
  • 线性关联:Mantel-Haenszel卡方检验值,检验线性趋势

两两比较

  • 按行分割:将整行进行两两比较,比较不同行之间的差异
  • 按列分割:将整列进行两两比较,比较不同列之间的差异
  • 按行与列分割:将数据分割成多个2×2表进行卡方检验
  • Bonferroni校正后的检验水准:α=0.05/比较次数

操作步骤

  1. 选择数据输入格式:根据已有数据选择行列表格式、样本数发生数格式或样本数发生率格式
  2. 设置参数:设置行数和列数,勾选两两比较和Bonferroni校正(如需)
  3. 输入数据:在表格中输入相应的数据,系统自动计算合计
  4. 执行计算:点击"计算"按钮,系统自动进行卡方检验并显示结果
  5. 查看结果:查看行乘列卡方检验结果、两两比较结果(如勾选)、查看统计图表

结果解释

总体关联性检验

  • P<0.05:不同组别之间存在显著差异
  • P≥0.05:不同组别之间无显著差异

关联强度分析

  • 列联系数<0.1:极弱或无关
  • 0.1≤列联系数<0.3:弱关联
  • 0.3≤列联系数<0.5:中等关联
  • 列联系数≥0.5:强关联

效应量评估

  • Cramer's V<0.1:效应量极小
  • 0.1≤Cramer's V<0.3:效应量小
  • 0.3≤Cramer's V<0.5:效应量中等
  • Cramer's V≥0.5:效应量大

线性趋势分析

  • 线性关联P<0.05:存在显著线性趋势
  • 线性关联P≥0.05:无线性趋势

两两比较结果

  • P<校正后的α:两组之间有显著差异
  • P≥校正后的α:两组之间无显著差异

注意事项

应用条件

  • 无期望频数T<1
  • 期望频数T<5的格子不超过总格子数的20%
  • 如不满足条件,可考虑合并类别或使用Fisher精确检验

两两比较

  • 总体检验有显著差异时才需要进行两两比较
  • 多重比较会增加I类错误,建议使用Bonferroni校正
  • Bonferroni校正较为保守,可能增加II类错误

结果解读

  • 统计学显著不等于实际意义显著
  • 需结合效应量和实际背景综合判断
  • 线性趋势仅适用于有序分类变量

应用场景

  • 比较多个组别的疗效差异(有效、显效、无效)
  • 分析不同职业人群的疾病构成比差异
  • 比较不同年龄段的健康状况分布
  • 分析多个样本率的差异

配对资料卡方检验(McNemar检验)

配对卡方检验(McNemar检验)用于分析同一受试对象在两种处理或两种检测方法下的二分类结果是否存在显著差异。

术语解释

  • 配对设计:同一对象接受两种处理(如治疗前后、两种诊断方法),数据呈配对形式
  • 精确检验:基于二项分布直接计算P值,适用于小样本,结果最可靠
  • McNemar卡方检验:适用于b+c≥40,检验公式χ²=(b-c)²/(b+c)
  • 校正卡方:当b+c<40时,使用Yates校正:χ²=(|b-c|-1)²/(b+c)
  • Kappa一致性系数:衡量两种方法结果的一致性程度,排除随机一致的影响
  • 比值比(OR):定义为OR=c/b,表示在不一致配对中,方法2判为阳性的比值(odds)是方法1的多少倍
  • 本分析同时提供卡方检验、精确检验、Kappa一致性及OR值,并给出智能解读

数据输入格式

输入四格表的四个实际频数:

  • a:两种方法均为阳性(+,+)的配对数
  • b:方法1阳性、方法2阴性(+,-)的配对数
  • c:方法1阴性、方法2阳性(-,+)的配对数
  • d:两种方法均为阴性(-,-)的配对数

主要结果

配对资料精确检验

  • P(双侧):基于二项分布计算的精确P值
  • 显著性:P>0.05或P<0.05
  • 统计软件一般采用此方法直接计算P值

配对资料卡方检验

  • 自由度:配对资料自由度=1
  • 卡方值:McNemar检验统计量
  • 卡方(校正):Yates连续性校正后的卡方值
  • P(双侧):双侧检验的P值
  • 显著性:P值范围判断
  • 当b+c≥40时,建议卡方取非校正值
  • 手工计算和教材一般采用校正卡方方法计算卡方和P值

Kappa一致性系数

Kappa值:衡量两种方法结果的一致性程度

  • Kappa<0:一致性极差
  • 0≤Kappa<0.2:一致性极低
  • 0.2≤Kappa<0.4:一致性一般
  • 0.4≤Kappa<0.6:一致性中等
  • 0.6≤Kappa<0.8:一致性较高
  • 0.8≤Kappa≤1.0:一致性极高

比值比(OR)

  • OR=c/b:在不一致配对中,方法2判为阳性的比值(odds)是方法1的多少倍
  • OR>1:方法2更倾向于判为阳性
  • OR<1:方法1更倾向于判为阳性
  • OR=1:两种方法判为阳性的倾向相同

操作步骤

  1. 输入数据:在四格表中输入四个配对频数a、b、c、d,系统自动计算行合计、列合计和总合计
  2. 执行计算:点击"计算"按钮,系统自动进行配对卡方检验,计算结果在右侧结果显示区显示
  3. 查看结果:查看配对资料精确检验结果、配对资料卡方检验结果、Kappa一致性系数、比值比(OR)

注意事项

应用条件

  • 数据必须是配对设计的二分类资料
  • b+c≥40时,使用McNemar卡方检验
  • b+c<40时,使用校正卡方或精确检验
  • 小样本时建议使用精确检验

结果解释

  • P<0.05:两种方法或处理之间存在显著差异
  • P≥0.05:两种方法或处理之间无显著差异
  • Kappa值反映一致性程度,与差异性检验结果不同
  • OR值反映不一致配对的倾向性

与独立样本卡方检验的区别

  • 配对资料卡方检验只关注不一致配对(b和c)
  • 独立样本卡方检验关注所有四个格子
  • 配对设计不能使用独立样本卡方检验

应用场景

  • 比较两种诊断方法的一致性
  • 比较治疗前后的疗效变化
  • 比较同一对象在两种条件下的反应
  • 评估两种检测方法的一致性
  • 配对病例对照研究

多分类配对资料卡方检验(Bowker检验)

Bowker检验是McNemar检验在多分类配对资料中的推广,用于检验两种方法或处理在K×K分类结果上是否对称(即无系统性差异)。

术语解释

  • K×K配对表:行和列均为同一组分类(如"轻/中/重"),对角线为一致结果
  • Bowker检验:基于非对角线单元格的不对称性,计算χ²=Σ(n_ij-n_ji)²/(n_ij+n_ji)
  • 自由度:df=K(K-1)/2-零频数对数量
  • Kappa一致性系数:衡量多分类下的一致性,考虑随机一致后的校正
  • 对称性假设:若P≥0.05,认为两种方法结果对称,无系统偏差
  • 本分析适用于有序或无序多分类配对数据,自动计算Bowker卡方、Kappa及智能解读
  • 注意:本方法要求样本为同一组受试者在两种条件下(或两位评价者)的配对分类结果,且分类类别在行和列上完全一致

数据输入格式

  • 输入K×K配对表的实际频数
  • 设置分类数K(如3分类、4分类等)
  • 行和列代表相同的分类类别
  • 对角线单元格表示两种方法结果一致
  • 非对角线单元格表示两种方法结果不一致

主要结果

多分类配对资料卡方检验

  • 自由度:df=K(K-1)/2-零频数对数量
  • 卡方值:Bowker检验统计量
  • P(双侧):双侧检验的P值
  • 显著性:P>0.05或P<0.05
  • Kappa:Kappa一致性系数

Kappa一致性系数解读

  • Kappa<0:一致性极差
  • 0≤Kappa<0.2:一致性极低
  • 0.2≤Kappa<0.4:一致性一般
  • 0.4≤Kappa<0.6:一致性中等
  • 0.6≤Kappa<0.8:一致性较高
  • 0.8≤Kappa≤1.0:一致性极高

操作步骤

  1. 设置分类数:输入分类数K(如3表示3分类,4表示4分类),系统自动生成K×K的输入表格
  2. 输入数据:在K×K表格中输入配对频数,行和列代表相同的分类类别,系统自动计算合计
  3. 执行计算:点击"计算"按钮,系统自动进行Bowker检验,计算结果在右侧结果显示区显示
  4. 查看结果:查看Bowker检验结果、Kappa一致性系数、查看统计图表

注意事项

应用条件

  • 数据必须是配对设计的多分类资料
  • 行和列的分类类别必须完全一致
  • 样本为同一组受试者在两种条件下的配对结果
  • 或两位评价者对同一组对象的配对评价结果

结果解释

  • P<0.05:两种方法或处理之间存在系统性差异(不对称)
  • P≥0.05:两种方法或处理之间无系统性差异(对称)
  • Kappa值反映一致性程度,与对称性检验结果不同
  • 即使对称,一致性也可能很低(如随机一致)

与McNemar检验的关系

  • 当K=2时,Bowker检验等同于McNemar检验
  • Bowker检验是McNemar检验在多分类情况下的推广
  • 两者都用于检验配对资料的对称性

应用场景

  • 比较两种诊断方法在多分类结果上的一致性
  • 比较治疗前后病情分级(轻/中/重)的变化
  • 比较两位评价者对同一组对象的等级评定
  • 评估同一对象在不同时间点的分类结果
  • 检验配对设计多分类资料的对称性

Fisher精确检验

Fisher精确检验用于分析两个独立组在二分类结局(如"发生/未发生")上的分布差异,特别适用于小样本或稀疏数据情况。

方法说明

Fisher精确检验特别适用于以下情况:

  • 总样本量较小(通常n<40)
  • 列联表中存在期望频数(T)<1的单元格
  • 任一实际频数为0且样本有限
  • 该方法基于超几何分布直接计算精确P值,不依赖大样本近似,因此在小样本或稀疏数据下比卡方检验更可靠

术语解释

  • 精确P值:在两组独立且总体分布相同的假设下,观察到当前或更极端分布的概率
  • OR(比值比,Odds Ratio):=(a·d)/(b·c),表示组1相对于组2的事件发生odds(比值)的倍数,适用于任何二分类设计
  • RR(相对风险,Relative Risk):=[a/(a+b)]/[c/(c+d)],表示组1相对于组2的事件发生概率(风险)的倍数,仅适用于队列研究或随机对照试验
  • odds(比值)≠概率:odds=发生数/未发生数,而概率=发生数/总数。两者在事件罕见时接近,但在事件常见时差异显著
  • 注意:本分析仅适用于独立样本设计,不适用于配对或重复测量数据

数据输入格式

在四格表中输入两个独立组的发生数和未发生数:

  • 组1:事件发生数(a)、事件未发生数(b)
  • 组2:事件发生数(c)、事件未发生数(d)
  • 系统自动计算合计数

主要结果

Fisher精确检验结果

  • P值(双侧):双侧检验的精确P值
  • P值(单侧):单侧检验的精确P值
  • OR(比值比):组1相对于组2的odds比值
  • OR 95% CI:OR值的95%置信区间
  • RR(相对风险度):组1相对于组2的风险比值
  • RR 95% CI:RR值的95%置信区间

操作步骤

  1. 输入数据:在四格表中输入两个独立组的发生数和未发生数,系统自动计算合计数
  2. 执行计算:点击"计算"按钮,系统自动进行Fisher精确检验,计算结果在右侧结果显示区显示
  3. 查看结果:查看双侧和单侧P值、查看OR值及其95%置信区间、查看RR值及其95%置信区间

结果解释

差异检验结果

  • P<0.05:两组在结局分布上存在统计学显著差异
  • P≥0.05:两组在结局分布上无统计学显著差异
  • 双侧检验用于检验两组是否有差异(不指定方向)
  • 单侧检验用于检验一组是否优于另一组(指定方向)

关联强度分析

  • OR>1:组1事件发生的odds高于组2
  • OR<1:组1事件发生的odds低于组2
  • OR=1:两组事件发生的odds相同
  • OR的95%置信区间不包含1,差异有统计学显著性
  • RR>1:组1事件发生的风险高于组2
  • RR<1:组1事件发生的风险低于组2
  • RR=1:两组事件发生的风险相同
  • RR的95%置信区间不包含1,差异有统计学显著性

综合说明

  • Fisher精确检验适用于小样本或稀疏数据,结果可靠
  • "无显著差异"不等于"无实际意义",建议结合效应量(OR/RR)及其置信区间评估临床或实际价值
  • 本分析仅反映变量间的统计关联性,不能推断因果关系
  • 若数据来自病例对照研究,RR无真实流行病学意义,应以OR为准

注意事项

应用条件

  • 适用于独立样本设计
  • 适用于小样本(n<40)
  • 适用于期望频数<1的情况
  • 不适用于配对或重复测量数据

OR与RR的选择

  • 队列研究或随机对照试验:可同时报告OR和RR
  • 病例对照研究:只能报告OR,RR无意义
  • 横断面研究:可报告OR,RR需谨慎解释

置信区间解读

  • 置信区间越窄,估计越精确
  • 置信区间包含1,差异无统计学显著性
  • 小样本时置信区间通常较宽

应用场景

  • 小样本临床试验的疗效比较
  • 罕见病的危险因素分析
  • 四格表中存在0值的情况
  • 样本量不足时的探索性研究

卡方P值计算

卡方P值计算功能用于根据已知的卡方值和自由度,直接计算对应的P值。该功能适用于已知卡方检验结果,需要查询精确P值的情况。

参数说明

卡方值

  • 卡方检验计算得到的卡方统计量(χ²值)
  • 卡方值≥0,值越大表示观察频数与理论频数的差异越大

自由度

  • 卡方检验的自由度(df)
  • 四格表卡方检验:自由度=(行数-1)×(列数-1)=1
  • R×C列联表:自由度=(R-1)×(C-1)
  • 拟合优度检验:自由度=分类数-1-估计参数个数

P值

  • 在零假设成立的情况下,获得当前或更极端卡方值的概率
  • P<0.05:差异有统计学意义
  • P≥0.05:差异无统计学意义

操作步骤

  1. 输入卡方值:在"卡方值"文本框中输入卡方检验计算得到的卡方值,卡方值应为非负数
  2. 输入自由度:在"自由度"文本框中输入相应的自由度,自由度应为正整数
  3. 计算P值:点击"计算"按钮或直接按回车键,系统自动计算并显示对应的P值
  4. 结果解读:根据P值判断统计学显著性,结合研究背景和专业知识进行综合判断

应用场景

  • 手工计算卡方值后查询P值
  • 验证其他软件计算结果的准确性
  • 查阅文献中的卡方检验结果
  • 教学演示和学习卡方分布

注意事项

输入要求

  • 卡方值必须≥0
  • 自由度必须为正整数
  • 输入值应符合卡方检验的基本要求

计算精度

  • 可通过设置菜单调整P值的小数位数
  • 默认显示3位小数
  • 极小的P值可能显示为0.000

结果解释

  • P值仅反映统计学显著性,不代表实际意义大小
  • 应结合效应量、置信区间等指标综合判断
  • P值受样本量影响,大样本时容易得到显著结果

示例说明

  • 示例:卡方值=0.9526,自由度=1
  • 计算结果:P=0.3291

独立样本t检验(汇总数据)

独立样本t检验用于比较两个独立小样本组的总体均值是否存在显著差异。

方法说明

  • 适用于比较两个独立小样本组的总体均值是否存在显著差异
  • 要求总体标准差未知,且假设两组数据来自正态分布总体、方差齐性(本实现采用合并方差法)
  • 对样本量要求较低,尤其适用于n<30的情形
  • 检验统计量t服从自由度为n₁+n₂-2的t分布

应用条件

  • 独立性:两组样本相互独立
  • 正态性:两组数据均来自正态分布总体
  • 方差齐性:两总体方差相等
  • 小样本:尤其适用于n<30的情形

数据输入

  • 样本量:分别输入样本1和样本2的样本量(n₁、n₂)
  • 均值:分别输入样本1和样本2的样本均值
  • 标准差:分别输入样本1和样本2的样本标准差

操作步骤

  1. 输入数据:在样本1和样本2对应的文本框中输入样本量、均值和标准差
  2. 执行计算:点击"计算"按钮,系统自动计算t值、自由度和P值
  3. 查看结果:查看描述性统计量表(显示两组样本的基础统计信息)、查看独立样本t检验结果表(显示t值、自由度、P值和显著性)

结果解释

显著性结论分析

  • P<0.05:两组均值差异有统计学意义
  • P<0.01:两组均值差异有高度统计学意义
  • P≥0.05:两组均值差异无统计学意义

置信区间解读

  • 置信区间完全在正侧:样本1均值显著高于样本2
  • 置信区间完全在负侧:样本1均值显著低于样本2
  • 置信区间包含0:两组均值差异无统计学意义

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

方差齐性检验

  • 进行独立样本t检验前应作F检验,检验方差是否相等
  • 方差不齐时使用近似t检验即t'检验(Satterthwaite近似法)

正态性检验

  • 建议先进行正态性检验,确认数据符合正态分布
  • 如数据不符合正态分布,可考虑使用秩和检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断

应用场景

  • 比较两种治疗方法的效果差异
  • 比较实验组和对照组的指标差异
  • 比较男女性别在某指标上的差异
  • 比较两个独立群体的均值差异

独立样本t检验(原始数据)

独立样本t检验用于比较两个独立小样本组的总体均值是否存在显著差异。

方法说明

  • 适用于比较两个独立小样本组的总体均值是否存在显著差异
  • 要求总体标准差未知,且假设两组数据来自正态分布总体、方差齐性(本实现采用合并方差法,并提供Welch校正选项)
  • 对样本量要求较低,尤其适用于n<30的情形
  • 检验统计量t服从自由度为n₁+n₂-2的t分布(方差齐时)或Welch-Satterthwaite自由度(方差不齐时)

应用条件

  • 独立性:两组样本相互独立
  • 正态性:两组数据均来自正态分布总体
  • 方差齐性:两总体方差相等
  • 小样本:尤其适用于n<30的情形

数据输入

  • 在数据区输入两组原始数据,每列代表一组
  • 第一行可输入变量名称(如"高蛋白组"、"低蛋白组")
  • 从第二行开始输入具体数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入两组样本的原始数据
  • 可以输入多行数据,每行代表一个观测值

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算"按钮
  • 系统自动进行方差齐性检验和t检验

步骤4:查看结果

  • 查看描述性统计表:显示两组样本的基础统计信息(样本量、均值、标准差、最小值、最大值)
  • 查看方差齐性检验结果:Levene检验判断两组方差是否相等
  • 查看独立样本t检验结果:包括t值、自由度、P值和显著性
  • 查看Welch校正结果:当方差不齐时参考此结果

结果解释

方差齐性检验

  • P<0.05:两组方差不齐,应使用Welch校正t检验结果
  • P≥0.05:两组方差齐,可使用常规t检验结果

显著性结论分析

  • P<0.05:两组均值差异有统计学意义
  • P<0.01:两组均值差异有高度统计学意义
  • P≥0.05:两组均值差异无统计学意义

置信区间解读

  • 置信区间完全在正侧:样本1均值显著高于样本2
  • 置信区间完全在负侧:样本1均值显著低于样本2
  • 置信区间包含0:两组均值差异无统计学意义

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

缺失值处理

  • 系统会自动识别并排除缺失值
  • 分析基于有效数据进行
  • 结果中会显示缺失值数量

方差齐性检验

  • 进行独立样本t检验前应作Levene检验,检验方差是否相等
  • 方差不齐时使用Welch校正t检验(Satterthwaite近似法)

正态性检验

  • 建议先进行正态性检验,确认数据符合正态分布
  • 如数据不符合正态分布,可考虑使用秩和检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断

应用场景

  • 比较两种治疗方法的效果差异
  • 比较实验组和对照组的指标差异
  • 比较男女性别在某指标上的差异
  • 比较两个独立群体的均值差异

相关功能

  • 独立样本t检验(汇总数据):使用汇总统计量进行t检验
  • 配对样本t检验:用于配对设计的t检验
  • 单样本t检验:用于单样本与总体均值的比较
  • 方差齐性检验:检验两组方差是否相等
  • 正态分布检验:检验数据是否符合正态分布
  • 秩和检验:数据不符合正态分布时的替代方法

配对样本t检验

配对样本t检验用于分析同一受试对象在两种处理或时间点下的测量值差异是否显著(如治疗前后)。

方法说明

  • 适用于分析同一受试对象在两种处理或时间点下的测量值差异是否显著(如治疗前后)
  • 要求差异的总体标准差未知,且配对样本量较小(通常n<30)
  • 假设差异来自正态分布总体
  • 检验统计量t服从自由度为n-1的t分布

应用条件

  • 配对设计:数据必须来自配对设计,如同一受试对象前后测量、配对样本等
  • 正态性:配对差异应服从正态分布
  • 独立性:各配对之间相互独立
  • 小样本:尤其适用于n<30的情形

数据输入

  • 选择两个计算列:第一列为配对前的数据,第二列为配对后的数据
  • 第一行可输入变量名称(如"饮用前"、"饮用后")
  • 从第二行开始输入配对数据,每行代表一对观测值
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入配对的两组数据
  • 确保数据一一对应,每行代表一个配对

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算"按钮
  • 系统自动进行配对样本t检验

步骤4:查看结果

  • 查看描述性统计表:显示两组样本及配对差异的基础统计信息
  • 查看配对样本t检验结果表:显示t值、自由度、P值和显著性
  • 查看统计图表:均值对比图和正态性Q-Q图

结果解释

显著性结论分析

  • P<0.05:配对均值差异有统计学意义
  • P<0.01:配对均值差异有高度统计学意义
  • P≥0.05:配对均值差异无统计学意义

效应量实际意义分析

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间完全在正侧:配对前显著大于配对后
  • 置信区间完全在负侧:配对前显著小于配对后
  • 该区间表示配对测量真实差异的可能范围

前提条件问题诊断

  • 正态性检验:可通过Q-Q图或正态性检验判断配对差异是否符合正态分布
  • 如不符合正态分布,可考虑使用配对样本秩和检验

注意事项

配对设计要求

  • 数据必须来自配对设计,不能是独立样本
  • 每对数据必须一一对应,不能错位

正态性检验

  • 建议先进行正态性检验,确认配对差异符合正态分布
  • 小样本时正态性检验效能较低,可结合Q-Q图判断

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 治疗前后效果比较
  • 同一受试对象不同时间点的测量比较
  • 配对设计的实验研究
  • 同一对象两种方法或条件的比较

相关功能

  • 独立样本t检验:用于两组独立样本的比较
  • 配对样本秩和检验:配对差异不符合正态分布时的替代方法
  • 单样本t检验:用于单样本与总体均值的比较
  • 正态分布检验:检验数据是否符合正态分布

单样本t检验(汇总数据)

单样本t检验用于检验单个样本的均值是否与已知总体均值存在显著差异。

方法说明

  • 适用于已知总体均数、样本量、样本均数和样本标准差的汇总资料
  • 要求总体标准差未知,且假设样本数据来自正态分布总体
  • 对样本量要求较低,尤其适用于n<30的小样本情形
  • 检验统计量t服从自由度为n-1的t分布

应用条件

  • 正态性:样本数据应来自正态分布总体
  • 独立性:各观测值相互独立
  • 小样本:尤其适用于总体标准差未知且n<30的情形

数据输入

  • 总体均数:输入已知的总体均值μ0
  • 样本量:输入样本的观测值个数n
  • 样本均数:输入样本的平均值
  • 样本标准差:输入样本的标准差

操作步骤

步骤1:输入参数

  • 在对应文本框中输入总体均数、样本量、样本均数和样本标准差

步骤2:执行计算

  • 点击"计算"按钮
  • 系统自动计算t值、自由度和P值

步骤3:查看结果

  • 查看描述性统计量表:显示样本的基础统计信息
  • 查看单样本t检验结果表:显示t值、自由度、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:样本均值与总体均值差异有统计学意义
  • P<0.01:样本均值与总体均值差异有高度统计学意义
  • P≥0.05:样本均值与总体均值差异无统计学意义

置信区间解读

  • 置信区间不包含总体均值:支持存在显著差异的结论
  • 置信区间包含总体均值:差异无统计学意义
  • 该区间表示样本均值与总体均值真实差异的可能范围

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

正态性检验

  • 建议先进行正态性检验,确认数据符合正态分布
  • 如数据不符合正态分布,可考虑使用单样本秩和检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体均值是否与标准值或理论值存在差异
  • 验证实验结果是否符合预期标准
  • 比较样本均值与历史数据或参考值的差异
  • 质量控制中检验产品指标是否符合规格要求

相关功能

  • 单样本t检验(原始资料):使用原始数据进行单样本t检验
  • 独立样本t检验:用于两组独立样本的比较
  • 配对样本t检验:用于配对设计的比较
  • 正态分布检验:检验数据是否符合正态分布
  • 单样本秩和检验:数据不符合正态分布时的替代方法

单样本t检验(原始数据)

单样本t检验用于检验单个样本的总体均值是否与已知的理论值存在显著差异。

方法说明

  • 适用于检验单个样本的总体均值是否与已知的理论值存在显著差异
  • 要求总体标准差未知,且样本量较小(通常n<30)
  • 假设样本来自正态分布总体
  • 检验统计量t服从自由度为n-1的t分布

应用条件

  • 正态性:样本数据应来自正态分布总体
  • 独立性:各观测值相互独立
  • 小样本:尤其适用于总体标准差未知且n<30的情形

数据输入

  • 总体均值:输入已知的总体均值检验值
  • 选择计算列:选择包含样本数据的列
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入总体均值

  • 在"总体均值"文本框中输入已知的总体均值或理论值

步骤2:输入数据

  • 在数据区的C1列输入样本数据
  • 第一行可输入变量名称(如"难产新生儿体重")

步骤3:选择计算列

  • 勾选C1列

步骤4:执行计算

  • 点击"计算"按钮
  • 系统自动计算t值、自由度和P值

步骤5:查看结果

  • 查看描述性统计表:显示样本的基础统计信息
  • 查看单样本t检验结果表:显示t值、自由度、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:样本均值与总体均值差异有统计学意义
  • P<0.01:样本均值与总体均值差异有高度统计学意义
  • P≥0.05:样本均值与总体均值差异无统计学意义

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间包含0:差异无统计学意义
  • 该区间表示样本与总体真实差异的可能范围

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

正态性检验

  • 建议先进行正态性检验,确认数据符合正态分布
  • 如数据不符合正态分布,可考虑使用单样本秩和检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体均值是否与标准值或理论值存在差异
  • 验证实验结果是否符合预期标准
  • 比较样本均值与历史数据或参考值的差异
  • 质量控制中检验产品指标是否符合规格要求

相关功能

  • 单样本t检验(汇总数据):使用汇总统计量进行单样本t检验
  • 独立样本t检验:用于两组独立样本的比较
  • 配对样本t检验:用于配对设计的比较
  • 正态分布检验:检验数据是否符合正态分布
  • 单样本秩和检验:数据不符合正态分布时的替代方法

t检验P值

t检验P值计算功能用于根据已知的t值和自由度,直接计算对应的P值。该功能适用于已知t检验结果,需要查询精确P值的情况。

参数说明

t值

  • t检验计算得到的t统计量
  • t值可正可负,绝对值越大表示差异越显著

自由度

  • t检验的自由度(df)
  • 单样本t检验:自由度=n-1
  • 配对样本t检验:自由度=n-1
  • 独立样本t检验:自由度=n1+n2-2

P值

  • 在零假设成立的情况下,获得当前或更极端t值的概率
  • P<0.05:差异有统计学意义
  • P≥0.05:差异无统计学意义

操作步骤

步骤1:输入t值

  • 在"t值"文本框中输入t检验计算得到的t值

步骤2:输入自由度

  • 在"自由度"文本框中输入相应的自由度
  • 自由度应为正整数

步骤3:计算P值

  • 点击"计算"按钮或直接按回车键
  • 系统自动计算并显示对应的P值

步骤4:结果解读

  • 根据P值判断统计学显著性
  • 结合研究背景和专业知识进行综合判断

应用场景

  • 手工计算t值后查询P值
  • 验证其他软件计算结果的准确性
  • 查阅文献中的t检验结果
  • 教学演示和学习t分布

注意事项

输入要求

  • t值可以是正数或负数
  • 自由度必须为正整数
  • 输入值应符合t检验的基本要求

计算精度

  • 可通过设置菜单调整P值的小数位数
  • 默认显示3位小数
  • 极小的P值可能显示为0.000

结果解释

  • P值仅反映统计学显著性,不代表实际意义大小
  • 应结合效应量、置信区间等指标综合判断
  • P值受样本量影响,大样本时容易得到显著结果

相关功能

  • 独立样本t检验:用于两组独立样本的比较
  • 配对样本t检验:用于配对设计的比较
  • 单样本t检验:用于单样本与总体均值的比较
  • 查临界值表:通过查表法确定P值范围

示例说明

  • 示例:t值=1.7730,自由度=34
  • 计算结果:P=0.0852
  • 结论:P>0.05,差异无统计学意义

独立样本Z检验(汇总数据)

独立样本Z检验用于比较两个独立组的总体均值是否存在显著差异。

方法说明

  • 适用于比较两个独立组的总体均值是否存在显著差异
  • 要求总体标准差已知,或样本量足够大(通常每组n>30),以满足中心极限定理
  • 假设两组数据相互独立,且来自正态分布总体(大样本时可放宽正态性要求)
  • 检验统计量Z服从标准正态分布

应用条件

  • 独立性:两组样本相互独立
  • 正态性:两组数据应来自正态分布总体(大样本时可放宽)
  • 样本量:每组样本量应大于30,或总体标准差已知
  • 大样本:适用于大样本情形,满足中心极限定理

数据输入

  • 样本量:分别输入样本1和样本2的样本量(n1、n2)
  • 均值:分别输入样本1和样本2的样本均值
  • 标准差:分别输入样本1和样本2的样本标准差

操作步骤

步骤1:输入数据

  • 在样本1和样本2对应的文本框中输入样本量、均值和标准差

步骤2:执行计算

  • 点击"计算"按钮
  • 系统自动计算Z值、P值和置信区间

步骤3:查看结果

  • 查看描述性统计量表:显示两组样本的基础统计信息
  • 查看独立样本Z检验结果表:显示Z值、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:两组均值差异有统计学意义
  • P<0.01:两组均值差异有高度统计学意义
  • P≥0.05:两组均值差异无统计学意义

置信区间解读

  • 置信区间完全在正侧:样本1均值显著高于样本2
  • 置信区间完全在负侧:样本1均值显著低于样本2
  • 置信区间包含0:两组均值差异无统计学意义

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

样本量要求

  • 每组样本量应大于30,以满足中心极限定理
  • 如果样本量较小且总体标准差未知,应使用t检验

正态性要求

  • 大样本时可放宽正态性要求
  • 小样本时应先进行正态性检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 比较两组大样本的均值差异
  • 比较实验组和对照组的指标差异
  • 比较男女性别在某指标上的差异
  • 比较两个独立群体的均值差异

相关功能

  • 独立样本t检验:用于小样本或总体标准差未知的情形
  • 独立样本Z检验(原始资料):使用原始数据进行Z检验
  • 配对样本Z检验:用于配对设计的Z检验
  • 单样本Z检验:用于单样本与总体均值的比较
  • 方差齐性检验:检验两组方差是否相等

独立样本Z检验(原始数据)

独立样本Z检验用于比较两个独立组的总体均值是否存在显著差异。

方法说明

  • 适用于比较两个独立组的总体均值是否存在显著差异
  • 要求总体标准差已知,或样本量足够大(通常每组n>30),以满足中心极限定理
  • 假设两组数据相互独立,且来自正态分布总体(大样本时可放宽正态性要求)
  • 检验统计量Z服从标准正态分布

应用条件

  • 独立性:两组样本相互独立
  • 正态性:两组数据应来自正态分布总体(大样本时可放宽)
  • 样本量:每组样本量应大于30,或总体标准差已知
  • 大样本:适用于大样本情形,满足中心极限定理

数据输入

  • 选择两个计算列:第一列为第一组数据,第二列为第二组数据
  • 第一行可输入变量名称(如"对照组"、"实验组")
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入两组样本的原始数据

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算"按钮
  • 系统自动计算Z值、P值和置信区间

步骤4:查看结果

  • 查看描述性统计表:显示两组样本的基础统计信息
  • 查看Z检验结果表:显示Z值、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:两组均值差异有统计学意义
  • P<0.01:两组均值差异有高度统计学意义
  • P≥0.05:两组均值差异无统计学意义

置信区间解读

  • 置信区间完全在正侧:样本1均值显著高于样本2
  • 置信区间完全在负侧:样本1均值显著低于样本2
  • 置信区间包含0:两组均值差异无统计学意义

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

样本量要求

  • 每组样本量应大于30,以满足中心极限定理
  • 如果样本量较小且总体标准差未知,应使用t检验

正态性要求

  • 大样本时可放宽正态性要求
  • 小样本时应先进行正态性检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 比较两组大样本的均值差异
  • 比较实验组和对照组的指标差异
  • 比较男女性别在某指标上的差异
  • 比较两个独立群体的均值差异

相关功能

  • 独立样本t检验:用于小样本或总体标准差未知的情形
  • 独立样本Z检验(汇总数据):使用汇总统计量进行Z检验
  • 配对样本Z检验:用于配对设计的Z检验
  • 单样本Z检验:用于单样本与总体均值的比较
  • 方差齐性检验:检验两组方差是否相等

配对样本Z检验

配对样本Z检验用于分析同一受试对象在两种处理或条件下的测量值差异是否显著。

方法说明

  • 适用于分析同一受试对象在两种处理或条件下的测量值差异是否显著
  • 要求差异的总体标准差已知,或配对样本量较大(通常n>30)
  • 假设差异来自正态分布总体(大样本时可放宽此假设)
  • 检验统计量Z服从标准正态分布

应用条件

  • 配对设计:数据必须来自配对设计,如同一受试对象前后测量、配对样本等
  • 正态性:配对差异应服从正态分布(大样本时可放宽)
  • 样本量:配对样本量应大于30,或差异的总体标准差已知
  • 大样本:适用于大样本情形,满足中心极限定理

数据输入

  • 选择两个计算列:第一列为配对前的数据,第二列为配对后的数据
  • 第一行可输入变量名称(如"服药前收缩压"、"服药后收缩压")
  • 从第二行开始输入配对数据,每行代表一对观测值
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入配对的两组数据
  • 确保数据一一对应,每行代表一个配对

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算配对样本Z检验"按钮
  • 系统自动计算Z值、P值和置信区间

步骤4:查看结果

  • 查看描述性统计表:显示两组样本及配对差异的基础统计信息
  • 查看Z检验结果表:显示Z值、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:配对均值差异有统计学意义
  • P<0.01:配对均值差异有高度统计学意义
  • P≥0.05:配对均值差异无统计学意义

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间完全在正侧:配对前显著大于配对后
  • 置信区间完全在负侧:配对前显著小于配对后
  • 该区间表示配对测量真实差异的可能范围

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

配对设计要求

  • 数据必须来自配对设计,不能是独立样本
  • 每对数据必须一一对应,不能错位

样本量要求

  • 每组样本量应大于30,以满足中心极限定理
  • 如果样本量较小且总体标准差未知,应使用配对样本t检验

正态性要求

  • 大样本时可放宽正态性要求
  • 小样本时应先进行正态性检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 治疗前后效果比较(大样本)
  • 同一受试对象不同时间点的测量比较
  • 配对设计的实验研究
  • 同一对象两种方法或条件的比较

相关功能

  • 配对样本t检验:用于小样本或总体标准差未知的配对设计
  • 独立样本Z检验:用于两组独立样本的比较
  • 单样本Z检验:用于单样本与总体均值的比较
  • 正态分布检验:检验数据是否符合正态分布

单样本Z检验(汇总数据)

单样本Z检验用于检验单个样本的总体均值是否与已知的理论值或历史值存在显著差异。

方法说明

  • 适用于检验单个样本的总体均值是否与已知的理论值或历史值存在显著差异
  • 要求总体标准差已知,或样本量较大(通常n>30)
  • 假设样本来自正态分布总体(大样本时可放宽此假设)
  • 检验统计量Z服从标准正态分布

应用条件

  • 正态性:样本数据应来自正态分布总体(大样本时可放宽)
  • 独立性:各观测值相互独立
  • 样本量:样本量应大于30,或总体标准差已知
  • 大样本:适用于大样本情形,满足中心极限定理

数据输入

  • 总体均值:输入已知的总体均值或理论值
  • 总体标准差:输入已知的总体标准差
  • 样本量:输入样本的观测值个数n
  • 样本均数:输入样本的平均值

操作步骤

步骤1:输入参数

  • 在"总体均值"文本框中输入已知的总体均值
  • 在"总体标准差"文本框中输入已知的总体标准差
  • 在"样本量"文本框中输入样本量
  • 在"样本均数"文本框中输入样本均值

步骤2:执行计算

  • 点击"计算"按钮
  • 系统自动计算Z值、P值和置信区间

步骤3:查看结果

  • 查看描述性统计量表:显示样本的基础统计信息
  • 查看单样本Z检验结果表:显示Z值、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:样本均值与总体均值差异有统计学意义
  • P<0.01:样本均值与总体均值差异有高度统计学意义
  • P≥0.05:样本均值与总体均值差异无统计学意义

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间包含0:差异无统计学意义
  • 该区间表示样本与总体真实差异的可能范围

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

样本量要求

  • 样本量应大于30,以满足中心极限定理
  • 如果样本量较小且总体标准差未知,应使用t检验

正态性要求

  • 大样本时可放宽正态性要求
  • 小样本时应先进行正态性检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体均值是否与标准值或理论值存在差异
  • 验证实验结果是否符合预期标准
  • 比较样本均值与历史数据或参考值的差异
  • 质量控制中检验产品指标是否符合规格要求

相关功能

  • 单样本t检验:用于小样本或总体标准差未知的情形
  • 独立样本Z检验:用于两组独立样本的比较
  • 配对样本Z检验:用于配对设计的Z检验
  • 正态分布检验:检验数据是否符合正态分布

单样本Z检验(原始数据)

单样本Z检验用于检验单个样本的总体均值是否与已知的理论值存在显著差异。

方法说明

  • 适用于检验单个样本的总体均值是否与已知的理论值存在显著差异
  • 要求总体标准差已知,或样本量较大(通常n>30)
  • 假设样本来自正态分布总体(大样本时可放宽此假设)
  • 检验统计量Z服从标准正态分布

应用条件

  • 正态性:样本数据应来自正态分布总体(大样本时可放宽)
  • 独立性:各观测值相互独立
  • 样本量:样本量应大于30,或总体标准差已知
  • 大样本:适用于大样本情形,满足中心极限定理

数据输入

  • 总体均值:输入已知的总体均值或理论值
  • 总体标准差:输入已知的总体标准差
  • 选择计算列:选择包含样本数据的列
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入参数

  • 在"总体均值"文本框中输入已知的总体均值
  • 在"总体标准差"文本框中输入已知的总体标准差

步骤2:输入数据

  • 在数据区的C1列输入样本数据
  • 第一行可输入变量名称

步骤3:选择计算列

  • 勾选C1列

步骤4:执行计算

  • 点击"计算单样本Z检验"按钮
  • 系统自动计算Z值、P值和置信区间

步骤5:查看结果

  • 查看描述性统计表:显示样本的基础统计信息
  • 查看Z检验结果表:显示Z值、P值和显著性
  • 查看均值差异的置信区间

结果解释

显著性结论分析

  • P<0.05:样本均值与总体均值差异有统计学意义
  • P<0.01:样本均值与总体均值差异有高度统计学意义
  • P≥0.05:样本均值与总体均值差异无统计学意义

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间包含0:差异无统计学意义
  • 该区间表示样本与总体真实差异的可能范围

效应量实际意义

  • Cohen's d<0.2:效应量极小
  • 0.2≤Cohen's d<0.5:效应量小
  • 0.5≤Cohen's d<0.8:效应量中等
  • Cohen's d≥0.8:效应量大

注意事项

样本量要求

  • 样本量应大于30,以满足中心极限定理
  • 如果样本量较小且总体标准差未知,应使用t检验

正态性要求

  • 大样本时可放宽正态性要求
  • 小样本时应先进行正态性检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体均值是否与标准值或理论值存在差异
  • 验证实验结果是否符合预期标准
  • 比较样本均值与历史数据或参考值的差异
  • 质量控制中检验产品指标是否符合规格要求

相关功能

  • 单样本t检验:用于小样本或总体标准差未知的情形
  • 独立样本Z检验:用于两组独立样本的比较
  • 配对样本Z检验:用于配对设计的Z检验
  • 正态分布检验:检验数据是否符合正态分布

Z检验P值

Z检验P值计算功能用于根据已知的Z值,直接计算对应的P值。该功能适用于已知Z检验结果,需要查询精确P值的情况。

参数说明

Z值

  • Z检验计算得到的Z统计量
  • Z值可正可负,绝对值越大表示差异越显著
  • Z值服从标准正态分布N(0,1)

P值

  • 在零假设成立的情况下,获得当前或更极端Z值的概率
  • P<0.05:差异有统计学意义
  • P≥0.05:差异无统计学意义

操作步骤

步骤1:输入Z值

  • 在"Z值"文本框中输入Z检验计算得到的Z值

步骤2:计算P值

  • 点击"计算"按钮或直接按回车键
  • 系统自动计算并显示对应的P值

步骤3:结果解读

  • 根据P值判断统计学显著性
  • 结合研究背景和专业知识进行综合判断

应用场景

  • 手工计算Z值后查询P值
  • 验证其他软件计算结果的准确性
  • 查阅文献中的Z检验结果
  • 教学演示和学习标准正态分布

注意事项

输入要求

  • Z值可以是正数或负数
  • 输入值应符合Z检验的基本要求

计算精度

  • 可通过设置菜单调整P值的小数位数
  • 默认显示3位小数
  • 极小的P值可能显示为0.000

结果解释

  • P值仅反映统计学显著性,不代表实际意义大小
  • 应结合效应量、置信区间等指标综合判断
  • P值受样本量影响,大样本时容易得到显著结果

常用临界值

  • Z=1.96 对应 P=0.05(双侧)
  • Z=2.58 对应 P=0.01(双侧)
  • Z=1.645 对应 P=0.05(单侧)
  • Z=2.33 对应 P=0.01(单侧)

相关功能

  • 独立样本Z检验:用于两组独立样本的比较
  • 配对样本Z检验:用于配对设计的Z检验
  • 单样本Z检验:用于单样本与总体均值的比较
  • 查临界值表:通过查表法确定P值范围

示例说明

  • 示例:Z值=1.96
  • 计算结果:P=0.0500(双侧)
  • 结论:P=0.05,处于显著性边界

独立比例检验(汇总数据)

独立样本比例检验用于比较两个独立组在二分类结局(如成功/失败)上的比例差异。

方法说明

  • 适用于比较两个独立组在二分类结局(如成功/失败)上的比例差异
  • 基于大样本正态近似,要求每组的期望成功数和失败数均不小于5(即np≥5且n(1-p)≥5)
  • 检验统计量Z服从标准正态分布,用于判断两组比例是否来自同一总体

应用条件

  • 独立性:两组样本相互独立
  • 二分类结局:结局变量为二分类(如成功/失败、阳性/阴性)
  • 大样本:每组样本量应足够大,满足np≥5且n(1-p)≥5
  • 正态近似:基于大样本正态近似理论

数据输入

  • 样本量:分别输入样本1和样本2的样本量(n1、n2)
  • 成功数:分别输入样本1和样本2的成功数(或阳性数、事件发生数)
  • 系统自动计算各组比例和比例差异

操作步骤

步骤1:输入数据

  • 在样本1和样本2对应的文本框中输入样本量和成功数

步骤2:执行计算

  • 点击"计算"按钮
  • 系统自动计算Z值、P值和置信区间

步骤3:查看结果

  • 查看比例描述性统计表:显示各组的样本量、成功数、比例和比例(%)
  • 查看独立样本比例检验结果表:显示Z值、P值、显著性、比例差异和95%置信区间

结果解释

显著性结论分析

  • P<0.05:两组比例差异有统计学意义
  • P<0.01:两组比例差异有高度统计学意义
  • P≥0.05:两组比例差异无统计学意义

置信区间解读

  • 置信区间完全在负侧:样本2比例显著高于样本1
  • 置信区间完全在正侧:样本1比例显著高于样本2
  • 置信区间包含0:两组比例差异无统计学意义

比例差异实际意义

  • 比例差异<10%:差异较小
  • 10%≤比例差异<20%:差异中等
  • 比例差异≥20%:差异较大

注意事项

样本量要求

  • 每组的期望成功数和失败数均应不小于5
  • 如果样本量较小或比例接近0/1,正态近似可能不准确
  • 小样本时建议使用Fisher精确检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合比例差异和实际背景综合判断
  • 统计显著不等于实际意义显著

设计类型

  • 本检验仅适用于独立样本设计
  • 不适用于配对设计或重复测量数据
  • 配对设计应使用配对样本比例检验

应用场景

  • 比较两种治疗方法的有效率差异
  • 比较实验组和对照组的阳性率差异
  • 比较不同人群的患病率差异
  • 比较两个独立群体的二分类结局差异

相关功能

  • 独立样本比例检验(原始数据):使用原始数据进行比例检验
  • 配对样本比例检验:用于配对设计的比例比较
  • 单样本比例检验:用于单样本与总体比例的比较
  • 四格表卡方检验:用于二分类资料的卡方检验
  • Fisher精确检验:适用于小样本资料

独立样本比例检验(原始数据)

独立样本比例检验用于比较两个独立组在二分类结局(如成功/失败)上的比例差异。

方法说明

  • 适用于比较两个独立组在二分类结局(如成功/失败)上的比例差异
  • 基于大样本正态近似,要求每组的期望成功数和失败数均不小于5(即np≥5且n(1-p)≥5)
  • 检验统计量Z服从标准正态分布

应用条件

  • 独立性:两组样本相互独立
  • 二分类结局:结局变量为二分类(如成功/失败、阳性/阴性)
  • 大样本:每组的期望成功数和失败数均应不小于5
  • 正态近似:基于大样本正态近似理论

数据输入

  • 选择两个计算列:第一列为第一组数据,第二列为第二组数据
  • 数据格式:使用1表示成功(或阳性),0表示失败(或阴性)
  • 第一行可输入变量名称(如"A组"、"B组")
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入两组样本的原始数据
  • 使用1表示成功(或事件发生),0表示失败(或事件未发生)

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算独立样本比例检验"按钮
  • 系统自动计算Z值、P值和置信区间

步骤4:查看结果

  • 查看比例描述性统计表:显示各组的样本量、成功数、比例和比例(%)
  • 查看比例检验结果表:显示Z值、P值、显著性、比例差异和95%置信区间

结果解释

显著性结论分析

  • P<0.05:两组比例差异有统计学意义
  • P<0.01:两组比例差异有高度统计学意义
  • P≥0.05:两组比例差异无统计学意义

置信区间解读

  • 置信区间完全在负侧:第二组比例显著高于第一组
  • 置信区间完全在正侧:第一组比例显著高于第二组
  • 置信区间包含0:两组比例差异无统计学意义

比例差异实际意义

  • 比例差异<10%:差异较小
  • 10%≤比例差异<20%:差异中等
  • 比例差异≥20%:差异较大

注意事项

样本量要求

  • 每组的期望成功数和失败数均应不小于5
  • 如果样本量较小或比例接近0/1,正态近似可能不准确
  • 小样本时建议使用Fisher精确检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合比例差异和实际背景综合判断
  • 统计显著不等于实际意义显著

设计类型

  • 本检验仅适用于独立样本设计
  • 不适用于配对设计或重复测量数据
  • 配对设计应使用配对样本比例检验

应用场景

  • 比较两种治疗方法的有效率差异
  • 比较实验组和对照组的阳性率差异
  • 比较不同人群的患病率差异
  • 比较两个独立群体的二分类结局差异

相关功能

  • 独立样本比例检验(汇总数据):使用汇总统计量进行比例检验
  • 配对样本比例检验:用于配对设计的比例比较
  • 单样本比例检验:用于单样本与总体比例的比较
  • 四格表卡方检验:用于二分类资料的卡方检验
  • Fisher精确检验:适用于小样本资料

配对比例检验

配对样本比例检验(McNemar检验)用于分析同一受试对象在两种条件下二分类结果的变化是否显著(如诊断方法A vs B)。

方法说明

  • 关注不一致配对(b和c),忽略一致配对(a和d)
  • 小样本时推荐使用精确二项检验,大样本(b+c≥40)时可使用卡方近似

应用条件

  • 配对设计:数据必须来自配对设计,如同一受试对象前后测量、配对样本等
  • 二分类结局:结局变量为二分类(如成功/失败、阳性/阴性)
  • 独立性:各配对之间相互独立

数据输入

  • 选择两个计算列:第一列为干预前/方法1的数据,第二列为干预后/方法2的数据
  • 数据格式:使用1表示成功(或阳性),0表示失败(或阴性)
  • 第一行可输入变量名称(如"干预前"、"干预后")
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入配对的两组数据
  • 确保数据一一对应,每行代表一个配对

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算配对样本比例检验"按钮
  • 系统自动进行McNemar检验

步骤4:查看结果

  • 查看配对列联表:显示a、b、c、d四个单元格的频数
  • 查看McNemar检验结果表:显示卡方值、Z值、自由度和P值

结果解释

显著性结论分析

  • P<0.05:配对比例变化有统计学意义
  • P<0.01:配对比例变化有高度统计学意义
  • P≥0.05:配对比例变化无统计学意义

效应量实际意义分析

  • 不一致比例分析:关注b和c的比例变化
  • 实际意义:不一致配对变化显著

置信区间解读

  • McNemar检验不提供置信区间估计
  • 解读:关注不一致配对的变化方向和数量

前提条件问题诊断

  • 前提条件满足

总体结论与建议

  • 结论:发现统计显著差异
  • 差异具有统计学和实际意义

注意事项

配对设计要求

  • 数据必须来自配对设计,不能是独立样本
  • 每对数据必须一一对应,不能错位

样本量要求

  • 小样本(b+c<40)时推荐使用精确二项检验
  • 大样本(b+c≥40)时可使用卡方近似

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合不一致配对的数量和方向综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 治疗前后效果比较(二分类结局)
  • 两种诊断方法的一致性比较
  • 配对设计的实验研究
  • 同一对象两种方法或条件的比较

相关功能

  • 独立样本比例检验:用于两组独立样本的比例比较
  • 配对样本t检验:用于配对设计的连续变量比较
  • 配对资料卡方检验:用于配对设计的分类资料比较

单样本比例检验(汇总数据)

单样本比例检验用于检验单个样本的成功比例是否与已知的总体比例存在显著差异。

方法说明

  • 适用于检验单个样本的成功比例是否与已知的总体比例存在显著差异
  • 基于大样本正态近似,要求样本的期望成功数和失败数均不小于5(即np₀≥5且n(1-p₀)≥5)
  • 检验统计量Z服从标准正态分布,用于判断样本是否来自指定比例的总体

应用条件

  • 二分类结局:结局变量为二分类(如成功/失败、阳性/阴性)
  • 大样本:样本的期望成功数和失败数均应不小于5
  • 正态近似:基于大样本正态近似理论

数据输入

  • 总体比例:输入已知的总体比例(小数形式,如0.12)
  • 样本量:输入样本的观测值个数n
  • 成功数:输入样本中成功(或阳性、事件发生)的例数

操作步骤

步骤1:输入参数

  • 在"总体比例(小数)"文本框中输入已知的总体比例
  • 在"样本量"文本框中输入样本量
  • 在"成功数"文本框中输入成功数

步骤2:执行计算

  • 点击"计算"按钮
  • 系统自动计算Z值、P值和置信区间

步骤3:查看结果

  • 查看比例描述性统计表:显示样本量、成功数、样本比例和比例(%)
  • 查看单样本比例检验结果表:显示总体比例、样本比例、比例差异、Z值、P值和显著性
  • 查看比例差异的95%置信区间

结果解释

显著性结论分析

  • P<0.05:样本比例与总体比例差异有统计学意义
  • P<0.01:样本比例与总体比例差异有高度统计学意义
  • P≥0.05:样本比例与总体比例差异无统计学意义

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间包含0:差异无统计学意义
  • 该区间表示样本与总体真实比例差异的可能范围

效应量实际意义

  • 比例差异<5%:差异很小
  • 5%≤比例差异<10%:差异较小
  • 10%≤比例差异<20%:差异中等
  • 比例差异≥20%:差异较大

注意事项

样本量要求

  • 样本的期望成功数和失败数均应不小于5
  • 如果样本量较小或比例接近0/1,正态近似可能不准确
  • 小样本时建议使用二项分布精确检验

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合比例差异和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体的患病率是否与已知总体患病率存在差异
  • 验证实验结果的成功率是否符合预期标准
  • 比较样本阳性率与历史数据或参考值的差异
  • 质量控制中检验产品合格率是否符合规格要求

相关功能

  • 独立样本比例检验:用于两组独立样本的比例比较
  • 配对样本比例检验:用于配对设计的比例比较
  • 四格表卡方检验:用于二分类资料的卡方检验
  • Fisher精确检验:适用于小样本资料

单样本比例检验(原始数据)

单样本比例检验用于检验单个样本的成功比例是否与已知的总体比例存在显著差异。

方法说明

  • 适用于检验单个样本的成功比例是否与已知的总体比例存在显著差异
  • 基于大样本正态近似,要求样本的期望成功数和失败数均不小于5(即 np₀ ≥ 5 且 n(1-p₀) ≥ 5)
  • 检验统计量 Z 服从标准正态分布

应用条件

  • 二分类结局:结局变量为二分类(如成功/失败、阳性/阴性),使用1表示成功,0表示失败
  • 大样本:样本的期望成功数和失败数均应不小于5
  • 正态近似:基于大样本正态近似理论

数据输入

  • 总体比例:输入已知的总体比例(小数形式,如0.12)
  • 选择计算列:选择包含样本数据的列
  • 数据格式:使用1表示成功(或阳性、事件发生),0表示失败(或阴性、事件未发生)
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入总体比例

  • 在"总体比例(小数)"文本框中输入已知的总体比例

步骤2:输入数据

  • 在数据区的C1列输入样本数据
  • 使用1表示成功(或事件发生),0表示失败(或事件未发生)

步骤3:选择计算列

  • 勾选C1列

步骤4:执行计算

  • 点击"计算单样本比例检验"按钮
  • 系统自动计算Z值、P值和置信区间

步骤5:查看结果

  • 查看比例描述性统计表:显示总样本量、有效样本、成功数、比例和比例(%)
  • 查看比例检验结果表:显示Z值、P值、显著性、比例差异和比例差异的95% CI

结果解释

显著性结论分析

  • P<0.05:样本比例与总体比例差异有统计学意义
  • P<0.01:样本比例与总体比例差异有高度统计学意义
  • P≥0.05:样本比例与总体比例差异无统计学意义

置信区间解读

  • 置信区间不包含0:支持存在显著差异的结论
  • 置信区间包含0:差异无统计学意义
  • 该区间表示样本与总体真实比例差异的可能范围

效应量实际意义

  • 比例差异<5%:差异很小
  • 5%≤比例差异<10%:差异较小
  • 10%≤比例差异<20%:差异中等
  • 比例差异≥20%:差异较大

注意事项

样本量要求

  • 样本的期望成功数和失败数均应不小于5
  • 如果样本量较小或比例接近0/1,正态近似可能不准确
  • 小样本时建议使用二项分布精确检验

数据格式

  • 必须使用1和0表示成功和失败
  • 不能使用其他数值或文本

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合比例差异和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体的患病率是否与已知总体患病率存在差异
  • 验证实验结果的成功率是否符合预期标准
  • 比较样本阳性率与历史数据或参考值的差异
  • 质量控制中检验产品合格率是否符合规格要求

相关功能

  • 单样本比例检验(汇总数据):使用汇总统计量进行比例检验
  • 独立样本比例检验:用于两组独立样本的比例比较
  • 配对样本比例检验:用于配对设计的比例比较
  • 四格表卡方检验:用于二分类资料的卡方检验

配对样本秩和检验

配对样本秩和检验(Wilcoxon符号秩检验)用于分析同一组受试者在两种不同条件下的测量值差异是否显著。

方法说明

  • 同一组受试者在两种不同条件下的测量值比较
  • 配对设计的定量或等级资料
  • 数据不满足参数检验(如配对t检验)的前提条件
  • 特点:考虑差值的大小和方向,比符号检验更高效

应用条件

  • 配对设计:数据必须来自配对设计,如同一受试对象前后测量、配对样本等
  • 数据分布:不要求数据服从正态分布
  • 数据类型:适用于定量资料或等级资料
  • 独立性:各配对之间相互独立

数据输入

  • 选择两个计算列:第一列为配对前的数据,第二列为配对后的数据
  • 第一行可输入变量名称(如"白斑部位"、"正常部位")
  • 从第二行开始输入配对数据,每行代表一对观测值
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入配对的两组数据
  • 确保数据一一对应,每行代表一个配对

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算"按钮
  • 系统自动进行配对样本秩和检验

步骤4:查看结果

  • 查看描述性统计量表:显示两组样本的基础统计信息
  • 查看配对样本秩和检验结果表:显示正秩和、负秩和、检验统计量T、Z值和P值

结果解释

显著性结论分析

  • P<0.05:配对测量间存在显著差异
  • P<0.01:配对测量间存在高度显著差异
  • P≥0.05:配对测量间无显著差异

检验统计量解读

  • 正秩和(T+):差值为正的秩次之和
  • 负秩和(T-):差值为负的秩次之和
  • 检验统计量T:取T+和T-中较小者
  • Z值:大样本时的近似正态统计量

方法特性与局限性

  • 秩和检验为非参数方法,不依赖正态分布假设,适用于偏态分布、小样本或等级资料
  • 检验效能通常低于参数检验(如t检验),当数据满足参数条件时,优先考虑参数方法
  • 考虑差值的大小和方向,比符号检验更高效

注意事项

配对设计要求

  • 数据必须来自配对设计,不能是独立样本
  • 每对数据必须一一对应,不能错位

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合中位数差异和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 治疗前后效果比较(数据不符合正态分布)
  • 同一受试对象不同时间点的测量比较
  • 配对设计的实验研究
  • 同一对象两种方法或条件的比较
  • 等级资料的配对比较

相关功能

  • 配对样本t检验:用于配对设计且数据符合正态分布的比较
  • 独立样本秩和检验:用于两组独立样本的比较
  • 单样本秩和检验:用于单样本与总体中位数的比较
  • 正态分布检验:检验数据是否符合正态分布

单样本秩和检验

单样本秩和检验(Wilcoxon符号秩检验)用于单个样本与已知总体中位数的比较。

方法说明

  • 单个样本与已知总体中位数的比较
  • 数据不满足正态分布的单样本t检验前提条件
  • 定量或等级资料
  • 特点:对非正态分布数据敏感,比符号检验更有效

应用条件

  • 数据类型:定量资料或等级资料
  • 分布要求:不要求数据服从正态分布
  • 对称性:要求数据分布大致对称
  • 独立性:各观测值相互独立

数据输入

  • 选择计算列:选择包含样本数据的列
  • 检验值:输入已知的总体中位数
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入检验值

  • 在"检验值"文本框中输入已知的总体中位数

步骤2:输入数据

  • 在数据区的C1列输入样本数据
  • 第一行可输入变量名称

步骤3:选择计算列

  • 勾选C1列

步骤4:执行计算

  • 点击"计算"按钮
  • 系统自动进行单样本秩和检验

步骤5:查看结果

  • 查看描述性统计量表:显示样本的基础统计信息
  • 查看单样本秩和检验结果表:显示正秩和、负秩和、检验统计量T、Z值和P值

结果解释

显著性结论分析

  • P<0.05:样本中位数与总体中位数差异有统计学意义
  • P<0.01:样本中位数与总体中位数差异有高度统计学意义
  • P≥0.05:样本中位数与总体中位数差异无统计学意义

检验统计量解读

  • 正秩和(T+):差值为正的秩次之和
  • 负秩和(T-):差值为负的秩次之和
  • 检验统计量T:取T+和T-中较小者
  • Z值:大样本时的近似正态统计量

方法特性与局限性

  • 秩和检验为非参数方法,不依赖正态分布假设,适用于偏态分布、小样本或等级资料
  • 检验效能通常低于参数检验(如t检验),当数据满足参数条件时,优先考虑参数方法
  • 对非正态分布数据敏感,比符号检验更有效

注意事项

数据分布要求

  • 虽然不要求正态分布,但要求分布大致对称
  • 如分布严重偏斜,检验结果可能不可靠

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合中位数差异和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 检验某群体中位数是否与标准值或理论值存在差异
  • 数据不符合正态分布时的单样本检验
  • 等级资料的单样本检验
  • 小样本且分布未知的情况

相关功能

  • 单样本t检验:用于数据符合正态分布的单样本检验
  • 配对样本秩和检验:用于配对设计的非参数检验
  • 两独立样本秩和检验:用于两组独立样本的比较
  • 正态分布检验:检验数据是否符合正态分布

两独立样本秩和检验

两独立样本秩和检验(Mann-Whitney U检验)用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别。

方法说明

  • 两个独立组间的比较
  • 数据不满足正态分布或方差齐性的t检验前提条件
  • 定量或等级资料
  • 特点:检验两个独立样本是否来自同一总体,对分布形状不敏感

应用条件

  • 独立性:两组样本相互独立
  • 数据类型:定量资料或等级资料
  • 分布要求:不要求数据服从正态分布
  • 适用场景:数据不满足t检验前提条件时使用

数据输入

  • 选择两个计算列:第一列为第一组数据,第二列为第二组数据
  • 第一行可输入变量名称(如"无淋巴细胞转移"、"有淋巴细胞转移")
  • 从第二行开始输入样本数据
  • 两组样本量可以不相等
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2列分别输入两组样本的原始数据

步骤2:选择计算列

  • 勾选C1和C2列

步骤3:执行计算

  • 点击"计算"按钮
  • 系统自动进行两独立样本秩和检验

步骤4:查看结果

  • 查看描述性统计量表:显示两组样本的基础统计信息(样本量、最小值、最大值、中位数、平均值、标准差)
  • 查看检验统计量表:显示秩和、Wilcoxon T、U统计量、样本量等
  • 查看近似Z检验结果:显示Z值、P值和显著性

结果解释

显著性结论分析

  • P<0.05:组间差异具有统计学意义
  • P<0.01:组间差异具有高度统计学意义
  • P≥0.05:组间差异无统计学意义

检验统计量解读

  • 秩和:各组数据的秩次之和
  • Wilcoxon T:取两组秩和中较小者
  • U统计量:Mann-Whitney U检验统计量
  • Z值:大样本时的近似正态统计量

方法特性与局限性

  • 秩和检验为非参数方法,不依赖正态分布假设,适用于偏态分布、小样本或等级资料
  • 检验效能通常低于参数检验(如t检验),当数据满足参数条件时,优先考虑参数方法
  • 对分布形状不敏感,主要检验两总体分布位置是否有差别

注意事项

独立性要求

  • 数据必须来自独立样本,不能是配对设计
  • 两组样本之间应互不影响

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合中位数差异和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 比较两组患者的生存时间差异
  • 比较实验组和对照组的等级资料
  • 数据不符合正态分布时的两组比较
  • 小样本且分布未知的两组比较

相关功能

  • 配对样本秩和检验:用于配对设计的非参数检验
  • 单样本秩和检验:用于单样本与总体中位数的比较
  • 独立样本t检验:用于数据符合正态分布的两组比较
  • 等级资料秩和检验:用于等级资料的两独立样本比较

等级资料秩和检验

等级资料秩和检验用于有序分类变量(等级资料)的比较,适用于两组或多组独立样本的比较。

方法说明

  • 有序分类变量(等级资料)的比较
  • 两组或多组独立样本的比较
  • 数据以频数表形式呈现
  • 特点:自动处理等级顺序,不假设等级间等距

应用条件

  • 数据类型:有序分类变量(等级资料),如疗效(无效、好转、显效、痊愈)
  • 独立性:各组样本相互独立
  • 数据呈现:以频数表形式输入各组在各等级的例数
  • 等级顺序:软件自动处理等级顺序,无需假设等级间等距

数据输入

  • 选择计算列:选择包含各组数据的列,每列代表一个组
  • 等级名称列:可选择指定等级名称列,或选择"无"使用默认等级
  • 等级反转:可选择是否反转等级顺序(如从好到坏或从坏到好)
  • 数据格式:每行代表一个等级,每列代表一个组,单元格内输入该组在该等级的频数

操作步骤

步骤1:输入数据

  • 在数据区输入等级资料的频数表
  • 第一列可输入等级名称(如无效、好转、显效、痊愈)
  • 从第二列开始输入各组的频数数据

步骤2:选择计算列

  • 勾选包含各组数据的列
  • 可选择多个组同时进行比较

步骤3:设置等级选项

  • 选择等级名称列:如果第一列是等级名称,选择该列;否则选择"无"
  • 选择是否等级反转:根据研究需要决定是否反转等级顺序

步骤4:执行计算

  • 点击"计算等级资料秩和检验"按钮
  • 系统自动进行Kruskal-Wallis H检验

步骤5:查看结果

  • 查看检验结果表:显示各组秩和、H统计量、自由度和P值
  • 根据P值判断组间差异是否有统计学意义

结果解释

显著性结论分析

  • P<0.05:组间差异具有统计学意义
  • P<0.01:组间差异具有高度统计学意义
  • P≥0.05:组间差异无统计学意义

检验统计量解读

  • 秩和:各组数据的秩次之和,反映该组的整体水平
  • H统计量:Kruskal-Wallis检验的卡方统计量
  • 自由度:组数-1

方法特性与局限性

  • 秩和检验为非参数方法,不依赖正态分布假设,适用于偏态分布、小样本或等级资料
  • 检验效能通常低于参数检验(如ANOVA),当数据满足参数条件时,优先考虑参数方法
  • 自动处理等级顺序,不假设等级间等距,更符合等级资料的特点

注意事项

数据输入要求

  • 数据必须是频数形式,不能是原始数据
  • 各组在各等级的频数之和应等于该组总例数
  • 等级应按顺序排列(从低到高或从高到低)

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合各组秩和大小判断哪组效果更好
  • 统计显著不等于实际意义显著

等级反转

  • 如果等级是从好到坏(如痊愈、显效、好转、无效),建议勾选等级反转
  • 如果等级是从坏到好(如无效、好转、显效、痊愈),可不勾选等级反转
  • 等级反转不影响检验结果,只影响秩和的大小方向

应用场景

  • 比较不同治疗方案的疗效等级差异
  • 比较不同组别的病情严重程度等级
  • 比较不同群体的满意度等级差异
  • 比较不同条件下的评价等级差异

相关功能

  • 配对样本秩和检验:用于配对设计的等级资料比较
  • 单样本秩和检验:用于单样本与总体中位数的比较
  • 两独立样本秩和检验:用于两组独立样本的比较
  • Kruskal-Wallis H检验:用于多组独立样本的比较(原始数据)
  • Friedman M检验:用于随机区组设计的多组相关样本比较

Kruskal-Wallis H检验

Kruskal-Wallis H检验用于三个或更多独立组间的比较,是非参数版的单因素方差分析。

方法说明

  • 三个或更多独立组间的比较
  • 数据不满足正态分布或方差齐性的ANOVA前提条件
  • 定量或等级资料
  • 特点:非参数版的单因素方差分析,检验各组是否来自同一总体

应用条件

  • 独立性:各组样本相互独立
  • 数据类型:定量资料或等级资料
  • 分布要求:不要求数据服从正态分布
  • 适用场景:数据不满足参数检验前提条件时使用

数据输入

  • 选择多个计算列:每列代表一个组
  • 第一行可输入变量名称(如"甲药"、"乙药"、"丙药")
  • 从第二行开始输入样本数据
  • 各组样本量可以不相等
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2、C3等列分别输入各组样本的原始数据

步骤2:选择计算列

  • 勾选包含各组数据的列
  • 可以选择3组或多组同时进行比较

步骤3:执行计算

  • 点击"计算Kruskal-Wallis H检验"按钮
  • 系统自动进行Kruskal-Wallis H检验

步骤4:查看结果

  • 查看描述性统计量表:显示各组的基础统计信息
  • 查看Kruskal-Wallis H检验结果表:显示各组秩和、H统计量、自由度和P值
  • 根据P值判断组间差异是否有统计学意义

结果解释

显著性结论分析

  • P<0.05:组间差异具有统计学意义
  • P<0.01:组间差异具有高度统计学意义
  • P≥0.05:组间差异无统计学意义

检验统计量解读

  • 秩和:各组数据的秩次之和,反映该组的整体水平
  • H统计量:Kruskal-Wallis检验的卡方统计量
  • 自由度:组数-1

方法特性与局限性

  • 秩和检验为非参数方法,不依赖正态分布假设,适用于偏态分布、小样本或等级资料
  • 检验效能通常低于参数检验(如ANOVA),当数据满足参数条件时,优先考虑参数方法
  • 只能检验整体差异,不能确定具体哪些组之间存在差异

注意事项

独立性要求

  • 数据必须来自独立样本,不能是配对设计
  • 各组样本之间应互不影响

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合各组中位数和实际背景综合判断
  • 统计显著不等于实际意义显著

事后比较

  • 当整体检验显著时,可进行两两比较确定差异来源
  • 可使用Nemenyi检验等方法进行多重比较
  • 多重比较需校正检验水准,控制I类错误

应用场景

  • 比较三种或更多治疗方法的疗效差异
  • 比较多个实验组的指标差异
  • 数据不符合正态分布时的多组比较
  • 等级资料的多组比较

相关功能

  • 配对样本秩和检验:用于配对设计的非参数检验
  • 单样本秩和检验:用于单样本与总体中位数的比较
  • 两独立样本秩和检验:用于两组独立样本的比较
  • Friedman M检验:用于随机区组设计的多组相关样本比较
  • 完全随机设计方差分析:数据符合正态分布时的参数检验方法

Friedman M检验

Friedman M检验用于随机区组设计的三个或更多相关样本比较,是非参数版的重复测量方差分析。

方法说明

  • 随机区组设计的三个或更多相关样本比较
  • 每个区组内多个处理的比较
  • 数据不满足正态分布或方差齐性的重复测量ANOVA前提条件
  • 特点:非参数版的重复测量方差分析,考虑区组效应

应用条件

  • 随机区组设计:数据来自随机区组设计或重复测量设计
  • 相关样本:同一受试对象接受多个处理或不同时间点的测量
  • 数据类型:定量资料或等级资料
  • 分布要求:不要求数据服从正态分布

数据输入

  • 选择多个计算列:每列代表一个处理组或时间点
  • 每一行代表一个区组或受试对象
  • 第一行可输入变量名称(如"频率A"、"频率B"等)
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2、C3等列分别输入各处理组的数据
  • 确保每一行代表同一个区组或受试对象

步骤2:选择计算列

  • 勾选包含各处理组数据的列
  • 可以选择3组或多组同时进行比较

步骤3:执行计算

  • 点击"计算Friedman M检验"按钮
  • 系统自动进行Friedman M检验

步骤4:查看结果

  • 查看描述性统计量表:显示各组的基础统计信息
  • 查看Friedman M检验结果表:显示各组秩和、χ²统计量、自由度和P值

结果解释

显著性结论分析

  • P<0.05:组间差异具有统计学意义
  • P<0.01:组间差异具有高度统计学意义
  • P≥0.05:组间差异无统计学意义

检验统计量解读

  • 秩和:各组数据的秩次之和,反映该组的整体水平
  • χ²统计量:Friedman M检验的卡方统计量
  • 自由度:组数-1

方法特性与局限性

  • 秩和检验为非参数方法,不依赖正态分布假设,适用于偏态分布、小样本或等级资料
  • 检验效能通常低于参数检验(如重复测量ANOVA),当数据满足参数条件时,优先考虑参数方法
  • 只能检验整体差异,不能确定具体哪些组之间存在差异

注意事项

区组设计要求

  • 数据必须来自随机区组设计或重复测量设计
  • 同一区组内的数据必须一一对应
  • 区组间相互独立

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合各组中位数和实际背景综合判断
  • 统计显著不等于实际意义显著

事后比较

  • 当整体检验显著时,可进行两两比较确定差异来源
  • 可使用Nemenyi检验等方法进行多重比较
  • 多重比较需校正检验水准,控制I类错误

应用场景

  • 比较同一受试对象在不同时间点的指标变化
  • 比较同一区组内多个处理的效果差异
  • 数据不符合正态分布时的重复测量比较
  • 等级资料的随机区组设计比较

相关功能

  • 配对样本秩和检验:用于两组相关样本的比较
  • Kruskal-Wallis H检验:用于多组独立样本的比较
  • 重复测量设计方差分析:数据符合正态分布时的参数检验方法
  • 随机区组设计方差分析:数据符合正态分布时的参数检验方法

科克伦Q检验

Cochran Q检验是一种非参数统计方法,用于检验三个或更多相关样本的二分变量(是/否、成功/失败)是否存在显著差异。

方法说明

适用条件

  • 因变量是二分类变量(如0/1、是/否、成功/失败)
  • 样本是相关的(如重复测量、匹配样本、同一受试者在不同条件下的测试)
  • 样本量较大时(n > 4)检验效果更好

应用场景

  • 比较多种治疗方法的有效性(有效/无效)
  • 评估不同条件下同一群体的响应差异(是/否)
  • 分析重复测量实验中的二分结果变化

检验假设

  • H₀(零假设):所有处理条件下的成功率相同
  • H₁(备择假设):至少一个处理条件下的成功率与其他不同

数据输入

  • 选择多个计算列:每列代表一个处理条件或时间点
  • 数据格式:使用1表示成功(或阳性、是),0表示失败(或阴性、否)
  • 第一行可输入变量名称(如"止痛药A"、"止痛药B"等)
  • 从第二行开始输入样本数据,每行代表一个受试者
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

  • 在数据区的C1、C2、C3等列分别输入各处理条件的数据
  • 确保每一行代表同一个受试者在不同条件下的响应

步骤2:选择计算列

  • 勾选包含各处理条件数据的列(至少3列)

步骤3:执行计算

  • 点击"计算Cochran Q检验"按钮
  • 系统自动进行Cochran Q检验

步骤4:查看结果

  • 查看描述性统计表:显示各处理条件的1的个数、0的个数、1的比例(%)
  • 查看显著性检验表:显示样本量n、自由度、Cochran Q值、P值和显著性

结果解释

显著性结论分析

  • P<0.05:各处理条件之间的成功率差异具有统计学意义
  • P≥0.05:各处理条件之间的成功率差异无统计学意义

描述性统计分析

  • 比较各处理条件的1的比例(%),了解各条件的成功率
  • 比例差异较大的条件可能是差异的主要来源

事后比较

  • 当Cochran Q检验显著时,可进行两两比较以确定具体哪些组间存在差异
  • 可使用McNemar检验进行两两比较
  • 多重比较需进行Bonferroni校正,控制I类错误

注意事项

数据要求

  • 数据必须是二分类变量,只能输入0和1
  • 样本必须是相关的(配对或重复测量)
  • 至少需要3个处理条件或时间点

样本量要求

  • 样本量n应大于4,检验效果更好
  • 小样本时检验效能较低

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合各处理条件的成功率差异和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 比较三种或更多治疗方法的有效性(有效/无效)
  • 评估同一群体在不同时间点的响应变化(是/否)
  • 比较同一受试者在不同条件下的二分结果
  • 分析重复测量实验中的成功率差异

相关功能

  • 配对资料卡方检验(McNemar检验):用于两个相关样本的二分变量比较
  • Friedman M检验:用于三个或更多相关样本的等级资料比较
  • Kruskal-Wallis H检验:用于三个或更多独立样本的比较

游程检验(分类变量)

游程检验用于判断二分类序列的随机性。

方法说明

  • H₀:序列是随机的
  • H₁:序列非随机(存在聚集性或过度交替)
  • 小样本(n₁,n₂ ≤ 20):采用查表法
  • 大样本:采用Z近似法(双侧检验)
  • 游程数R显著偏低 → 聚集性
  • 游程数R显著偏高 → 过度交替

数据输入

  • 选择二分类变量列
  • 数据可以是字符型(如男/女、阴/阳)或数值型(如0/1)
  • 从第二行开始输入数据

操作步骤

步骤1:选择数据列

  • 勾选包含二分类数据的列

步骤2:执行计算

  • 点击"计算游程检验"按钮
  • 系统自动进行游程检验

步骤3:查看结果

  • 查看游程检验结果表
  • 查看n1、n2、游程个数R
  • 查看查表法P值(小样本)或近似Z检验P值(大样本)

结果解释

显著性结论分析

  • P<0.05:序列非随机,存在聚集性或过度交替
  • P≥0.05:序列是随机的

游程数R的解释

  • R显著偏低:数据存在聚集性(同类数据倾向于聚集在一起)
  • R显著偏高:数据存在过度交替(两类数据频繁交替出现)
  • R在合理范围内:序列随机

注意事项

数据要求

  • 数据必须是二分类变量
  • 可以是字符型或数值型
  • 数据应按时间或空间顺序排列

结果解读

  • 小样本(n1,n2≤20)使用查表法
  • 大样本使用Z近似法
  • 应结合实际背景解释序列的随机性

应用场景

  • 检验质量控制数据的随机性
  • 检验时间序列数据的随机性
  • 检验实验结果的随机性
  • 检验抽样过程的随机性

相关功能

  • 数值型变量游程检验:用于数值型数据的游程检验
  • 描述性统计量:查看数据的基础统计信息

游程检验(数值型变量)

游程检验用于判断数值型变量序列的随机性。

方法说明

  • H₀:序列是随机的
  • H₁:序列非随机(存在聚集性或过度交替)
  • 小样本(n₁,n₂ ≤ 20):采用查表法
  • 大样本:采用Z近似法(双侧检验)
  • 游程数R显著偏低 → 聚集性
  • R显著偏高 → 过度交替

数据输入

  • 选择数值型变量列
  • 从第二行开始输入数据
  • 系统自动将连续变量二值化(以平均数为界)

操作步骤

步骤1:选择数据列

  • 勾选包含数值型数据的列

步骤2:选择数值型变量二值化方法

游程检验需要将数值型数据转换为二分类数据(如高/低),软件提供三种划分方法:

  • 按平均数上下分类:以样本平均数为界,大于平均数记为一类,小于等于平均数记为另一类
    • 适用场景:数据分布较为对称,关注数据相对于平均水平的波动
  • 按中位数上下分类:以样本中位数为界,大于中位数记为一类,小于等于中位数记为另一类
    • 适用场景:数据存在偏态分布或极端值,中位数更稳健
  • 以此值为界上下分类:用户自定义一个界限值,大于该值记为一类,小于等于该值记为另一类
    • 适用场景:有理论依据或专业标准作为参考值(如正常值范围、诊断界值等)

步骤3:执行计算

  • 点击"计算游程检验"按钮
  • 系统自动进行游程检验

步骤4:查看结果

  • 查看游程检验结果表
  • 查看平均数、n1、n2、游程个数R
  • 查看查表法P值(小样本)或近似Z检验P值(大样本)

结果解释

显著性结论分析

  • P<0.05:序列非随机,存在聚集性或过度交替
  • P≥0.05:序列是随机的

游程数R的解释

  • R显著偏低:数据存在聚集性(同类数据倾向于聚集在一起)
  • R显著偏高:数据存在过度交替(两类数据频繁交替出现)
  • R在合理范围内:序列随机

注意事项

数据要求

  • 数据应为数值型变量
  • 数据应按时间或空间顺序排列
  • 系统自动以平均数为界将数据分为两类

结果解读

  • 小样本(n1,n2≤20)使用查表法
  • 大样本使用Z近似法
  • 应结合实际背景解释序列的随机性

应用场景

  • 检验时间序列数据的随机性
  • 检验质量控制数据的随机性
  • 检验实验结果的随机性
  • 检验抽样过程的随机性

相关功能

  • 二分类变量游程检验:用于二分类数据的游程检验
  • 描述性统计量:查看数据的基础统计信息

一致性检验

一致性检验用于评估不同评价者、不同测量方法或不同时间点对同一组对象评价结果的一致程度。

常用方法

  • Kappa系数:用于分类变量的一致性检验,包括Cohen's Kappa(两位评价者)和Fleiss' Kappa(多位评价者)
  • Kendall W系数:用于多个评价者对多个对象进行排序时的一致性检验
  • ICC组内相关系数:用于连续变量的一致性检验,评估测量结果的可靠性

方法选择指南

  • 二分类或多分类变量:使用Kappa系数
  • 有序分类变量(等级数据):使用加权Kappa或Kendall W系数
  • 连续变量:使用ICC组内相关系数
  • 多个评价者排序数据:使用Kendall W系数

结果解读

  • 一致性系数越接近1,表示一致性越好
  • 一致性系数接近0,表示一致性等同于随机水平
  • 负值表示一致性比随机还差

一致性检验(Cohen's Kappa系数)

Cohen's Kappa系数用于衡量两位评价者在对同一组对象进行分类时的一致性程度,并校正了随机一致的影响。

方法说明

适用场景

  • 两位评价者对同一组对象进行名义尺度(无序分类)的评价
  • 评价诊断方法的一致性
  • 评价不同观察者间的一致性

Kappa值范围

  • Kappa值范围:[-1, 1]
  • Kappa = 1:表示完全一致
  • Kappa = 0:表示一致性等同于随机水平
  • Kappa < 0:表示一致性比随机还差

解读标准

  • Kappa < 0.00:一致性极差
  • 0.00 – 0.20:一致性轻微
  • 0.21 – 0.40:一致性一般
  • 0.41 – 0.60:一致性中等
  • 0.61 – 0.80:一致性高度
  • 0.81 – 1.00:一致性几乎完美

Kappa类型

  • 简单Kappa:适用于无序分类变量
  • 加权Kappa(线性):适用于有序分类变量,线性加权
  • 加权Kappa(二次):适用于有序分类变量,二次加权

数据输入

  • 输入列联表数据:每行代表一个评价者的分类结果
  • 行和列代表相同的分类类别
  • 对角线单元格表示两个评价者结果一致
  • 非对角线单元格表示两个评价者结果不一致

操作步骤

步骤1:输入数据

  • 在数据区输入列联表数据
  • 行和列代表相同的分类类别

步骤2:选择Kappa类型

  • 简单Kappa:适用于无序分类
  • 加权Kappa(线性):适用于有序分类,线性加权
  • 加权Kappa(二次):适用于有序分类,二次加权

步骤3:执行计算

  • 点击"计算Kappa系数"按钮
  • 系统自动进行Kappa系数计算

步骤4:查看结果

  • 查看简单Kappa系数表:显示Kappa值、标准误、95% CI
  • 查看近似Z检验表:显示Z值、P值和显著性

结果解释

显著性检验

  • H₀:Kappa = 0(一致性等同于随机)
  • H₁:Kappa ≠ 0(一致性高于随机)
  • P<0.05:Kappa系数在统计上显著不为0
  • P≥0.05:Kappa系数与0无显著差异

一致性强度分析

  • 根据Kappa值判断一致性强度
  • Kappa值越高,一致性越强
  • 需结合专业背景判断一致性是否可接受

置信区间解读

  • 95%置信区间表示Kappa值的可能范围
  • 置信区间不包含0,表明一致性显著
  • 置信区间越窄,估计越精确

注意事项

数据要求

  • 数据必须是分类变量(名义或有序)
  • 两个评价者评价同一组对象
  • 分类类别在行和列上完全一致

加权Kappa选择

  • 无序分类:使用简单Kappa
  • 有序分类:使用加权Kappa
  • 线性加权:差异程度与距离成正比
  • 二次加权:强调较大差异

结果解读

  • Kappa系数校正了随机一致的影响
  • 解读标准仅供参考,需结合专业背景
  • 高Kappa值不一定表示临床可接受

应用场景

  • 评价两位医生诊断结果的一致性
  • 评价不同观察者间的一致性
  • 评价同一观察者不同时间的一致性
  • 评价不同检测方法的一致性

相关功能

  • 配对资料卡方检验(McNemar检验):用于配对设计的二分类资料
  • 多分类配对资料卡方检验(Bowker检验):用于多分类配对资料
  • ICC组内相关系数:用于连续变量的一致性检验

一致性检验(Kendall's W协调系数)

Kendall's W协调系数用于衡量多位评价者(≥2)对同一组对象进行排序或等级评定时的一致性程度。

方法说明

适用场景

  • 多位评价者对同一组对象进行有序尺度(如打分、排名)的评价
  • 评价多位评委对参赛选手的打分一致性
  • 评价多个观察者对同一组样本的等级评定

W值范围

  • W值范围:[0, 1]
  • W = 1:表示完全一致
  • W = 0:表示完全不一致

解读标准

  • W ≤ 0.40:一致性较差
  • 0.40 < W ≤ 0.60:一致性中等
  • 0.60 < W ≤ 0.80:一致性较高
  • W > 0.80:一致性极好

检验假设

  • H₀:W = 0(评价者间无一致性)
  • H₁:W ≠ 0(评价者间存在一致性)
  • 本分析通过卡方检验判断W是否显著不为0

数据输入

  • 列表示评价者,行表示样本
  • 每一列代表一位评价者的评分或排名
  • 每一行代表一个被评价的对象
  • 数据应为数值型(打分或排名)

操作步骤

步骤1:输入数据

  • 在数据区输入评价数据
  • 每列代表一位评价者
  • 每行代表一个样本

步骤2:选择计算列

  • 勾选所有评价者的数据列
  • 至少需要2位评价者

步骤3:执行计算

  • 点击"计算Kendall协调系数"按钮
  • 系统自动进行Kendall's W检验

步骤4:查看结果

  • 查看Kendall协调系数表:显示W值、卡方值、自由度、P值和显著性
  • 根据P值判断一致性是否显著
  • 根据W值判断一致性强度

结果解释

显著性检验

  • P<0.05:Kendall's W系数在统计上显著不为0
  • P≥0.05:Kendall's W系数与0无显著差异
  • 显著性表明评价者间存在一致性

一致性强度分析

  • 根据W值判断一致性强度
  • W值越高,一致性越强
  • 需结合专业背景判断一致性是否可接受

注意事项

数据要求

  • 数据应为有序尺度(如打分、排名)
  • 至少需要2位评价者
  • 至少需要2个样本
  • 所有评价者应评价相同的样本

结果解读

  • W值仅反映一致性程度,不代表评价质量
  • 高一致性不一定表示评价正确
  • 解读标准仅供参考,需结合专业背景

与其他方法的区别

  • Kappa系数:用于二分类或多分类的一致性检验
  • Kendall's W:用于有序尺度(打分、排名)的一致性检验
  • ICC:用于连续变量的一致性检验

应用场景

  • 评价多位评委对参赛选手的打分一致性
  • 评价多个观察者对同一组样本的等级评定
  • 评价多位专家对项目评审的一致性
  • 评价不同时间点的重复测量一致性

相关功能

  • Kappa系数:用于分类变量的一致性检验
  • ICC组内相关系数:用于连续变量的一致性检验
  • 配对资料卡方检验:用于配对设计的分类资料

一致性检验(组内相关系数 ICC)

组内相关系数(ICC)用于衡量多位评价者(≥2)对同一组对象进行连续性或有序尺度测量时的一致性或可重复性。

方法说明

适用场景

  • 多位评价者对同一组对象进行连续性测量(如血压、长度)或有序等级评定
  • 评价测量工具的信度和可重复性
  • 评价不同时间点测量的一致性

ICC值范围

  • ICC值范围:[0, 1]
  • 值越接近1,一致性或可重复性越好
  • ICC < 0.40:一致性差
  • 0.40 ≤ ICC < 0.75:一致性较好
  • ICC ≥ 0.75:一致性高

模型选择

  • 单向随机:评价者是从大群体中随机抽取的,关注绝对一致性
  • 双向混合/随机 一致性:评价者是固定的或随机的,关注一致性(忽略系统偏差)
  • 双向混合/随机 绝对一致性:考虑系统偏差,关注绝对一致性
  • 单向随机 绝对一致性:随机评价者,关注绝对一致性

ICC类型

  • ICC(1)/ICC(C,1)/ICC(A,1):用于单次测量的可靠性
  • ICC(K)/ICC(C,K)/ICC(A,K):用于多次测量平均值的可靠性(通常更高)
  • 本分析提供了所选模型下的ICC值及其95%置信区间

数据输入

  • 列表示评价者,行表示样本
  • 每一列代表一位评价者的评分或测量值
  • 每一行代表一个被评价的对象
  • 数据应为数值型(连续变量或等级评分)

操作步骤

步骤1:输入数据

  • 在数据区输入评价数据
  • 每列代表一位评价者
  • 每行代表一个样本

步骤2:选择计算列

  • 勾选所有评价者的数据列
  • 至少需要2位评价者

步骤3:选择ICC模型

  • 双向混合/随机 一致性:忽略系统偏差
  • 双向混合/随机 绝对一致性:考虑系统偏差
  • 单向随机 绝对一致性:随机评价者模型

步骤4:执行计算

  • 点击"计算ICC组内相关系数"按钮
  • 系统自动进行ICC计算

步骤5:查看结果

  • 查看ICC组内相关系数表:显示单个测量ICC和平均测量ICC及其95% CI
  • 根据ICC值判断一致性强度

结果解释

ICC值解读

  • ICC < 0.40:一致性差
  • 0.40 ≤ ICC < 0.75:一致性较好
  • ICC ≥ 0.75:一致性高

单个测量 vs 平均测量

  • 单个测量ICC:反映单次测量的可靠性
  • 平均测量ICC:反映多次测量平均值的可靠性(通常更高)

置信区间解读

  • 95%置信区间表示ICC值的可能范围
  • 置信区间越窄,估计越精确
  • 置信区间下限>0.75,表明一致性高

注意事项

数据要求

  • 数据应为连续变量或有序等级评分
  • 至少需要2位评价者
  • 至少需要2个样本
  • 所有评价者应评价相同的样本

模型选择建议

  • 如果评价者是随机样本,选择单向随机模型
  • 如果评价者是固定的特定人员,选择双向混合模型
  • 如果关注系统偏差,选择绝对一致性
  • 如果只关注相对一致性,选择一致性模型

结果解读

  • ICC值仅反映一致性程度,不代表测量准确性
  • 高ICC值不一定表示测量无偏
  • 需结合专业背景判断一致性是否可接受

应用场景

  • 评价多位医生测量血压的一致性
  • 评价不同仪器测量结果的一致性
  • 评价同一仪器多次测量的一致性(可重复性)
  • 评价不同时间点的重复测量一致性

相关功能

  • Kappa系数:用于分类变量的一致性检验
  • Kendall's W协调系数:用于有序尺度的一致性检验
  • 配对样本t检验:用于配对设计的连续变量比较

F检验

F检验用于两组独立样本的方差齐性检验。

方法说明

  • 适用于两组独立样本的方差齐性检验
  • 假设数据来自正态分布总体,对偏离正态性和离群值较为敏感
  • 检验统计量服从F分布

应用条件

  • 独立性:两组样本相互独立
  • 正态性:两组数据应来自正态分布总体
  • 连续性:数据应为连续变量
  • 对离群值敏感:存在极端值时结果可能不可靠

数据输入

  • 选择两个计算列:第一列为第一组数据,第二列为第二组数据
  • 第一行可输入变量名称(如"高蛋白组"、"低蛋白组")
  • 从第二行开始输入样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2列分别输入两组样本的原始数据

步骤2:选择计算列

勾选C1和C2列

步骤3:执行计算

点击"计算F检验"按钮,系统自动进行方差齐性检验

步骤4:查看结果

  • 查看描述性统计量表:显示两组的样本量、最小值、最大值、中位数、均值、方差、标准差
  • 查看F检验结果表:显示F值、自由度、P值和显著性
  • 查看统计图表:箱线图、小提琴图、Q-Q图等

结果解释

显著性结论分析

  • P≤0.01:两组方差差异有高度统计学意义(方差不齐)
  • 0.01<P≤0.05:两组方差差异有统计学意义(方差不齐)
  • P>0.05:两组方差差异无统计学意义(方差齐)

实际意义解读

  • 方差不齐可能影响参数检验的I类错误率,需谨慎选择后续分析方法
  • 若方差不齐,可考虑:
    • 使用Welch校正t检验(不假设方差齐)
    • 使用非参数检验(如Mann-Whitney U检验)
    • 数据转换改善方差齐性

方法特性与局限性

  • F检验对正态性假设敏感,若数据明显偏态或存在离群值,结果可能不可靠
  • "方差不齐"不等于"不能进行后续分析",可考虑使用对异方差稳健的统计方法

注意事项

正态性要求

  • F检验对正态性假设非常敏感
  • 建议先进行正态性检验(如Shapiro-Wilk检验)
  • 如数据不符合正态分布,可考虑使用Levene检验或Brown-Forsythe检验

离群值影响

  • F检验对离群值较为敏感
  • 存在极端值时应谨慎解释结果
  • 可考虑使用稳健的方差齐性检验方法

结果解读

  • 方差齐性是t检验和ANOVA的前提条件之一
  • 方差不齐时应选择适当的替代方法

应用场景

  • 比较两组数据的离散程度是否相同
  • 检验t检验或ANOVA的方差齐性前提
  • 比较不同处理方法的数据稳定性
  • 评估测量工具的精密度是否一致

相关功能

  • Levene检验:对偏离正态性较稳健的方差齐性检验
  • Brown-Forsythe检验:基于中位数的方差齐性检验
  • Bartlett检验:适用于多组方差齐性检验
  • 独立样本t检验:需先检验方差齐性
  • 正态分布检验:检验数据是否符合正态分布

Levene检验

Levene检验用于两组及以上独立样本的方差齐性检验。

方法说明

  • 适用于两组及以上独立样本的方差齐性检验
  • 对数据非正态性具有较好的稳健性,但对离群值仍较敏感
  • 通过检验各组绝对离差均值是否相等来判断方差齐性

应用条件

  • 独立性:各组样本相互独立
  • 连续性:数据应为连续变量
  • 组数:适用于两组或多组比较
  • 对非正态性稳健:适合偏离正态分布的数据

数据输入

  • 选择多个计算列:每列代表一个组
  • 第一行可输入组别名称(如"0.5U"、"1U"、"2U")
  • 从第二行开始输入各组样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各组样本的原始数据

步骤2:选择计算列

勾选所有需要比较的列

步骤3:执行计算

点击"计算Levene检验"按钮,系统自动进行方差齐性检验

步骤4:查看结果

  • 查看描述性统计量表:显示各组的样本量、最小值、最大值、中位数、均值、方差、标准差
  • 查看Levene检验结果表:显示F值、自由度、P值和显著性
  • 查看统计图表:箱线图、小提琴图、Q-Q图等

结果解释

显著性结论分析

  • P>0.10:未发现方差不齐的证据,可认为各组方差齐性
  • 0.05<P≤0.10:方差不齐的倾向,需谨慎解释
  • P≤0.05:各组方差存在显著差异(方差不齐)

实际意义解读

  • 方差齐性是许多参数检验(如t检验、ANOVA)的重要前提
  • 方差齐性结果支持使用参数检验方法
  • 方差不齐时应选择适当的替代方法

方法特性与局限性

  • Levene检验对非正态性稳健,但对极端离群值仍可能敏感
  • 基于均值的Levene检验适合对称分布数据
  • 如数据存在极端离群值,可考虑Brown-Forsythe检验(基于中位数)

注意事项

离群值影响

  • Levene检验对极端离群值仍较敏感
  • 存在极端值时应谨慎解释结果
  • 可通过箱线图识别离群值

结果解读

  • 方差齐性是t检验和ANOVA的前提条件之一
  • 方差不齐时应考虑:
    • 使用Welch校正ANOVA(不假设方差齐)
    • 使用非参数检验(如Kruskal-Wallis H检验)
    • 数据转换改善方差齐性

与其他检验的比较

  • F检验:仅适用于两组,对正态性敏感
  • Levene检验:适用于多组,对非正态性稳健
  • Brown-Forsythe检验:基于中位数,对离群值更稳健
  • Bartlett检验:适用于多组,但对正态性敏感

应用场景

  • 比较不同剂量组数据的离散程度是否相同
  • 检验ANOVA的方差齐性前提
  • 比较不同处理方法的数据稳定性
  • 评估测量工具的精密度是否一致

相关功能

  • Brown-Forsythe检验:基于中位数的方差齐性检验
  • Bartlett检验:适用于多组方差齐性检验
  • F检验:适用于两组方差齐性检验
  • 方差分析(ANOVA):需先检验方差齐性
  • 正态分布检验:检验数据是否符合正态分布

Brown-Forsythe检验

Brown-Forsythe检验用于两组及以上独立样本的方差齐性检验。

方法说明

  • Levene检验的稳健版本,使用中位数代替均值计算离差
  • 对数据非正态性和离群值均具有良好的稳健性,推荐作为默认方法
  • 检验统计量服从F分布

应用条件

  • 独立性:各组样本相互独立
  • 连续性:数据应为连续变量
  • 组数:适用于两组或多组比较
  • 对非正态性和离群值稳健:适合各种分布形态的数据

数据输入

  • 选择多个计算列:每列代表一个组
  • 第一行可输入组别名称(如"0.5U"、"1U"、"2U")
  • 从第二行开始输入各组样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各组样本的原始数据

步骤2:选择计算列

勾选所有需要比较的列

步骤3:执行计算

点击"计算Brown-Forsythe检验"按钮,系统自动进行方差齐性检验

步骤4:查看结果

  • 查看描述性统计量表:显示各组的样本量、最小值、最大值、中位数、均值、方差、标准差
  • 查看Brown-Forsythe检验结果表:显示F值、自由度、P值和显著性
  • 查看统计图表:箱线图、小提琴图、Q-Q图等

结果解释

显著性结论分析

  • P>0.10:未发现方差不齐的证据,可认为各组方差齐性
  • 0.05<P≤0.10:方差不齐的倾向,需谨慎解释
  • P≤0.05:各组方差存在显著差异(方差不齐)

实际意义解读

  • 方差齐性是许多参数检验(如t检验、ANOVA)的重要前提
  • 方差齐性结果支持使用参数检验方法
  • 方差不齐时应选择适当的替代方法

方法特性与优势

  • Brown-Forsythe检验对非正态性和离群值均较为稳健
  • 基于中位数的检验比基于均值的检验更稳健
  • 推荐作为方差齐性检验的默认方法

注意事项

稳健性优势

  • Brown-Forsythe检验对极端离群值不敏感
  • 适合各种分布形态的数据
  • 结果可靠性较高

结果解读

  • 方差齐性是t检验和ANOVA的前提条件之一
  • 方差不齐时应考虑:
    • 使用Welch校正ANOVA(不假设方差齐)
    • 使用非参数检验(如Kruskal-Wallis H检验)
    • 数据转换改善方差齐性

与其他检验的比较

  • F检验:仅适用于两组,对正态性敏感
  • Levene检验(基于均值):对非正态性稳健,但对离群值较敏感
  • Brown-Forsythe检验(基于中位数):对非正态性和离群值均稳健
  • Bartlett检验:适用于多组,但对正态性敏感

应用场景

  • 比较不同剂量组数据的离散程度是否相同
  • 检验ANOVA的方差齐性前提
  • 比较不同处理方法的数据稳定性
  • 评估测量工具的精密度是否一致
  • 数据存在离群值或非正态分布时的方差齐性检验

相关功能

  • Levene检验:基于均值的方差齐性检验
  • Bartlett检验:适用于多组方差齐性检验
  • F检验:适用于两组方差齐性检验
  • 方差分析(ANOVA):需先检验方差齐性
  • 正态分布检验:检验数据是否符合正态分布

Bartlett检验

Bartlett检验用于两组及以上独立样本的方差齐性检验。

方法说明

  • 适用于两组及以上独立样本的方差齐性检验
  • 对数据的正态性假设非常敏感,若数据非正态,易产生假阳性结果
  • 检验统计量近似服从卡方分布

应用条件

  • 独立性:各组样本相互独立
  • 正态性:各组数据应来自正态分布总体
  • 连续性:数据应为连续变量
  • 对正态性敏感:数据非正态时结果不可靠

数据输入

  • 选择多个计算列:每列代表一个组
  • 第一行可输入组别名称(如"0.5U"、"1U"、"2U")
  • 从第二行开始输入各组样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各组样本的原始数据

步骤2:选择计算列

勾选所有需要比较的列

步骤3:执行计算

点击"计算Bartlett检验"按钮,系统自动进行方差齐性检验

步骤4:查看结果

  • 查看描述性统计量表:显示各组的样本量、最小值、最大值、中位数、均值、方差、标准差
  • 查看Bartlett检验结果表:显示χ²值、自由度、P值和显著性
  • 查看统计图表:箱线图、小提琴图、Q-Q图等

结果解释

显著性结论分析

  • P>0.10:未发现方差不齐的证据,可认为各组方差齐性
  • 0.05<P≤0.10:方差不齐的倾向,需谨慎解释
  • P≤0.05:各组方差存在显著差异(方差不齐)

实际意义解读

  • 方差齐性是许多参数检验(如t检验、ANOVA)的重要前提
  • 方差齐性结果支持使用参数检验方法
  • 方差不齐时应选择适当的替代方法

方法特性与局限性

  • Bartlett检验对正态性假设非常敏感
  • 若数据明显偏态或存在离群值,结果可能不可靠,易产生假阳性
  • 数据符合正态分布时,Bartlett检验效能较高
  • 如数据不符合正态分布,建议使用Levene检验或Brown-Forsythe检验

注意事项

正态性要求

  • Bartlett检验对正态性假设非常敏感
  • 使用前必须先进行正态性检验(如Shapiro-Wilk检验)
  • 如数据不符合正态分布,不建议使用Bartlett检验
  • 推荐使用Levene检验或Brown-Forsythe检验作为替代

结果解读

  • 方差齐性是t检验和ANOVA的前提条件之一
  • 方差不齐时应考虑:
    • 使用Welch校正ANOVA(不假设方差齐)
    • 使用非参数检验(如Kruskal-Wallis H检验)
    • 数据转换改善方差齐性

与其他检验的比较

  • F检验:仅适用于两组,对正态性敏感
  • Levene检验:适用于多组,对非正态性稳健
  • Brown-Forsythe检验:基于中位数,对离群值更稳健
  • Bartlett检验:适用于多组,但对正态性非常敏感
  • 推荐:数据符合正态分布时使用Bartlett检验;否则使用Levene或Brown-Forsythe检验

应用场景

  • 比较不同剂量组数据的离散程度是否相同
  • 检验ANOVA的方差齐性前提(数据符合正态分布时)
  • 比较不同处理方法的数据稳定性
  • 评估测量工具的精密度是否一致

相关功能

  • Levene检验:对偏离正态性较稳健的方差齐性检验
  • Brown-Forsythe检验:基于中位数的方差齐性检验
  • F检验:适用于两组方差齐性检验
  • 方差分析(ANOVA):需先检验方差齐性
  • 正态分布检验:检验数据是否符合正态分布

Fligner-Killeen检验

Fligner-Killeen检验用于两组及以上独立样本的方差齐性检验。

方法说明

  • 一种非参数检验方法,适用于两组及以上独立样本
  • 对非正态分布和离群值高度稳健,是稳健性最强的方差齐性检验之一
  • 基于绝对离差的秩次进行检验,检验统计量近似服从卡方分布

应用条件

  • 独立性:各组样本相互独立
  • 连续性:数据应为连续变量
  • 组数:适用于两组或多组比较
  • 对非正态性和离群值高度稳健:适合各种分布形态的数据

数据输入

  • 选择多个计算列:每列代表一个组
  • 第一行可输入组别名称(如"0.5U"、"1U"、"2U")
  • 从第二行开始输入各组样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各组样本的原始数据

步骤2:选择计算列

勾选所有需要比较的列

步骤3:执行计算

点击"计算Fligner-Killeen检验"按钮,系统自动进行方差齐性检验

步骤4:查看结果

  • 查看描述性统计量表:显示各组的样本量、最小值、最大值、中位数、均值、方差、标准差
  • 查看Fligner-Killeen检验结果表:显示χ²值、自由度、P值和显著性
  • 查看统计图表:箱线图、小提琴图、Q-Q图等

结果解释

显著性结论分析

  • P>0.10:未发现方差不齐的证据,可认为各组方差齐性
  • 0.05<P≤0.10:方差不齐的倾向,需谨慎解释
  • P≤0.05:各组方差存在显著差异(方差不齐)

实际意义解读

  • 方差齐性是许多参数检验(如t检验、ANOVA)的重要前提
  • 方差齐性结果支持使用参数检验方法
  • 方差不齐时应选择适当的替代方法

方法特性与优势

  • Fligner-Killeen检验对非正态性和离群值均高度稳健
  • 基于秩次的非参数方法,不依赖正态分布假设
  • 是稳健性最强的方差齐性检验方法之一
  • 特别适合数据存在严重偏态或极端离群值的情况

注意事项

稳健性优势

  • Fligner-Killeen检验对极端离群值高度稳健
  • 适合各种分布形态的数据
  • 结果可靠性高,推荐作为首选方法

结果解读

  • 方差齐性是t检验和ANOVA的前提条件之一
  • 方差不齐时应考虑:
    • 使用Welch校正ANOVA(不假设方差齐)
    • 使用非参数检验(如Kruskal-Wallis H检验)
    • 数据转换改善方差齐性

与其他检验的比较

  • F检验:仅适用于两组,对正态性敏感
  • Levene检验(基于均值):对非正态性稳健,但对离群值较敏感
  • Brown-Forsythe检验(基于中位数):对非正态性和离群值均稳健
  • Bartlett检验:适用于多组,但对正态性非常敏感
  • Fligner-Killeen检验(基于秩次):对非正态性和离群值高度稳健,稳健性最强
  • 推荐:数据存在严重偏态或离群值时优先使用Fligner-Killeen检验

应用场景

  • 比较不同剂量组数据的离散程度是否相同
  • 检验ANOVA的方差齐性前提(数据存在偏态或离群值时)
  • 比较不同处理方法的数据稳定性
  • 评估测量工具的精密度是否一致
  • 数据存在严重偏态或极端离群值时的方差齐性检验

相关功能

  • Levene检验:基于均值的方差齐性检验
  • Brown-Forsythe检验:基于中位数的方差齐性检验
  • Bartlett检验:适用于多组方差齐性检验
  • F检验:适用于两组方差齐性检验
  • 方差分析(ANOVA):需先检验方差齐性
  • 正态分布检验:检验数据是否符合正态分布

完全随机设计方差分析

完全随机设计方差分析(One-Way ANOVA)用于比较三个或以上独立组的均值是否存在显著差异。

方法说明

术语解释

  • 因素(Factor):指研究的"分类变量",例如"药物类型"等
  • 水平(Level):指该因素的具体取值,例如"药物类型"这个因素有三个水平:A药、B药、安慰剂
  • 处理(Treatment):通常与"水平"同义,指对实验对象施加的不同条件

数据格式说明

本模块为单因素方差分析,每一列为一个"水平"。例如:第1列=A药组,第2列=B药组,第3列=安慰剂组等。

应用条件

  • 独立性:各组样本相互独立
  • 正态性:各组数据应来自正态分布总体
  • 方差齐性:各组总体方差相等
  • 连续性:数据应为连续变量

数据输入

  • 选择多个计算列:每列代表一个组(一个水平)
  • 第一行可输入组别名称(如"0.5U"、"1U"、"2U")
  • 从第二行开始输入各组样本数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各组样本的原始数据

步骤2:选择计算列

勾选所有需要比较的列(至少3组)

步骤3:选择事后比较方法

  • LSD-t检验:最小显著差异法,敏感性最高,但未控制多重比较误差
  • Bonferroni检验:保守方法,严格控制I类错误,适用于比较次数较少时
  • SNK-q检验:Student-Newman-Keuls法,适用于探索性研究
  • Dunnett-t检验:适用于多个实验组与一个对照组的比较
  • 设置Dunnett-t对照组:选择"最后一组"或指定其他组作为对照

步骤4:执行计算

点击"计算完全随机方差分析"按钮,系统自动进行方差分析和事后比较

步骤5:查看结果

  • 查看描述性统计量表:显示各组的样本量、最小值、最大值、均值、方差、标准差
  • 查看方差分析表:显示组间、组内、总计的平方和、自由度、均方、F值、P值和显著性
  • 查看事后比较结果:根据选择的方法显示各组间的两两比较结果
  • 查看统计图表:箱线图、均值比较图等

主要结果

描述性统计量

  • 样本量:各组的观测值个数
  • 最小值、最大值:各组数据的范围
  • 均值:各组的平均值
  • 方差、标准差:各组的离散程度

方差分析表

  • 组间:反映各组均值之间的变异
  • 组内:反映各组内部的变异
  • 总计:总变异
  • F值:组间均方/组内均方
  • P值:显著性水平

事后比较方法说明

LSD-t检验:

  • 最小显著差异法,敏感性最高
  • 未控制多重比较的I类错误率
  • 适用于方差分析显著后的探索性比较

Bonferroni检验:

  • 保守方法,严格控制I类错误
  • 校正显著性标准:α/比较次数
  • 适用于比较次数较少时
  • 可能增加II类错误(假阴性)

SNK-q检验:

  • Student-Newman-Keuls法
  • 基于q分布的多重比较
  • 适用于探索性研究
  • 控制I类错误的能力介于LSD和Bonferroni之间

Dunnett-t检验:

  • 专门用于多个实验组与一个对照组的比较
  • 比一般的两两比较方法更有效
  • 需要指定对照组(如"最后一组")
  • 适用于临床试验中的剂量反应研究

结果解释

显著性结论分析

  • P<0.05:各组总体均值存在显著差异
  • P≥0.05:各组总体均值无显著差异
  • F值越大,组间差异越明显

统计结论

  • 方差分析结果显示各组的总体均值在统计学上是否存在显著差异
  • 该结果表明至少有两组之间的均值不相等
  • 需进行事后比较确定具体哪些组间存在差异

事后比较解读

  • 查看哪些组间存在显著差异
  • 注意Bonferroni校正后的显著性标准(α/比较次数)
  • 结合均值差判断差异的方向和大小
  • Dunnett-t检验:关注各实验组与对照组的差异

注意事项

前提条件检验

  • 方差分析的前提假设(正态性与方差齐性)是结果可靠性的基础
  • 建议先进行正态性检验(如Shapiro-Wilk检验)
  • 建议先进行方差齐性检验(如Levene检验、Bartlett检验)
  • 如不满足前提条件,可考虑:
    • 数据转换(如对数转换、平方根转换)
    • 使用非参数检验(如Kruskal-Wallis H检验)
    • 使用Welch校正ANOVA(不假设方差齐)

事后比较方法选择

  • 确认性研究:推荐使用Bonferroni检验(严格控制I类错误)
  • 探索性研究:可使用LSD-t或SNK-q检验(提高检出力)
  • 有明确对照组:使用Dunnett-t检验(最有效)
  • 比较次数较多时:避免使用LSD-t,建议使用Bonferroni或其他校正方法

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量(如η²)和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 比较不同剂量药物的疗效差异
  • 比较不同治疗方法的效果
  • 比较不同群体的指标差异
  • 比较不同实验条件下的响应差异

相关功能

  • 方差齐性检验:检验各组方差是否相等
  • 正态分布检验:检验数据是否符合正态分布
  • Kruskal-Wallis H检验:非参数替代方法
  • 随机区组设计方差分析:考虑区组效应的方差分析
  • 重复测量设计方差分析:用于相关样本的方差分析

简易计算方差分析

简易计算方差分析适用于已知各组样本量、均值和标准差的情形,无需原始数据。

方法说明

本模块将每一列视为一个独立的处理组(即一个水平),因此虽然是单因素分析,但该因素的不同水平被组织为多列数据(如:A药组、B药组、安慰剂组)。

数据格式要求

输入数据必须为3行:

  • 第1行:样本量(整数)
  • 第2行:均值(实数)
  • 第3行:标准差(实数)

应用条件

  • 已知各组的样本量、均值和标准差
  • 各组样本相互独立
  • 数据应来自正态分布总体
  • 各组总体方差相等(方差齐性)

数据输入

  • 选择多个计算列:每列代表一个组(一个水平)
  • 第一行可输入组别名称(如"0.5U"、"1U"、"2U")
  • 第1行输入各组样本量(整数)
  • 第2行输入各组均值(实数)
  • 第3行输入各组标准差(实数)

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各组的汇总数据(第1行:样本量,第2行:均值,第3行:标准差)

步骤2:选择计算列

勾选所有需要比较的列(至少3组)

步骤3:选择事后比较方法

  • LSD-t检验:最小显著差异法,敏感性最高
  • Bonferroni检验:保守方法,严格控制I类错误
  • SNK-q检验:Student-Newman-Keuls法
  • Dunnett-t检验:多个实验组与一个对照组的比较

步骤4:执行计算

点击"方差分析简易计算"按钮,系统自动进行方差分析

步骤5:查看结果

  • 查看描述性统计量表:显示各组的样本量、均值、方差、标准差
  • 查看方差分析表:显示组间、组内、总计的平方和、自由度、均方、F值、P值和显著性
  • 查看事后比较结果:根据选择的方法显示各组间的两两比较结果
  • 查看统计图表:各组均值比较图

主要结果

描述性统计量

  • 样本量:各组的观测值个数
  • 均值:各组的平均值
  • 方差:各组的方差(由标准差计算得出)
  • 标准差:各组的标准差

方差分析表

  • 组间:反映各组均值之间的变异
  • 组内:反映各组内部的变异
  • 总计:总变异
  • F值:组间均方/组内均方
  • P值:显著性水平

事后比较

  • 当方差分析结果显著时,进行两两比较
  • Bonferroni校正:控制多重比较的I类错误
  • 显示各组间的均值差、标准误、t值、P值和校正显著性

结果解释

显著性结论分析

  • P<0.05:各组总体均值存在显著差异
  • P≥0.05:各组总体均值无显著差异
  • F值越大,组间差异越明显

统计结论

  • 方差分析结果显示各组的总体均值在统计学上是否存在显著差异
  • 该结果表明至少有两组之间的均值不相等
  • 需进行事后比较确定具体哪些组间存在差异

事后比较解读

  • 查看哪些组间存在显著差异
  • 注意Bonferroni校正后的显著性标准(α/比较次数)
  • 结合均值差判断差异的方向和大小

注意事项

前提条件限制

  • 本分析基于汇总数据,无法验证正态性和方差齐性等前提假设
  • 请谨慎解释结果
  • 建议在使用前确认数据满足方差分析的基本假设

数据要求

  • 输入数据必须严格按照3行格式:样本量、均值、标准差
  • 样本量必须为整数
  • 均值和标准差为实数
  • 标准差必须大于0

事后比较方法选择

  • 确认性研究:推荐使用Bonferroni检验(严格控制I类错误)
  • 探索性研究:可使用LSD-t或SNK-q检验(提高检出力)
  • 有明确对照组:使用Dunnett-t检验(最有效)

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 文献数据的再分析(仅有汇总统计量)
  • 快速比较不同组的均值差异
  • Meta分析中的组间比较
  • 原始数据缺失时的统计分析

相关功能

  • 完全随机设计方差分析:使用原始数据进行方差分析
  • 方差齐性检验:检验各组方差是否相等
  • 正态分布检验:检验数据是否符合正态分布
  • Kruskal-Wallis H检验:非参数替代方法

随机区组设计方差分析

随机区组设计虽然在形式上类似于两因素设计,但其统计分析和核心目的属于一种改进的单因素方差分析。用于控制可能干扰结果的混杂因素(如个体差异、测量时间等),从而更准确地评估处理因素的效应。

方法说明

术语解释

  • 处理:是真正想比较的干预措施(如三种药物、两种疗法),每一列代表一种处理
  • 区组:是为了控制变异而设置的配对单位,每一行代表一个区组。在医学研究中,常见的区组包括:
    • 同一名患者在不同时间接受多种处理(如交叉试验)
    • 配对的患者(如双胞胎、性别年龄匹配的病例)
    • 同一批样本在不同条件下的检测结果
  • 虽然模型包含"处理"和"区组"两个分类变量,但本方法仍属于单因素分析,因为研究目标只关注"处理"的差异,"区组"仅用于提高统计效率

数据格式

行 = 区组(如患者ID),列 = 处理(如药物A/B/C)。

应用条件

  • 独立性:不同区组之间相互独立
  • 正态性:各组数据应来自正态分布总体
  • 方差齐性:各处理组总体方差相等
  • 可加性:处理效应和区组效应是可加的(无交互作用)

数据输入

  • 选择多个计算列:每列代表一个处理组
  • 第一行可输入处理组名称(如"对照组"、"氯化镉组"、"Rgl+氯化镉组")
  • 每一行代表一个区组(如一个患者、一对匹配样本)
  • 从第二行开始输入各处理组的观测值
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区的C1、C2、C3等列分别输入各处理组的观测值,确保每一行代表同一个区组在不同处理下的观测值

步骤2:选择计算列

勾选所有需要比较的处理组列(至少3组)

步骤3:选择事后比较方法

  • LSD-t检验:最小显著差异法,敏感性最高
  • Bonferroni检验:保守方法,严格控制I类错误
  • SNK-q检验:Student-Newman-Keuls法
  • Dunnett-t检验:多个实验组与一个对照组的比较
  • 设置Dunnett-t对照组:选择"最后一组"或指定其他组作为对照

步骤4:执行计算

点击"计算随机区组方差分析"按钮,系统自动进行方差分析

步骤5:查看结果

  • 查看处理组描述性统计量:显示各处理组的样本量、最小值、最大值、均值、方差、标准差
  • 查看区组描述性统计量:显示各区组的样本量、均值、最小值、最大值
  • 查看方差分析表:显示区组、处理、误差、总计的平方和、自由度、均方、F值、P值和显著性
  • 查看事后比较结果:根据选择的方法显示各处理组间的两两比较结果
  • 查看统计图表:处理因素均值比较图、区组因素均值比较图

主要结果

描述性统计量

  • 处理组统计量:各处理组的基础统计信息
  • 区组统计量:各区组的基础统计信息

方差分析表

  • 区组:反映区组间的变异(控制混杂因素的效果)
  • 处理:反映各处理组均值之间的变异(主要研究效应)
  • 误差:反映随机误差
  • 总计:总变异
  • F值:均方/误差均方
  • P值:显著性水平

事后比较

  • 当处理效应显著时,进行两两比较
  • Bonferroni校正:控制多重比较的I类错误
  • 显示各处理组间的均值差、标准误、t值、P值和校正显著性

结果解释

处理效应分析

  • P<0.05:各处理组总体均值存在显著差异
  • P≥0.05:各处理组总体均值无显著差异
  • F值越大,处理效应越明显

区组效应分析

  • P<0.05:区组效应显著,说明区组设计有效控制了混杂因素
  • P≥0.05:区组效应不显著,区组设计可能未有效控制变异
  • 区组效应显著表明随机区组设计提高了统计效率

统计结论

  • 处理效应的分析结果表明,不同处理水平对因变量的影响在统计学上是否存在显著差异
  • 区组效应的分析结果表明,不同区组间的基线水平在统计学上是否存在显著差异
  • 随机区组设计通过控制区组变异,提高了对处理效应的检测效率

注意事项

前提条件检验

  • 方差分析的前提假设(正态性与方差齐性)是结果可靠性的基础
  • 建议先进行正态性检验(如Shapiro-Wilk检验)
  • 建议先进行方差齐性检验(如Levene检验)
  • 如不满足前提条件,可考虑:
    • 数据转换(如对数转换、平方根转换)
    • 使用非参数检验(如Friedman M检验)

可加性假设

  • 随机区组设计假定处理效应和区组效应是可加的(无交互作用)
  • 如存在交互作用,应考虑使用两因素方差分析

事后比较方法选择

  • 确认性研究:推荐使用Bonferroni检验(严格控制I类错误)
  • 探索性研究:可使用LSD-t或SNK-q检验(提高检出力)
  • 有明确对照组:使用Dunnett-t检验(最有效)

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著

应用场景

  • 交叉试验:同一患者接受多种处理
  • 配对设计:双胞胎、匹配病例的比较
  • 重复测量:同一样本在不同条件下的检测
  • 控制混杂因素:如年龄、性别、基线水平的匹配

相关功能

  • 完全随机设计方差分析:不考虑区组效应的单因素方差分析
  • 重复测量设计方差分析:用于相关样本的方差分析
  • Friedman M检验:随机区组设计的非参数替代方法
  • 方差齐性检验:检验各组方差是否相等
  • 正态分布检验:检验数据是否符合正态分布

重复测量方差分析

重复测量方差分析用于分析同一受试对象在多个时间点或条件下(如治疗前、中、后)的观测值是否存在显著变化。

方法说明

术语解释

  • 组内因素(如时间、剂量):每个受试者都经历的所有条件,是本分析的核心
  • 组间因素(可选,如分组:A药组 vs B药组):不同受试者所属的分组,用于比较组间差异或与时间的交互作用
  • 数据格式:每一行代表一个受试者,每一列代表一个时间点(或条件)的观测值
  • 该方法会检验:(1) 时间主效应;(2) 分组主效应(如有);(3) 时间×分组交互效应(如有)
  • 分析前需进行球形度假设检验,若不满足,将提供校正结果(如格林豪斯-盖斯勒)

应用条件

  • 正态性:各时间点的观测值应来自正态分布总体
  • 球形度:各时间点间差值的方差应相等(Mauchly球形度检验)
  • 独立性:不同受试者之间相互独立
  • 连续性:数据应为连续变量

数据输入

  • 准备数据:每一行代表一个受试者,每一列代表一个时间点或条件
  • 组内变量:选择代表不同时间点或条件的多个列(如治疗前、1天、3天、5天、7天)
  • 组间变量(可选):选择代表分组的列(如药物分类)
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,每一行代表一个受试者,每一列代表一个时间点的观测值。如有分组变量,在单独列中输入(如C1列输入药物分类)

步骤2:打开变量选择对话框

点击"选择分析变量"按钮,系统弹出"选择分析变量"对话框

步骤3:选择组内因素

  • 从左侧"全部变量"列表中选择代表各时间点的变量
  • 点击右向箭头按钮,将选中的变量移至右侧"选择组内因素"列表
  • 例如:选择"C2治疗前"、"C3 1天"、"C4 3天"、"C5 5天"、"C6 7天"
  • 至少需要选择2个时间点或条件
  • 按住Shift键点击箭头可全部添加或全部移除变量
  • 在右侧列表中可上下拖动变量进行排序

步骤4:选择组间因素(可选)

  • 如有分组变量,从左侧列表中选择
  • 点击右向箭头按钮,将变量移至"选择组间因素"框
  • 例如:选择"C1药物分类"
  • 如无需比较组间差异,可跳过此步骤

步骤5:选择事后比较方法

  • LSD-t检验:最小显著差异法
  • Bonferroni检验:保守方法,严格控制I类错误
  • SNK-q检验:Student-Newman-Keuls法
  • Dunnett-t检验:多个实验组与一个对照组的比较

步骤6:确认并执行计算

检查所选变量是否正确,点击"确定"按钮关闭变量选择对话框,点击"计算重复测量方差分析"按钮,系统自动进行球形度检验和方差分析

步骤7:查看结果

  • 查看时间点描述性统计量:显示各时间点的样本量、最小值、最大值、均值、方差、标准差
  • 查看分组描述性统计量(如有):显示各分组的样本量、均值、最小值、最大值
  • 查看球形度检验:显示Mauchly W、近似卡方、自由度、显著性及校正系数
  • 查看组内效应检验:显示时间主效应、时间×分组交互效应的平方和、自由度、均方、F值、P值
  • 查看组间效应检验:显示分组主效应的平方和、自由度、均方、F值、P值
  • 查看事后比较结果:根据选择的方法显示各时间点间的两两比较结果
  • 查看统计图表:不同组别在各时间点的均值变化图

主要结果

描述性统计量

  • 时间点统计量:各时间点的基础统计信息
  • 分组统计量:各分组的基础统计信息

球形度检验

  • Mauchly W:球形度检验统计量
  • 近似卡方:检验统计量
  • 自由度:自由度
  • 显著性:P值
  • 校正系数:格林豪斯-盖斯勒(Greenhouse-Geisser)、辛-费德特(Huynh-Feldt)、下限(Lower bound)

组内效应检验

  • 时间主效应:反映因变量随时间的变化
  • 时间×分组交互效应:反映不同分组随时间变化的趋势差异
  • 提供假设球形度、格林豪斯-盖斯勒、辛-费德特、下限四种结果

组间效应检验

  • 分组主效应:反映不同分组间的总体差异
  • 截距:总体均值

事后比较

  • 当时间主效应显著时,进行时间点间的两两比较
  • Bonferroni校正:控制多重比较的I类错误
  • 显示各时间点间的均值差、标准误、t值、P值和校正显著性

结果解释

球形度假设检验

  • P>0.05:满足球形度假设,使用"假设球形度"行的结果
  • P≤0.05:不满足球形度假设,使用校正结果(推荐使用格林豪斯-盖斯勒)

时间主效应

  • P<0.05:因变量随时间(或条件)发生了显著变化
  • P≥0.05:因变量随时间(或条件)无显著变化
  • F值越大,时间效应越明显

时间×分组交互效应

  • P<0.05:不同分组的因变量随时间变化的趋势存在显著差异
  • P≥0.05:不同分组的因变量随时间变化的趋势无显著差异
  • 交互效应显著时,应优先关注交互效应,而非主效应

分组主效应

  • P<0.05:不同分组间存在显著差异
  • P≥0.05:不同分组间无显著差异

综合结论

  • 由于存在显著的交互效应,对时间或分组主效应的单独解释可能不充分,应优先关注各组在不同时间点的变化模式
  • 结合均值变化图理解交互效应的具体模式

注意事项

前提条件检验

  • 球形度假设是重复测量方差分析的重要前提
  • 如不满足球形度,应使用校正结果(格林豪斯-盖斯勒或辛-费德特)
  • 建议先进行正态性检验(如Shapiro-Wilk检验)
  • 如不满足前提条件,可考虑:
    • 数据转换(如对数转换、平方根转换)
    • 使用非参数检验(如Friedman M检验)

变量选择技巧

  • 按住Shift键点击箭头可全部添加或全部移除变量
  • 在右侧列表中可上下拖动变量进行排序
  • 变量顺序影响时间点的排列顺序

事后比较方法选择

  • 确认性研究:推荐使用Bonferroni检验(严格控制I类错误)
  • 探索性研究:可使用LSD-t或SNK-q检验(提高检出力)
  • 有明确对照组:使用Dunnett-t检验(最有效)

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量和实际背景综合判断
  • 统计显著不等于实际意义显著
  • 交互效应显著时,应绘制均值变化图理解具体模式

应用场景

  • 治疗前后效果比较(多个时间点)
  • 不同剂量药物的效果比较
  • 纵向研究中的时间趋势分析
  • 同一受试者在不同条件下的反应比较
  • 比较不同治疗组随时间的变化趋势

相关功能

  • 随机区组设计方差分析:考虑区组效应的方差分析
  • Friedman M检验:重复测量设计的非参数替代方法
  • 配对样本t检验:仅两个时间点的比较
  • 正态分布检验:检验数据是否符合正态分布

多因素方差分析

多因素方差分析(Factorial ANOVA)用于同时考察两个或多个分类因素(如药物类型、性别、剂量)对连续型因变量的影响,并检验因素之间是否存在交互作用(即一个因素的效应是否依赖于另一个因素的水平)。

方法说明

术语解释

  • 主效应:每个因素独立对因变量的影响
  • 交互效应:两个或多个因素联合产生的额外效应。若交互效应显著,应优先解释交互,而非主效应
  • 数据格式:每行代表一个观测对象,列包括:1列因变量(连续型),多列自变量(分类变量,如"组别""性别"),软件自动识别为因子
  • 本分析使用III类平方和(Type III SS),适用于非平衡设计(各组样本量不等)

应用条件

  • 独立性:观测值相互独立
  • 正态性:各组残差应来自正态分布总体
  • 方差齐性:各组总体方差相等
  • 连续性:因变量应为连续变量
  • 分类变量:自变量应为分类变量(因子)

数据输入

  • 因变量列:选择连续型因变量(如"空腹血糖")
  • 因子列:选择分类自变量(如"性别"、"年龄组"、"BMI分类")
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有一列连续型因变量,确保有多列分类自变量(因子)

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择因变量(连续型)
  • 选择因子(分类变量)
  • 至少需要2个因子

步骤3:选择事后比较方法

  • LSD-t检验:最小显著差异法
  • Bonferroni检验:保守方法,严格控制I类错误
  • SNK-q检验:Student-Newman-Keuls法
  • Dunnett-t检验:多个实验组与一个对照组的比较

步骤4:执行计算

点击"计算多因素方差分析"按钮,系统自动进行多因素方差分析

步骤5:查看结果

  • 查看各因子的水平分布:显示各因子各水平的样本量、占比、均值、标准差
  • 查看各组合单元的统计描述:显示各因子组合的样本量、均值、标准差
  • 查看主体间效应检验结果:显示各主效应和交互效应的平方和、自由度、均方、F值、P值、显著性、偏η²
  • 查看事后比较结果:根据选择的方法显示各因子水平间的两两比较结果
  • 查看统计图表:主效应图、交互作用图

主要结果

各因子的水平分布

  • 显示每个因子各水平的样本量、占比(%)、均值、标准差、最小值、最大值
  • 用于了解各因子的分布情况

各组合单元的统计描述

  • 显示所有因子组合的样本量、均值、标准差、最小值、最大值
  • 用于了解各组合单元的数据分布

主体间效应检验

  • 主效应:每个因子独立对因变量的影响
  • 交互效应:因子之间的联合效应(如性别×年龄组、性别×BMI分类、年龄组×BMI分类、三阶交互)
  • III类平方和:适用于非平衡设计
  • F值:均方/误差均方
  • P值:显著性水平
  • 偏η²:效应量,表示效应解释的误差变异比例

事后比较

  • 当主效应显著时,进行各水平间的两两比较
  • Bonferroni校正:控制多重比较的I类错误
  • 显示各水平间的均值差、标准误、t值、P值和校正显著性

结果解释

模型整体显著性

  • 修正模型P<0.05:所纳入的因素组合对因变量有显著影响
  • 修正模型P≥0.05:因素组合对因变量无显著影响

效应解读

  • 检测到显著的交互效应,表明某些因素的效应会因其他因素的水平不同而变化
  • 此时应结合交互作用图,重点解读交互模式,避免单独解释主效应
  • 如交互效应不显著,可单独解释主效应

效应量说明

  • 表中"偏η²"表示效应解释的误差变异比例
  • 一般认为:0.01=小效应,0.06=中效应,0.14=大效应
  • 偏η²值越大,效应越强

交互效应解读

  • 二阶交互(如性别×年龄组):一个因素的效应依赖于另一个因素的水平
  • 三阶交互(如性别×年龄组×BMI分类):两个因素的交互效应依赖于第三个因素的水平
  • 交互效应显著时,应绘制交互作用图理解具体模式

注意事项

前提条件检验

  • 方差分析的前提假设(正态性与方差齐性)是结果可靠性的基础
  • 建议先进行正态性检验(如Shapiro-Wilk检验)
  • 建议先进行方差齐性检验(如Levene检验)
  • 如不满足前提条件,可考虑:
    • 数据转换(如对数转换、平方根转换)
    • 使用非参数方法
    • 使用稳健方差分析

交互效应优先

  • 当存在显著交互效应时,应优先解释交互效应
  • 避免单独解释主效应,因为主效应可能掩盖了交互模式
  • 应绘制交互作用图理解交互模式

事后比较方法选择

  • 确认性研究:推荐使用Bonferroni检验(严格控制I类错误)
  • 探索性研究:可使用LSD-t或SNK-q检验(提高检出力)
  • 有明确对照组:使用Dunnett-t检验(最有效)

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量(偏η²)和实际背景综合判断
  • 统计显著不等于实际意义显著

样本量要求

  • 各组合单元应有足够的样本量
  • 样本量过小可能导致检验效能不足
  • 非平衡设计(各组样本量不等)可以使用III类平方和

应用场景

  • 同时考察多个因素对因变量的影响
  • 检验因素之间是否存在交互作用
  • 比较不同组别在多个因素组合下的差异
  • 分析复杂实验设计的数据

相关功能

  • 完全随机设计方差分析:单因素方差分析
  • 随机区组设计方差分析:考虑区组效应的方差分析
  • 重复测量设计方差分析:用于相关样本的方差分析
  • 方差齐性检验:检验各组方差是否相等
  • 正态分布检验:检验数据是否符合正态分布

协方差分析

协方差分析(ANCOVA)是在方差分析基础上,引入一个或多个连续型协变量(如基线值、年龄、体重等),以控制其对因变量的影响,从而更精确地评估分类因子(如治疗分组)的效应。

方法说明

  • 核心思想:在比较组间均值前,先"调整"因变量,消除协变量带来的系统性差异
  • 本分析使用III类平方和(Type III SS),适用于非平衡设计(各组样本量不等)

术语解释

  • 因变量:连续型结果变量(如"HbA1c降低值")
  • 因子:分类自变量(如"治疗方案"、"性别")
  • 协变量:连续型自变量(如"年龄"、"基线值"),用于控制混杂影响
  • 调整均值:控制协变量后,各组的估计均值(修正均值)
  • 交互作用:因子与协变量的联合效应,若显著说明各组对协变量的反应不同

关键假设

  • 线性关系:因变量与协变量存在线性关系
  • 斜率相等:各组的回归斜率相等(即无显著的"因子×协变量交互作用")
  • 正态性:残差应来自正态分布总体
  • 方差齐性:各组残差方差相等
  • 独立性:观测值相互独立
  • 协变量测量无误差:协变量应精确测量

数据输入

  • 数据格式:每行代表一个观测对象
  • 因变量列:1列连续型因变量
  • 因子列:≥1列分类因子(如"组别")
  • 协变量列:≥1列连续型协变量(如"基线值")
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有连续型因变量、分类因子和连续型协变量

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择因变量(数值型)
  • 选择因子(分类变量)
  • 选择协变量(数值型)
  • 点击"确定"关闭变量选择对话框

步骤3:设置选项

  • 点击"选项"按钮
  • 是否中心化协变量:将协变量减去均值,减少多重共线性
  • 是否标准化协变量:将协变量转换为Z分数,便于比较效应大小
  • 是否计算因子与协变量的交互作用:检验斜率齐性假设
  • 点击"确定"关闭选项对话框

步骤4:选择事后比较方法

  • 点击"事后比较"按钮
  • LSD-t检验:最小显著差异法
  • Bonferroni检验:保守方法,严格控制I类错误
  • SNK-q检验:Student-Newman-Keuls法
  • Dunnett-t检验:多个实验组与一个对照组的比较
  • 设置Dunnett-t对照组:选择"最后一组"或指定其他组作为对照

步骤5:执行计算

点击"计算协方差分析"按钮,系统自动进行协方差分析

步骤6:查看结果

  • 查看模型设定:显示因变量、因子、协变量及选项设置
  • 查看协变量描述统计:显示各协变量的均值、标准差、最小值、最大值
  • 查看主体间效应检验结果:显示各主效应和交互效应的平方和、自由度、均方、F值、P值、显著性、偏η²
  • 查看调整均值:显示各因子水平的调整均值和样本量
  • 查看事后比较结果:根据选择的方法显示各因子水平间的两两比较结果
  • 查看统计图表:残差图、残差正态性检验、效应大小图

主要结果

模型设定

  • 因变量、因子、协变量列表
  • 中心化、标准化、包含交互选项

协变量描述统计

  • 显示各协变量的均值、标准差、最小值、最大值
  • 用于了解协变量的分布情况

主体间效应检验

  • 修正模型:整体模型的显著性
  • 截距:总体均值
  • 协变量效应:各协变量对因变量的独立影响
  • 因子主效应:控制协变量后,各因子的独立影响
  • 交互效应:因子×协变量、因子×因子等
  • 误差:残差变异
  • 总计、修正后总计
  • III类平方和:适用于非平衡设计
  • 偏η²:效应量,表示效应解释的误差变异比例

调整均值

  • 显示控制协变量后,各因子水平的估计均值
  • 用于比较组间差异(消除协变量影响)

事后比较

  • 当因子主效应显著时,进行各水平间的两两比较
  • Bonferroni校正:控制多重比较的I类错误
  • 显示各水平间的调整均值差、标准误、t值、P值和校正显著性

统计图表

  • 残差图:预测值 vs 残差,检验线性、无偏性和方差齐性
  • 残差正态性检验:理论分位数 vs 标准残差
  • 因子效应大小图:各因子的偏η²柱状图
  • 协变量效应大小图:各协变量的偏η²柱状图

结果解释

模型整体显著性

  • 修正模型P<0.05:所纳入的因子与协变量组合对因变量有显著影响
  • 修正模型P≥0.05:因素组合对因变量无显著影响

协变量效应

  • P<0.05:该协变量对因变量有显著影响
  • P≥0.05:该协变量对因变量无显著影响
  • 协变量显著说明控制该变量是必要的

分类因子效应

  • P<0.05:控制协变量后,该因子对因变量有显著影响
  • P≥0.05:控制协变量后,该因子对因变量无显著影响
  • 调整均值比原始均值更能反映真实效应

交互作用

  • 因子×协变量交互显著:说明各组对协变量的反应不同(斜率不等)
  • 若交互显著,主效应解释可能失真,应谨慎解释
  • 此时可考虑分层分析或使用其他模型

效应量说明

  • 表中"偏η²"表示该效应解释的误差变异比例
  • 一般认为:0.01=小效应,0.06=中效应,0.14=大效应
  • 偏η²值越大,效应越强

调整均值解读

  • 调整均值是控制协变量后的估计均值
  • 用于比较组间差异(消除协变量影响)
  • 调整均值差比原始均值差更准确

注意事项

前提条件检验

  • 线性关系:因变量与协变量应存在线性关系
  • 斜率齐性:各组回归斜率应相等(无显著交互作用)
  • 建议先检验因子×协变量交互作用
  • 正态性:残差应来自正态分布总体
  • 方差齐性:各组残差方差应相等
  • 如不满足前提条件,可考虑:
    • 数据转换(如对数转换、平方根转换)
    • 使用非参数方法
    • 使用稳健回归方法

协变量选择

  • 协变量应与因变量相关
  • 协变量不应受因子影响(应在干预前测量)
  • 避免纳入过多协变量导致模型过拟合

交互作用解释

  • 若因子×协变量交互显著,说明各组对协变量的反应不同
  • 此时主效应解释可能失真
  • 应绘制交互作用图理解具体模式
  • 可考虑分层分析或使用其他模型

事后比较方法选择

  • 确认性研究:推荐使用Bonferroni检验(严格控制I类错误)
  • 探索性研究:可使用LSD-t或SNK-q检验(提高检出力)
  • 有明确对照组:使用Dunnett-t检验(最有效)

结果解读

  • "无显著差异"不等同于"无差异",可能受限于样本量或效应大小
  • 应结合效应量(偏η²)和实际背景综合判断
  • 统计显著不等于实际意义显著
  • 协方差分析是观察性研究,不能直接推断因果关系

应用场景

  • 临床试验:控制基线差异,比较治疗效果
  • 观察性研究:控制混杂因素(如年龄、性别、BMI)
  • 准实验设计:非随机分组时的组间比较
  • 提高统计效能:通过控制协变量减少误差变异

相关功能

  • 完全随机设计方差分析:不考虑协变量的方差分析
  • 多因素方差分析:考虑多个因子的方差分析
  • 线性回归分析:连续型自变量的回归分析
  • 方差齐性检验:检验各组方差是否相等
  • 正态分布检验:检验数据是否符合正态分布

线性回归分析

线性回归分析用于探究一个或多个自变量(X)对连续型因变量(Y)的线性影响关系。

方法说明

术语解释

  • 因变量(Dependent Variable):研究中被预测或解释的指标,如血压、血糖、住院天数等
  • 自变量(Independent Variable):用于预测因变量的因素,如年龄、药物剂量、BMI等
  • 回归系数(β):表示自变量每变化1个单位,因变量平均变化的量
  • R²(决定系数):反映模型可解释的因变量变异比例
  • 残差:实际观测值与模型预测值之差,用于诊断模型假设
  • 本分析基于最小二乘法(OLS),并假设残差独立、正态分布且方差齐性

应用条件

  • 线性关系:自变量与因变量存在线性关系
  • 独立性:观测值相互独立
  • 正态性:残差应来自正态分布总体
  • 方差齐性:残差方差恒定
  • 无多重共线性:自变量之间不存在高度相关

数据输入

  • 因变量:选择1个连续型因变量
  • 自变量:选择1个或多个自变量(连续型或分类型)
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有连续型因变量和自变量

步骤2:选择分析变量

点击"选择分析变量"按钮,选择因变量(连续型)和自变量(一个或多个)

步骤3:设置选项

点击"选项"按钮,勾选"多重共线性检查"可计算VIF和容差,检查自变量间的多重共线性

步骤4:设置保存选项

点击"保存到表格"按钮,可选择保存预测值、残差、标准化残差到数据表

步骤5:执行计算

点击"计算线性回归"按钮,系统自动进行回归分析

步骤6:查看结果

  • 查看多重共线性检查结果(如勾选):显示VIF和容差
  • 查看描述性统计量:显示各变量的样本量、平均数、标准差、中位数、最小值、最大值
  • 查看模型摘要:显示R、R²、调整R²、估计标准误
  • 查看方差分析表:显示回归、残差、总计的平方和、自由度、均方、F值、P值
  • 查看回归系数表:显示非标准化系数、标准误、标准化系数、t值、P值、95%CI
  • 查看残差统计和统计图表:残差-预测值图、标准化残差Q-Q图

主要结果

多重共线性检查

  • VIF(方差膨胀因子):VIF>10表示存在严重多重共线性
  • 容差:容差<0.1表示存在严重多重共线性
  • VIF=1/容差

模型摘要

  • R:多重相关系数,反映自变量组合与因变量的相关程度
  • R²:决定系数,表示模型可解释的因变量变异比例(0-1)
  • 调整R²:考虑自变量数后的修正R²,更适合模型比较
  • 估计标准误:残差的标准差,反映预测精度

方差分析表

  • 回归:反映自变量组合对因变量的解释能力
  • 残差:反映模型未能解释的变异
  • 总计:因变量的总变异
  • F值:回归均方/残差均方,检验模型整体显著性
  • P值:模型整体显著性水平

回归系数表

  • 非标准化系数(B):自变量每变化1单位,因变量平均变化的量
  • 标准误:回归系数的标准误
  • 标准化系数(Beta):消除量纲影响后的回归系数,便于比较变量重要性
  • t值:回归系数/t检验统计量
  • P值:该自变量对因变量影响的显著性
  • 95%CI:回归系数的95%置信区间

结果解释

模型整体性能

  • 模型整体显著性:查看方差分析表中的F值和P值
  • P<0.05:模型整体显著,自变量组合对因变量有显著预测作用
  • P≥0.05:模型整体不显著
  • 拟合优度:查看R²和调整R²,R²越接近1,模型拟合越好

变量效应解读

  • 查看回归系数表中的P值
  • P<0.05:该自变量对因变量有显著影响
  • P≥0.05:该自变量对因变量无显著影响
  • 正系数:自变量增加,因变量增加
  • 负系数:自变量增加,因变量减少
  • 标准化系数绝对值越大,该变量对因变量的影响越大

置信区间解读

  • 95%CI不包含0:该自变量对因变量的影响显著
  • 95%CI包含0:该自变量对因变量的影响不显著
  • CI宽度反映估计精度,越窄越精确

模型诊断

残差图(预测值 vs 残差):

  • 残差应围绕y=0随机分布,无明显模式
  • 若呈漏斗形→异方差
  • 若呈曲线形→非线性关系

Q-Q图(理论分位数 vs 标准残差):

  • 点应大致沿对角线分布
  • 若明显偏离→残差非正态
  • 尾部偏离→可能存在极端值

多重共线性诊断

  • VIF>10或容差<0.1:存在严重多重共线性
  • 高VIF变量的系数估计不稳定,标准误偏大
  • 处理方法:删除高度相关的自变量、合并相关变量、使用正则化方法(如岭回归)

注意事项

前提条件检验

  • 线性关系:应检查散点图确认线性关系
  • 正态性:通过Q-Q图或正态性检验确认
  • 方差齐性:通过残差图确认
  • 如不满足前提条件,可考虑数据转换、使用非线性回归、使用稳健回归方法

样本量要求

  • 样本量应足够大,一般建议:样本量≥10×自变量数
  • 样本量过小可能导致过拟合

异常值处理

  • 检查标准残差:|标准残差|>3可能为异常值
  • 异常值可能严重影响回归结果
  • 可考虑核实数据准确性、使用稳健回归、Winsorize处理

结果解读

  • "无显著差异"不等同于"无关系",可能受限于样本量或非线性关系
  • 相关不等于因果,回归分析反映关联关系,不能直接推断因果
  • 预测结果仅适用于自变量取值在样本范围内的个体,禁止外推
  • 个体预测时,应使用预测区间而非置信区间

应用场景

  • 预测:根据自变量预测因变量值
  • 解释:探究自变量对因变量的影响程度
  • 控制:在控制其他变量后,评估某变量的独立效应
  • 趋势分析:分析变量间的线性关系

相关功能

  • 逐步回归:自动选择最优自变量组合
  • 二元Logistic回归:因变量为二分类时的回归分析
  • 相关分析:检查变量间的相关性
  • 散点图:可视化变量间关系

逐步回归分析

逐步回归分析是一种变量筛选方法,用于从多个候选自变量中自动选择对因变量具有显著解释力的变量构建最优回归模型。

方法说明

术语解释

  • 因变量(Y):被预测的连续型指标,如血压、住院费用、生存时间等
  • 自变量(X):潜在影响因素,如年龄、性别、实验室指标、治疗方案等
  • 进入标准(α进):变量进入模型的显著性阈值(默认0.05)
  • 移除标准(α出):模型中变量被剔除的显著性阈值(默认0.10)
  • 调整R²:用于比较不同模型拟合优度,值越大且变量越少的模型更优

四种方法

  • 向前选择:从空模型开始,逐个加入最显著变量
  • 向后消除:从全模型开始,逐个剔除最不显著变量
  • 逐步回归:结合向前与向后,在每步后检查是否需剔除已入选变量
  • 输入:强制所有变量进入模型(等同于标准线性回归)

注意:逐步回归结果受样本影响较大,所得模型需结合专业知识验证,避免过度依赖自动化筛选。

应用条件

  • 线性关系:自变量与因变量存在线性关系
  • 独立性:观测值相互独立
  • 正态性:残差应来自正态分布总体
  • 方差齐性:残差方差恒定
  • 样本量:样本量应足够大,建议样本量≥10×自变量数

数据输入

  • 因变量:选择1个连续型因变量
  • 自变量:选择多个候选自变量(连续型或分类型)
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有连续型因变量和多个候选自变量

步骤2:选择分析变量

点击"选择分析变量"按钮,选择因变量(连续型)和自变量(多个候选变量)

步骤3:设置选项

  • 点击"选项"按钮
  • 选择方法:向前、向后、逐步、输入
  • 设置进入α:变量进入模型的显著性阈值(默认0.05)
  • 设置删除α:变量被剔除的显著性阈值(默认0.10)
  • 设置最大迭代次数:防止无限循环(默认100)
  • 多重共线性检查:勾选此项可计算VIF和容差

步骤4:设置保存选项

点击"保存到表格"按钮,可选择保存预测值、残差、标准化残差到数据表

步骤5:执行计算

点击"计算逐步回归"按钮,系统自动进行变量筛选和回归分析

步骤6:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差等
  • 查看变量选择过程指标汇总:显示每步的操作、变量、p值、R²、调整R²等
  • 查看模型摘要:显示R、R²、调整R²、估计标准误
  • 查看ANOVA表:显示回归、残差、总计的平方和、自由度、均方、F值、P值
  • 查看回归系数表:显示非标准化系数、标准误、标准化系数、t值、P值、95%CI
  • 查看残差统计和统计图表

主要结果

变量选择过程

  • 显示每一步的操作(添加或删除变量)
  • 显示每步加入的变量及其p值
  • 显示每步的R²、调整R²、F值及显著性
  • 显示累计加入的变量数

模型摘要

  • R:多重相关系数
  • R²:决定系数
  • 调整R²:考虑自变量数后的修正R²
  • 估计标准误:残差的标准差

结果解释

模型整体性能

  • 查看ANOVA表中的F值和P值
  • P<0.05:模型整体显著,入选变量对因变量具有联合预测作用
  • 拟合优度:查看调整R²,越接近1模型拟合越好

变量筛选与效应解读

  • 查看最终入选的变量及其回归系数
  • P<0.05:该自变量对因变量有显著影响
  • 标准化系数绝对值越大,该变量对因变量的影响越大

模型诊断与可靠性

  • 残差诊断:结合"残差-预测值图"和"Q-Q图"评估模型假设
  • 若残差呈漏斗形→异方差,标准误可能不准
  • 若Q-Q图明显偏离直线→残差非正态,t/F检验可能失真
  • 逐步回归局限性:自动筛选可能因多重比较导致假阳性,且结果对样本敏感
  • 所得模型应视为探索性,需在独立数据中验证

注意事项

方法选择

  • 向前选择:适用于候选变量较多,希望快速筛选重要变量
  • 向后消除:适用于候选变量较少,希望从全模型中剔除不显著变量
  • 逐步回归:最常用的方法,结合了向前和向后的优点
  • 输入:当所有变量都必须进入模型时使用

进入和删除标准

  • 进入α通常设为0.05,删除α通常设为0.10
  • 删除α应大于进入α,避免变量反复进出
  • 标准越严格(α越小),入选变量越少

样本量要求

  • 样本量应足够大,建议样本量≥10×候选自变量数
  • 样本量过小可能导致过拟合

结果验证

  • 逐步回归结果受样本影响较大
  • 所得模型需结合专业知识验证
  • 避免过度依赖自动化筛选
  • 建议在独立数据中验证模型

应用场景

  • 从大量候选变量中筛选重要预测因子
  • 构建简约的预测模型
  • 探索性研究中的变量选择
  • 临床预测模型的构建
  • 流行病学研究中的危险因素筛选

相关功能

  • 线性回归分析:标准线性回归,所有变量强制进入模型
  • 二元Logistic回归:因变量为二分类时的回归分析
  • 相关分析:检查变量间的相关性
  • 散点图:可视化变量间关系

二元Logistic回归分析

二元Logistic回归用于分析一个或多个自变量对二分类因变量(如"发生/未发生"、"存活/死亡"、"阳性/阴性")的影响。

方法说明

术语解释

1. 结果变量(因变量)编码
  • 1:代表目标事件发生,该组称为病例组
  • 0:代表目标事件未发生,该组称为对照组
  • 注:此处"病例组"泛指目标事件发生者,不限于疾病
2. 预测因素(自变量)与编码
  • 连续型自变量:可以取某一区间内任意实数值的变量(如年龄、体重、血压值)。在模型中直接使用其原始数值进行计算
  • 二分类自变量:(如性别、是否吸烟),也需要进行0/1编码:
    • 1:代表被考察的群体,该组称为暴露组
    • 0:代表比较的基准,该组称为参照组
3. OR值(Odds Ratio,优势比)
  • 表示自变量对事件发生优势(odds)的影响
  • 方向判断:
    • OR > 1:表示与事件正相关(危险因素)
    • OR < 1:表示负相关(保护因素)
    • OR = 1:表示无关联
  • 统计显著性:若95%置信区间不包含1且p < 0.05,则该关联具有统计学意义
  • 注:OR(优势比)反映的是事件发生odds的变化,而非绝对风险;当事件发生率较高时,OR可能高估实际风险变化
4. AUC(曲线下面积)

衡量模型区分能力的指标(0.5 = 随机猜测,1.0 = 完美区分)

5. Hosmer-Lemeshow检验

评估模型校准度(预测概率与实际发生率的一致性),p > 0.05提示无显著校准偏差,但更推荐结合校准曲线综合判断

6. 分类阈值

0.500(预测概率 ≥ 阈值判定为阳性)。注意:若数据存在完全分离(如某自变量能完全区分0与1),模型将无法收敛,系统会提前终止并提示

应用条件

  • 因变量为二分类变量(0/1编码)
  • 观测值相互独立
  • 自变量与logit(P)存在线性关系
  • 无严重多重共线性
  • 样本量充足(建议每个自变量至少10-15个事件)

数据输入

  • 因变量列:选择二分类因变量(0/1编码)
  • 自变量列:选择连续型或二分类自变量
  • 二分类自变量需预先编码为0/1
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保因变量为0/1编码,二分类自变量也需编码为0/1

步骤2:选择分析变量

点击"选择分析变量"按钮,选择因变量(二分类)和自变量(一个或多个)

步骤3:设置选项

  • 点击"选项"按钮
  • 选择方法:输入、向前、向后、逐步
  • 设置最大迭代次数(默认100)
  • 设置进入α(默认0.05)
  • 设置删除α(默认0.10)
  • 设置分类阈值(默认0.50)
  • 勾选"多重共线性检查"可计算VIF和容差

步骤4:设置保存选项

点击"保存到表格"按钮,可选择保存预测值(概率)、残差、预测分类结果到数据表

步骤5:执行计算

点击"计算二元逻辑回归"按钮,系统自动进行Logistic回归分析

步骤6:查看结果

  • 查看多重共线性检查结果(如勾选)
  • 查看描述性统计量
  • 查看模型摘要:显示-2对数似然、R²、AUC、总准确率、Hosmer-Lemeshow检验
  • 查看回归系数与OR值表:显示系数、OR值、95%CI、标准误、Waldχ²、P值
  • 查看分类表(混淆矩阵):显示真阳性、真阴性、假阳性、假阴性
  • 查看分类性能指标:灵敏度、特异度、PPV、NPV
  • 查看ROC曲线、校准曲线、预测概率分布图、临床决策曲线

主要结果

模型摘要

  • -2对数似然:模型拟合优度指标,值越小拟合越好
  • Cox & Snell R²:伪R²指标
  • Nagelkerke R²:修正的伪R²指标,范围0-1
  • AUC:模型区分能力,>0.7具备一定判别能力,>0.8表示良好
  • 总准确率:模型正确分类的百分比
  • Hosmer-Lemeshow检验:p > 0.05提示无显著校准偏差

回归系数与OR值

  • 系数(B):logit(P)的回归系数
  • OR值(Exp(B)):优势比,表示自变量每增加1单位,事件发生优势的变化倍数
  • 95%CI:OR值的95%置信区间
  • Waldχ²:Wald检验统计量
  • P值:该自变量对因变量影响的显著性

分类性能指标

  • 灵敏度(召回率):正确识别病例组的能力
  • 特异度:正确识别对照组的能力
  • 阳性预测值(PPV):预测为阳性样本中实际为阳性的比例
  • 阴性预测值(NPV):预测为阴性样本中实际为阴性的比例

结果解释

模型整体性能

  • 区分能力:查看AUC值
  • 校准度:查看Hosmer-Lemeshow检验和校准曲线
  • 拟合优度:查看-2对数似然和伪R²

预测变量解读

  • 查看回归系数表中的P值和OR值
  • P < 0.05且95%CI不包含1:该自变量对因变量有显著影响
  • OR > 1:危险因素,自变量增加,事件发生优势增加
  • OR < 1:保护因素,自变量增加,事件发生优势减少

临床实用性与诊断性能评估

  • 总体准确率:正确分类的百分比
  • 灵敏度:适用于需要高覆盖率的筛查场景,以尽量减少漏诊
  • 特异度:适用于需要高精度的确诊场景,以尽量减少误诊
  • 阳性似然比(LR+):>10表示诊断价值很高
  • 阴性似然比(LR-):<0.1表示诊断价值很高

注意事项

样本量要求

  • 建议每个自变量至少10-15个事件(病例)
  • 样本量过小可能导致过拟合

多重共线性

  • 如存在多重共线性(VIF > 10),OR值可能不稳定
  • 可考虑删除高度相关的自变量或使用正则化方法

完全分离

  • 若某自变量能完全区分0与1,模型将无法收敛
  • 系统会提前终止并提示

结果解读

  • 本模型基于当前样本构建,结果反映统计关联,不等于因果关系
  • 模型性能需在独立外部数据集(外部验证)中验证,避免过拟合
  • 分类阈值(当前为0.50)可根据临床需求调整
  • 对于罕见事件(病例比例 < 5%),AUC可能高估性能

应用场景

  • 疾病风险预测模型的构建
  • 危险因素分析
  • 诊断模型的建立
  • 预后因素的识别
  • 临床决策支持

相关功能

  • 线性回归分析:因变量为连续型时的回归分析
  • 逐步回归:自动选择最优自变量组合
  • 相关分析:检查变量间的相关性
  • ROC曲线分析:评估模型区分能力

泊松回归分析

泊松回归用于分析一个或多个自变量对计数型因变量(如发病次数、事故数量、就诊人数等)的影响。该方法要求因变量满足"方差 ≈ 均值"的分布特征。若方差显著大于均值(过离散),应考虑使用负二项回归。

方法说明

术语解释

1. IRR(发生率比)
  • IRR = exp(B):自变量每增加1单位,事件发生率的变化倍数
  • IRR > 1:为风险因素
  • IRR < 1:为保护因素
2. 对数似然、AIC、BIC

模型拟合优度指标,值越小表示模型拟合越好。AIC/BIC用于模型比较。

3. 似然比检验

检验模型整体显著性,p < 0.05表示至少有一个自变量显著。

4. 过离散检验

检查数据方差是否显著大于均值。离散参数 > 1.5提示过离散,此时泊松回归可能不适用。

5. 残差诊断

通过残差图、标准化残差等检查模型假设(如线性、方差齐性)是否满足。

注意:泊松回归要求因变量为非负整数,表示事件发生次数。若数据存在严重过离散(离散参数 >> 1),通常改用负二项回归。若存在大量零计数,可考虑零膨胀泊松模型。

应用条件

  • 因变量为计数型数据(非负整数)
  • 方差 ≈ 均值(无严重过离散)
  • 观测值相互独立
  • 自变量与log(发生率)存在线性关系

数据输入

  • 因变量:选择计数型因变量(如住院次数、发病次数)
  • 自变量:选择连续型或分类型自变量
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保因变量为计数型数据(非负整数)

步骤2:选择分析变量

点击"选择分析变量"按钮,选择因变量(计数型)和自变量(一个或多个)

步骤3:设置选项

点击"选项"按钮,设置最大迭代次数(默认100),勾选"多重共线性检查"可计算VIF和容差

步骤4:设置保存选项

点击"保存到表格"按钮,可选择保存预测值、残差、皮尔逊残差、标准化皮尔逊残差到数据表

步骤5:执行计算

点击"计算泊松回归"按钮,系统自动进行泊松回归分析

步骤6:查看结果

  • 查看描述性统计量
  • 查看模型拟合信息:显示对数似然、AIC、BIC
  • 查看似然比检验:显示模型整体显著性
  • 查看过离散检验:显示离散参数
  • 查看参数估算值:显示回归系数、标准误、Wald卡方、P值、95%CI
  • 查看发生率比(IRR):显示IRR及其95%CI
  • 查看残差统计和统计图表

主要结果

模型拟合信息

  • 对数似然:值越小表示模型拟合越好
  • AIC、BIC:用于模型比较,值越小越好

似然比检验

  • 卡方:似然比检验统计量
  • 自由度:自变量个数
  • P值:模型整体显著性
  • P < 0.05表示至少有一个自变量显著

过离散检验

  • 偏差:偏差统计量
  • Pearson卡方:Pearson卡方统计量
  • 离散参数:离散参数 = 统计量/自由度
  • 离散参数接近1表示无过离散
  • 离散参数 > 1.5提示过离散

发生率比(IRR)

  • IRR = exp(B):发生率比
  • 95% CI(IRR):IRR的95%置信区间
  • IRR > 1:自变量增加,事件发生率增加(危险因素)
  • IRR < 1:自变量增加,事件发生率减少(保护因素)
  • IRR = 1:无影响

结果解释

模型整体性能与适用性

  • 查看过离散检验结果
  • 离散参数接近1:泊松回归基本假设成立
  • 查看似然比检验结果
  • P < 0.05:模型整体显著,表明至少有一个自变量对事件发生率有显著影响

变量效应解读

  • 查看参数估算值表中的P值和IRR
  • P < 0.05:该自变量对事件发生率有显著影响
  • IRR > 1:危险因素,自变量每增加1单位,事件发生率增加(IRR-1)×100%
  • IRR < 1:保护因素,自变量每增加1单位,事件发生率减少(1-IRR)×100%

注意事项

模型假设

  • 本模型基于泊松分布假设,要求因变量为非负整数计数,且均值 ≈ 方差
  • 若存在过离散(离散参数 > 1.5),泊松回归结果可能无效
  • 应改用负二项回归或准似然方法

IRR解读

  • IRR解读基于"其他变量不变"的条件
  • 不等于因果效应

应用场景

  • 疾病发病次数分析
  • 住院次数预测
  • 事故数量分析
  • 就诊人数预测
  • 其他计数型数据分析

相关功能

  • 负二项回归:适用于过离散数据
  • 零膨胀泊松模型:适用于大量零计数的数据
  • 线性回归:因变量为连续型时的回归分析
  • 二元Logistic回归:因变量为二分类时的回归分析

负二项回归分析

负二项回归用于分析一个或多个自变量对计数型因变量(如发病次数、事故数量、就诊人数等)的影响,特别适用于数据存在过离散(方差显著大于均值)的情形。

方法说明

术语解释

1. IRR(发生率比, Incidence Rate Ratio)

自变量每增加1单位,事件发生率的变化倍数。IRR > 1为风险因素,IRR < 1为保护因素。

2. 离散参数α
  • 衡量过离散程度
  • α = 0:退化为泊松回归
  • α > 0:表示存在过离散
3. 对数似然、AIC、BIC

模型拟合优度指标,值越小表示模型拟合越好。AIC/BIC用于模型比较。

4. 似然比检验

检验模型整体显著性,p < 0.05表示至少有一个自变量显著。

5. 拟合优度检验

通过偏差和Pearson卡方评估模型拟合效果。

注意:负二项回归要求因变量为非负整数,表示事件发生次数。若α接近0,可考虑使用更简单的泊松回归。IRR置信区间包含1时,表示该自变量效应不显著。

应用条件

  • 因变量为计数型数据(非负整数)
  • 存在过离散(方差显著大于均值)
  • 观测值相互独立
  • 自变量与log(发生率)存在线性关系

数据输入

  • 因变量:选择计数型因变量(如急性加重次数)
  • 自变量:选择连续型或分类型自变量
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保因变量为计数型数据(非负整数)

步骤2:选择分析变量

点击"选择分析变量"按钮,选择因变量(计数型)和自变量(一个或多个)

步骤3:设置选项

  • 点击"选项"按钮
  • 离散参数设置:固定为1、指定值、估算值
  • 设置最大迭代次数(默认100)
  • 勾选"多重共线性检查"可计算VIF和容差

步骤4:设置保存选项

点击"保存"按钮,可选择保存预测值、残差、皮尔逊残差到数据表

步骤5:执行计算

点击"计算负二项回归"按钮,系统自动进行负二项回归分析

步骤6:查看结果

  • 查看描述性统计量
  • 查看模型拟合信息:显示对数似然、AIC、BIC、似然比统计量
  • 查看离散参数:显示离散参数α和θ(1/α)的值
  • 查看拟合优度检验:显示偏差和Pearson卡方
  • 查看参数估算与发生率比:显示回归系数B、IRR、标准误、置信区间
  • 查看残差统计和统计图表

主要结果

模型拟合信息

  • 对数似然:值越小表示模型拟合越好
  • AIC、BIC:用于模型比较,值越小越好
  • 似然比统计量:检验模型整体显著性

离散参数

  • 离散参数α:衡量过离散程度
  • θ = 1/α:离散参数的倒数
  • α接近0:可考虑使用泊松回归

拟合优度检验

  • 偏差:偏差统计量
  • Pearson卡方:Pearson卡方统计量
  • 离散参数:统计量/自由度
  • 离散参数接近1表示模型拟合良好

参数估算与IRR

  • B:回归系数,表示自变量对log(因变量)的影响
  • IRR = exp(B):自变量每增加1单位,事件发生率的变化倍数
  • IRR > 1:风险增加
  • IRR < 1:风险降低
  • IRR = 1:无影响

结果解释

模型整体性能与适用性

  • 查看离散参数α
  • α > 0:存在过离散,负二项回归适用
  • 查看似然比检验结果
  • p < 0.05:模型整体显著,表明至少有一个自变量对事件发生率有显著影响

变量效应解读

  • 查看参数估算表中的IRR及其置信区间
  • 置信区间不包含1:该自变量对事件发生率有显著影响
  • IRR > 1:危险因素,自变量每增加1单位,事件发生率增加(IRR-1)×100%
  • IRR < 1:保护因素,自变量每增加1单位,事件发生率减少(1-IRR)×100%

注意事项

模型假设

  • 本模型基于负二项分布假设,要求因变量为非负整数计数
  • 当α → 0时,负二项回归退化为泊松回归,此时应优先考虑泊松模型

IRR解读

  • IRR解读基于"其他变量不变"的条件
  • 不等于因果效应

应用场景

  • 疾病发病次数分析(存在过离散时)
  • 住院次数预测
  • 事故数量分析
  • 就诊人数预测
  • 其他计数型数据分析(方差显著大于均值)

相关功能

  • 泊松回归:适用于方差≈均值的计数数据
  • 零膨胀模型:适用于大量零计数的数据
  • 线性回归:因变量为连续型时的回归分析
  • 二元Logistic回归:因变量为二分类时的回归分析

Pearson线性相关分析

Pearson相关系数(r)用于衡量两个连续型变量之间的线性关联强度与方向。

方法说明

术语解释

  • 相关系数 r:取值范围 [-1, 1],正值表示同向变化,负值表示反向变化
  • 决定系数 r²:表示一个变量可由另一个变量线性解释的变异比例
  • 效应量标准(依据《医学统计学》):
    • |r| > 0.8 为极强相关
    • 0.6 < |r| ≤ 0.8 为强相关
    • 0.3 < |r| ≤ 0.6 为中等相关
    • |r| ≤ 0.3 为弱相关

适用条件

  • 两变量均为连续型且近似正态分布
  • 变量间存在线性关系(可通过散点图验证)
  • 无显著异常值或极端离群点

典型场景

  • 血压与年龄
  • 血糖与胰岛素水平
  • 药物剂量与疗效评分
  • 身高与体重

注意事项

  • r ≈ 0 仅表示无线性关系,不排除存在 U型、倒 U型等非线性关联
  • 相关不等于因果,相关分析仅反映变量间统计关联
  • 异常值可能严重影响相关系数,分析前应检查数据

数据输入

  • 选择两个或多个连续型变量列
  • 每列代表一个变量
  • 从第二行开始输入数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区输入各变量的观测值

步骤2:选择变量

勾选需要分析的变量列,至少需要选择2个变量

步骤3:执行计算

点击"计算Pearson相关"按钮,系统自动计算相关系数矩阵

步骤4:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差、中位数、最小值、最大值
  • 查看Pearson相关系数矩阵:显示变量间的相关系数及P值
  • 查看显著相关变量对汇总:列出所有显著相关的变量对
  • 查看Pearson相关系数热力图:直观展示变量间相关强度

主要结果

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数:各变量的均值
  • 标准差:各变量的离散程度
  • 中位数、最小值、最大值

相关系数矩阵

  • 相关系数 r:变量间的线性相关程度
  • P值:相关系数的显著性检验
  • 对角线为1.0000(变量与自身完全相关)

显著相关变量对

  • 列出所有P < 0.05的变量对
  • 显示相关系数、P值和相关方向

结果解释

显著性结论分析

  • P < 0.05:变量间的相关性具有统计学意义
  • P ≥ 0.05:变量间的相关性无统计学意义

效应量与实际意义

  • 根据|r|大小判断相关强度
  • r²表示可解释的变异比例
  • 例如:r = 0.79,r² = 0.63,表示一个变量可由另一个变量解释63%的变异

相关方向

  • r > 0:正相关,两变量同向变化
  • r < 0:负相关,两变量反向变化

方法特性与局限性

  • Pearson相关系数衡量线性关联,对异常值和非正态分布敏感
  • 若散点图显示非线性关系,即使 r 接近 0,也可能存在非线性关联
  • 相关分析仅反映变量间统计关联,不等同于因果关系

应用场景

  • 探索变量间的关联性
  • 筛选预测变量
  • 验证理论假设
  • 质量控制中的变量监控

相关功能

  • Spearman等级相关:用于非正态分布或等级资料
  • Kendall秩相关:用于小样本或等级资料
  • 偏相关分析:控制其他变量后的相关分析
  • 散点图:可视化变量间关系
  • 线性回归分析:建立变量间的预测模型

Spearman等级相关分析

Spearman相关系数(ρ)基于变量的排序(秩次)计算,用于衡量两个变量之间的单调关联(不要求线性)。

方法说明

术语解释

  • 单调关系:指变量同向或反向变化,但变化速率可不一致(如对数、指数关系)
  • 秩次(Rank):将原始数据按大小排序后赋予的序号,相同值取平均秩
  • 与Pearson的区别:Spearman对异常值和非正态分布更稳健,适用于有序分类或偏态数据
  • 效应量标准:
    • |r| > 0.8 为极强相关
    • 0.6 < |r| ≤ 0.8 为强相关
    • 0.3 < |r| ≤ 0.6 为中等相关
    • |r| ≤ 0.3 为弱相关

适用条件

  • 至少一个变量为有序分类变量(如疼痛等级:轻/中/重)
  • 连续变量但严重偏态、含离群值或呈非线性单调关系
  • 样本量较小(n < 30)时仍可使用

典型场景

  • 生活质量评分与疾病分期
  • 教育年限与收入等级
  • 症状严重程度与治疗反应

数据输入

  • 选择两个或多个变量列
  • 每列代表一个变量(连续型或有序分类)
  • 从第二行开始输入数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区输入各变量的观测值

步骤2:选择变量

勾选需要分析的变量列,至少需要选择2个变量

步骤3:执行计算

点击"计算Spearman相关"按钮,系统自动计算相关系数矩阵

步骤4:查看结果

  • 查看描述性统计量
  • 查看Spearman相关系数矩阵:显示变量间的相关系数及P值
  • 查看显著相关变量对汇总
  • 查看Spearman相关系数热力图

主要结果

相关系数矩阵

  • 相关系数 ρ:变量间的单调相关程度
  • P值:相关系数的显著性检验
  • 对角线为1.0000(变量与自身完全相关)

结果解释

显著性结论分析

  • P < 0.05:变量间的相关性具有统计学意义
  • P ≥ 0.05:变量间的相关性无统计学意义

效应量与实际意义

  • 根据|ρ|大小判断相关强度
  • 相关强度最大的变量对反映最强的单调关联
  • 需结合实际背景谨慎判断实际意义

相关方向

  • ρ > 0:正相关,两变量同向变化
  • ρ < 0:负相关,两变量反向变化

方法特性与局限性

  • Spearman秩相关系数衡量单调关联,对异常值和非正态分布稳健
  • 适用于有序分类变量或偏态连续变量
  • 相关分析仅反映变量间统计关联,不等同于因果关系

应用场景

  • 有序分类变量间的相关性分析
  • 偏态分布数据的相关性分析
  • 小样本数据的相关性分析
  • 非线性单调关系的探索

相关功能

  • Pearson线性相关:适用于连续变量且满足正态分布
  • Kendall秩相关:适用于小样本或等级资料
  • 偏相关分析:控制其他变量后的相关分析
  • 散点图:可视化变量间关系

Kendall秩相关分析

Kendall's τ系数基于"数据对的一致性"计算,衡量两个变量排序方向的一致程度。

方法说明

术语解释

  • 一致对(Concordant pair):两变量在两个样本中的排序方向相同
  • τ = P(一致对) - P(不一致对):直观反映排序一致性优势
  • 数值特点:|τ|通常小于|r|或|ρ|,但结论方向一致,且对"结"(ties)处理更严谨
  • 效应量解读:
    • |τ| > 0.6 为强相关
    • 0.3-0.6 为中等
    • < 0.3 为弱相关(因 τ 天然偏小)

适用条件

  • 小样本(n < 30)
  • 数据中存在大量相同值(如 Likert 量表)
  • 需要更稳健的非参数相关度量

典型场景

  • 专家评分一致性
  • 问卷条目间关联
  • 小样本临床观察数据

数据输入

  • 选择两个或多个变量列
  • 每列代表一个变量(连续型或等级资料)
  • 从第二行开始输入数据
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:输入数据

在数据区输入各变量的观测值

步骤2:选择变量

勾选需要分析的变量列,至少需要选择2个变量

步骤3:执行计算

点击"计算Kendall相关"按钮,系统自动计算相关系数矩阵

步骤4:查看结果

  • 查看描述性统计量
  • 查看Kendall相关系数矩阵:显示变量间的相关系数及P值
  • 查看显著相关变量对汇总
  • 查看Kendall相关系数热力图

主要结果

相关系数矩阵

  • 相关系数 τ:变量间的排序一致性程度
  • P值:相关系数的显著性检验
  • 对角线为1.0000(变量与自身完全相关)

结果解释

显著性结论分析

  • P < 0.05:变量间的相关性具有统计学意义
  • P ≥ 0.05:变量间的相关性无统计学意义

效应量与实际意义

  • 根据|τ|大小判断相关强度
  • 相关强度最大的变量对反映最强的排序一致性
  • 需结合实际背景谨慎判断实际意义

相关方向

  • τ > 0:正相关,两变量排序方向相同
  • τ < 0:负相关,两变量排序方向相反

方法特性与局限性

  • Kendall τ系数基于数据对的一致性,对"结"(ties)处理更严谨
  • 通常|τ|小于|r|或|ρ|,但结论方向一致
  • 相关分析仅反映变量间统计关联,不等同于因果关系

应用场景

  • 专家评分一致性检验
  • Likert量表条目间关联分析
  • 小样本数据的等级相关分析
  • 存在大量相同值的数据相关分析

相关功能

  • Pearson线性相关:适用于连续变量且满足正态分布
  • Spearman等级相关:适用于等级资料或偏态分布
  • 偏相关分析:控制其他变量后的相关分析
  • 散点图:可视化变量间关系

偏相关分析

偏相关分析用于衡量在控制一个或多个混杂变量(控制变量)的影响后,两个目标变量之间的净线性关联。

方法说明

术语解释

  • 净相关:剔除控制变量影响后,X与Y的"纯净"关联
  • 控制变量:可能同时影响X和Y的混杂因素(如年龄、性别、BMI)
  • 自由度:df = n - k - 2(k为控制变量数),控制变量过多会导致检验效能下降
  • 效应量标准:
    • |r| > 0.8 为极强相关
    • 0.6 < |r| ≤ 0.8 为强相关
    • 0.3 < |r| ≤ 0.6 为中等相关
    • |r| ≤ 0.3 为弱相关

应用条件

  • 所有变量(目标变量和控制变量)均为连续型且近似正态分布
  • 变量间存在线性关系
  • 无显著异常值
  • 样本量充足(建议n ≥ 10 + k,k为控制变量数)

操作步骤

步骤1:输入数据

在数据区输入所有变量的观测值,包括目标变量和控制变量

步骤2:选择变量

  • 点击"选择偏相关分析变量"按钮
  • 选择因变量(数值型)
  • 选择自变量(数值型)
  • 选择控制变量(数值型,一个或多个)
  • 点击"确定"关闭变量选择对话框

步骤3:执行计算

点击"计算偏相关"按钮,系统自动计算偏相关系数

步骤4:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差、中位数、最小值、最大值
  • 查看偏相关分析结果:显示偏相关系数、自由度、P值、显著性
  • 查看残差散点图:直观展示控制混杂因素后的净关联

主要结果

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数、标准差、中位数、最小值、最大值

偏相关分析结果

  • 分析变量:显示因变量与自变量
  • 控制变量:列出所有控制变量
  • 偏相关系数:剔除控制变量影响后的净相关系数
  • 自由度:df = n - k - 2
  • P值:偏相关系数的显著性检验
  • 显著性:判断是否存在显著的偏相关性

结果解释

显著性结论分析

  • P < 0.05:在控制混杂因素后,两变量间的偏相关性具有统计学意义
  • P ≥ 0.05:在控制混杂因素后,两变量间的偏相关性无统计学意义

效应量与实际意义

  • 根据偏相关系数的绝对值判断净关联强度
  • 正系数表示正向净关联,负系数表示负向净关联
  • 需结合实际背景判断实际意义

综合说明

  • 偏相关仅控制了指定的变量,未测量的混杂因素仍可能影响结果
  • 若控制变量与目标变量高度相关,可能导致自由度不足或估计不稳定
  • 偏相关系数的符号表示净关联方向,但不等同于因果效应

注意事项

控制变量选择

  • 控制变量应是理论上可能同时影响两个目标变量的混杂因素
  • 避免控制中介变量(位于因果路径上的变量)
  • 控制变量不宜过多,以免自由度不足

结果解读

  • 偏相关系数反映的是净关联,不等于因果关系
  • 残差散点图可帮助理解控制混杂因素后的关系模式
  • 应结合Pearson相关系数对比,理解控制变量的影响

应用场景

  • 控制年龄、性别等人口学因素后,分析生物标志物间的关联
  • 控制混杂因素后,评估暴露与结局的独立关联
  • 探索变量间的直接关联,排除间接影响
  • 多变量关系中的净效应分析

相关功能

  • Pearson线性相关:未控制混杂因素的简单相关
  • Spearman等级相关:用于非正态分布或等级资料
  • 多元线性回归:可同时控制多个变量的影响
  • 散点图:可视化变量间关系

生存分析(Kaplan-Meier法)

Kaplan-Meier法(乘积极限法)是一种非参数生存分析方法,用于估计生存函数S(t),即个体存活超过时间t的概率。

术语解释

  • 生存时间:从起始事件(如确诊、手术)到终点事件(如死亡、复发)或删失的时间
  • 删失(Censoring):因失访、研究结束等原因未观察到终点事件的个体
  • 生存率S(t):在时间t仍存活的概率,通过各时间点存活比例连乘得到
  • 中位生存时间:S(t) = 0.5对应的时间,反映群体生存水平
  • 本方法适用于小样本、事件发生时间精确已知的数据,能有效处理删失数据

数据输入

原始资料模式:每行代表一个观测对象

  • 生存时间变量:记录每个对象的生存时间
  • 生存结局变量:0=删失,1=死亡(终点事件)

汇总资料模式:每行代表一个时间点的汇总数据

  • 生存时间:时间点
  • 死亡数:该时间点的死亡人数
  • 删失数:该时间点的删失人数

操作步骤

步骤1:选择数据模式

  • 原始资料:适用于个体水平数据
  • 汇总资料:适用于已汇总的时间点数据

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择生存时间变量
  • 选择生存结局变量(原始资料模式)
  • 点击"确定"关闭变量选择对话框

步骤3:执行计算

点击"计算"按钮,系统自动进行Kaplan-Meier生存分析

步骤4:查看结果

  • 查看Kaplan-Meier生存分析结果表
  • 查看生存曲线图
  • 查看累积风险曲线图

主要结果

生存分析结果表

  • 序号:时间点序号
  • 时间:生存时间点
  • 死亡数:该时间点的死亡人数
  • 删失数:该时间点的删失人数
  • 期初例数:该时间点开始时仍处于风险中的个体数
  • 死亡概率:该时间点的条件死亡概率
  • 生存概率:该时间点的条件生存概率
  • 累积生存率:从起始到该时间点的累积生存概率
  • 生存率标准误:累积生存率的标准误(Greenwood公式)
  • 95%CI:累积生存率的95%置信区间

结果解释

方法特性与结果解读

  • Kaplan-Meier曲线直观展示了随时间变化的生存概率
  • 曲线下降越快,生存状况越差
  • 删失点(+号)表示该时间点有删失数据,不影响后续生存率计算
  • 95%置信区间越窄,估计越精确
  • 若区间包含0.5,则中位生存时间无法确定

中位生存时间说明

  • 若生存曲线穿过S(t)=0.5,则对应时间为中位生存期
  • 若95% CI下限>0.5,则中位生存期有统计学意义
  • 若CI包含0.5,则中位生存期不确定

注意事项

  • 当某时间点风险人数<5时,Greenwood标准误可能低估,置信区间不可靠
  • 本方法适用于小样本、事件发生时间精确已知的数据
  • 若需比较多组生存曲线差异,建议使用Log-Rank检验
  • 若需分析影响因素,建议使用Cox模型

应用场景

  • 临床试验中的生存分析
  • 疾病预后研究
  • 治疗效果评价
  • 复发时间分析
  • 设备故障时间分析

相关功能

  • 寿命表法:适用于大样本或时间分组数据
  • 生存率比较:比较多组生存曲线(Log-Rank检验)
  • Cox回归:分析生存时间的影响因素
  • 统计图:绘制生存曲线和累积风险曲线

生存分析(寿命表法)

寿命表法(Life Table Method)是一种分组区间估计生存函数的方法,适用于大样本或时间分组数据。

术语解释

  • 时间区间:将观察期划分为若干等宽或不等宽区间(如 0-1年, 1-2年)
  • 有效例数:区间期初人数减去区间内删失人数的一半,用于校正删失影响
  • 区间死亡概率:区间内死亡数/有效例数
  • 累积生存率:各区间生存概率的连乘结果
  • 本方法假设区间内事件均匀发生,适用于无法获取精确事件时间的大规模队列研究

数据输入

  • 时间区间变量:记录每个时间区间的标识(如"0~", "1~", "2~"等)
  • 期内死亡数变量:记录每个时间区间内的死亡人数
  • 期内删失数变量:记录每个时间区间内的删失人数
  • 每行代表一个时间区间

操作步骤

步骤1:准备数据

  • 在数据区输入寿命表数据
  • 确保有时间区间、期内死亡数、期内删失数三列

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择时间区间变量
  • 选择期内死亡数变量
  • 选择期内删失数变量
  • 点击"确定"关闭变量选择对话框

步骤3:执行计算

点击"计算"按钮,系统自动进行寿命表法生存分析

步骤4:查看结果

  • 查看寿命表法生存分析结果表
  • 查看生存曲线图
  • 查看累积风险曲线图

主要结果

寿命表法生存分析结果表

  • 序号:时间区间序号
  • 时间区间:时间区间标识
  • 死亡数:该时间区间内的死亡人数
  • 删失数:该时间区间内的删失人数
  • 期初例数:该时间区间开始时仍处于风险中的个体数
  • 有效例数:期初例数 - 删失数/2,校正了删失的影响
  • 死亡概率:该时间区间的条件死亡概率
  • 生存概率:该时间区间的条件生存概率(1-死亡概率)
  • 累积生存率:从起始到该时间区间的累积生存概率
  • 生存率标准误:累积生存率的标准误
  • 95%CI:累积生存率的95%置信区间

结果解释

方法特性与结果解读

  • 寿命表提供了按时间区间汇总的生存信息,适合描述大规模人群的生存模式
  • 有效例数校正了区间内删失的影响,使死亡概率估计更准确
  • 曲线下降越快,生存状况越差
  • 95%置信区间越窄,估计越精确

区间划分影响

  • 若区间过宽,可能掩盖生存率的快速变化
  • 建议根据数据分布合理划分时间区间

方法局限性

  • 本方法假设区间内事件均匀发生,精度低于Kaplan-Meier法
  • 适用于无法获取精确事件时间的大规模队列研究
  • 若需更高精度的生存估计,建议使用Kaplan-Meier法

应用场景

  • 大规模队列研究的生存分析
  • 仅有分组区间数据的生存分析
  • 疾病预后研究
  • 人口寿命表编制

相关功能

  • Kaplan-Meier法:适用于小样本、事件发生时间精确已知的数据
  • 生存率比较:比较多组生存曲线(Log-Rank检验)
  • Cox回归:分析生存时间的影响因素
  • 统计图:绘制生存曲线和累积风险曲线

生存分析(生存率比较)

Log-Rank检验是一种非参数方法,用于比较两组或多组生存曲线是否存在统计学差异。

术语解释

  • 原假设 H₀:各组生存函数 S₁(t) = S₂(t) = ... = Sₖ(t)
  • Log-Rank检验:对所有时间点的期望死亡数加权求和,对后期差异更敏感
  • Breslow检验(广义Wilcoxon):对早期差异更敏感,适用于早期风险差异大的场景
  • 卡方统计量:基于观察死亡数与期望死亡数的差异,自由度 = 组数 - 1
  • 本检验不依赖生存分布假设,但要求各组删失机制相同(非信息删失)

数据输入

原始资料模式:每行代表一个观测对象

  • 生存时间变量:记录每个对象的生存时间
  • 生存结局变量:0=删失,1=死亡(终点事件)
  • 分组变量:标识每个对象所属的组别(字符或数值型)

汇总资料模式:每行代表一个时间点的汇总数据

  • 生存时间:时间点
  • 死亡数:该时间点的死亡人数
  • 删失数:该时间点的删失人数
  • 分组变量:标识每个时间点所属的组别

操作步骤

步骤1:选择数据模式

  • 原始资料:适用于个体水平数据
  • 汇总资料:适用于已汇总的时间点数据

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择生存时间变量
  • 选择生存结局变量或死亡数变量(根据数据模式)
  • 选择删失数变量(汇总资料模式)
  • 选择分组变量
  • 点击"确定"关闭变量选择对话框

步骤3:执行计算

点击"计算"按钮,系统自动进行生存率比较分析

步骤4:查看结果

  • 查看生存率比较结果表
  • 查看显著性检验结果(Log-Rank和Breslow检验)
  • 查看生存曲线图
  • 查看累积风险曲线图

主要结果

生存率比较结果表

  • 序号:时间点序号
  • 时间点:生存时间点
  • 事件类型:死亡或删失
  • 各组的期初例数、死亡数、删失数、期望死亡数、生存率
  • 总期初、总死亡、总删失

显著性检验结果

  • Log-Rank检验:卡方值、自由度、P值(双侧)、显著性
  • Breslow检验:卡方值、自由度、P值(双侧)、显著性
  • Log-Rank检验对观察后期差别敏感
  • Breslow检验对观察早期差别敏感

结果解释

显著性结论分析

  • Log-Rank检验结果显示,各组生存曲线是否存在显著差异
  • P < 0.05:各组生存曲线存在显著差异
  • P ≥ 0.05:各组生存曲线无显著差异

检验特性说明

  • Log-Rank检验对观察后期差别敏感,Breslow检验对早期差别敏感
  • 若两者结果不一致,提示风险差异可能集中在早期或晚期
  • Log-Rank检验仅判断曲线是否不同,不说明差异方向或大小

方法局限性

  • 要求各组删失机制相同(非信息删失),否则结果可能偏倚
  • 若检验显著,可进一步进行两两比较(如Bonferroni校正)确定具体差异组别
  • 若检验不显著,不排除样本量不足或随访时间不够导致检验效能低的可能

应用场景

  • 比较不同治疗组的生存差异
  • 比较不同风险组的预后差异
  • 临床试验中的生存分析
  • 疾病预后研究

相关功能

  • Kaplan-Meier法:估计单组生存函数
  • 寿命表法:适用于大样本或时间分组数据
  • Cox回归:分析生存时间的影响因素
  • 统计图:绘制生存曲线和累积风险曲线

Cox回归分析

Cox比例风险回归模型用于分析多个因素对生存时间的影响。

术语解释

  • 风险函数 h(t):瞬时死亡风险,Cox模型假设 h(t) = h₀(t) × exp(β₁X₁ + ... + βₚXₚ)
  • 风险比(HR = exp(β)):自变量每增加1单位,风险增加的倍数;HR > 1表示风险增加
  • 比例风险假设:各组风险比不随时间变化,是模型成立的前提
  • 基线风险 h₀(t):所有协变量为0时的风险函数,无需预先指定其形式
  • 本模型为半参数模型,不依赖基线风险的具体分布,适用于多因素生存分析

应用条件

  • 时间变量:记录生存时间或随访时间
  • 状态变量:0=删失,1=事件发生
  • 自变量:可以是连续型或分类型变量
  • 比例风险假设:各组风险比应不随时间变化

数据输入

  • 时间变量:选择记录生存时间的变量
  • 状态变量:选择记录事件状态的变量(0=删失,1=事件发生)
  • 自变量:选择一个或多个影响因素
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有时间变量、状态变量和自变量

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择时间变量
  • 选择状态变量
  • 选择自变量(一个或多个)
  • 点击"确定"关闭变量选择对话框

步骤3:设置预测选项

  • 点击"预测设置"按钮
  • 选择预测时间:个体实际观测时间点生存率或固定时间点(如5年生存率)
  • 保存选项:保存风险分数、风险比、预测生存概率
  • 点击"确定"关闭预测选项对话框

步骤4:执行计算

点击"计算"按钮,系统自动进行Cox回归分析

步骤5:查看结果

  • 查看模型拟合优度:显示似然比检验、Wald检验、Score检验的结果
  • 查看Cox回归分析表:显示各变量的回归系数、标准误、Z值、P值、风险比及95%CI
  • 查看个体风险预测表:显示各时间点的风险分数、风险比和预测生存概率
  • 查看统计图表:基线生存曲线、累积风险曲线

主要结果

模型拟合优度

  • 似然比检验:比较模型与空模型的拟合优度
  • Wald检验:基于回归系数的Wald统计量
  • Score检验:基于得分统计量的检验
  • P < 0.05表示模型整体显著

Cox回归分析表

  • 变量:自变量名称
  • B:回归系数,表示自变量对log(风险)的影响
  • 标准误:回归系数的标准误
  • Z:Z统计量(B/标准误)
  • P值:该自变量对生存时间影响的显著性
  • Exp(B):风险比(HR),自变量每增加1单位,风险变化的倍数
  • 95%CI:风险比的95%置信区间

个体风险预测表

  • 时间(t):观测时间点
  • 状态(s):事件状态(0=删失,1=事件发生)
  • 风险分数:个体的线性预测值(β₁X₁ + ... + βₚXₚ)
  • 风险比:相对于基线的风险比
  • 预测生存概率:在该时间点的生存概率

结果解释

模型整体显著性

  • 似然比检验、Wald检验、Score检验的P值 < 0.05,表明协变量联合效应具有统计学意义
  • 若模型整体不显著,说明当前变量组合未能有效解释生存时间的变异

单个变量效应

  • P < 0.05:该自变量对生存时间有显著影响
  • HR > 1:危险因素,自变量增加,风险增加
  • HR < 1:保护因素,自变量增加,风险降低
  • HR = 1:无影响

置信区间与稳健性

  • 95%CI不包含1:效应具有统计学意义
  • 95%CI包含1:效应估计不稳定,无统计学意义
  • CI宽度反映估计精度,越窄越精确

模型假设与预测说明

  • 个体生存概率基于其观测时间点计算,反映事件/删失时刻的瞬时生存状态
  • Cox模型依赖比例风险假设,建议通过Schoenfeld残差检验或log(-log(S(t)))曲线验证
  • 本模型使用Efron方法估计基线风险,对tied events(结)处理优于Breslow方法

注意事项

比例风险假设

  • Cox模型要求满足比例风险假设(各组风险比不随时间变化)
  • 可通过Schoenfeld残差检验或log(-log(S(t)))图验证
  • 若违反比例风险假设,可考虑分层Cox模型或时依协变量模型

样本量要求

  • 建议每个自变量至少有10-15个事件
  • 样本量过小可能导致过拟合

结果解读

  • HR反映的是相对风险,不等于绝对风险
  • 模型性能需在独立外部数据集中验证,避免过拟合
  • 任何基于本模型的决策,均需由专业人员结合临床/业务背景综合判断

应用场景

  • 临床试验中的多因素生存分析
  • 疾病预后因素的识别
  • 治疗效果的评价
  • 风险预测模型的构建

相关功能

  • Kaplan-Meier法:单因素生存分析
  • 寿命表法:适用于大样本或时间分组数据
  • 生存率比较:比较多组生存曲线(Log-Rank检验)
  • 统计图:绘制生存曲线和累积风险曲线

系统聚类(样本聚类)分析

本分析执行样本聚类,将观测样本划分为若干组,使组内相似、组间相异,广泛应用于客户细分、疾病分型、市场区隔等场景。

参数设置

1. 标准化

  • 无:各变量以其原始尺度参与计算,适用于量纲相同的变量
  • Z-Score标准化:将变量转换为均值为0、标准差为1的标准正态分布,消除量纲影响
  • Min-Max标准化:将变量转换到[0,1]区间,适用于需要统一范围的情形

2. 类间距离

  • 欧氏距离:最常用的距离度量,适用于连续型变量,对量纲敏感
  • 平方欧氏距离:欧氏距离的平方,强调较大差异
  • 曼哈顿距离:绝对值距离,对异常值较稳健
  • 切比雪夫距离:最大坐标差,适用于极端值分析
  • 相关系数距离:1-相关系数,关注变量间的相关模式
  • 余弦距离:1-余弦相似度,关注向量方向而非大小

3. 聚类方法

  • 最短距离法(Single Linkage):以两类中最近样本点的距离作为类间距离。易产生"链式效应",适合检测长条状或非球形簇。对噪声和离群值较敏感。
  • 最长距离法(Complete Linkage):以两类中最远样本点的距离作为类间距离。倾向于产生紧凑的球形簇。对离群值较稳健,但可能过度分割。
  • 平均距离法(Average Linkage):以两类中所有样本点对的平均距离作为类间距离。介于最短距离法和最长距离法之间。平衡了链式效应和紧凑性,较为常用。

数据输入

  • 名称列(可选):如城市名称、样本编号等,用于标识样本
  • 聚类分析变量:选择用于聚类的连续型变量(至少2个)
  • 每行代表一个观测样本
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有用于聚类的连续型变量

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择名称列(可选)
  • 选择聚类分析变量(至少2个)
  • 点击"确定"关闭变量选择对话框

步骤3:设置聚类参数

  • 点击"设置聚类方法"按钮
  • 选择标准化方法(无、Z-Score、Min-Max)
  • 选择类间距离度量(欧氏距离、曼哈顿距离等)
  • 选择聚类方法(最短距离法、最长距离法、平均距离法)
  • 点击"确定"关闭参数设置对话框

步骤4:执行计算

点击"计算样本聚类"按钮,系统自动进行层次聚类分析

步骤5:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差等
  • 查看聚类过程表:显示每一步的合并信息(聚类1、聚类2、系数等)
  • 查看聚类分析树形图(Dendrogram):直观展示样本的聚类结构

主要结果

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数、标准差、中位数、最小值、最大值

聚类过程表

  • 阶段:聚类步骤序号
  • 聚类1、聚类2:该阶段合并的两个类(样本编号或前期形成的类)
  • 系数:两类间的距离(合并标准)
  • 聚类1首次阶段、聚类2首次阶段:该类首次形成的阶段(0表示原始样本)
  • 下一个阶段:该类下次被合并的阶段

结果解释

聚类结构解读

  • 样本聚类树形图揭示了样本的自然分组趋势
  • 较长的垂直分支下方的合并点,通常代表样本间存在明显差异
  • 密集的短分支则表明样本相似度高
  • 系数(距离)越大,表示合并的两类差异越大

聚类数目确定

  • 观察树形图中距离的跳跃:距离突然增大的位置可作为聚类数目
  • 结合专业知识和研究目的确定合理的聚类数目
  • 可参考聚类过程表中的系数变化

方法影响说明

  • 系统聚类的结果受所选距离度量、标准化方法和连接准则的影响
  • 不同的参数组合可能导致不同的聚类结构
  • 建议尝试多种方法,选择最符合专业背景的结果

注意事项

变量选择

  • 选择与研究目的相关的变量
  • 避免高度相关的变量,以免某些特征被过度加权
  • 变量量纲差异大时应进行标准化

结果验证

  • 聚类分析是探索性方法,结果需结合专业知识验证
  • 可通过K均值聚类等其他方法交叉验证
  • 建议进行敏感性分析,检验聚类稳定性

方法局限性

  • 层次聚类一旦合并或分裂,不能撤销
  • 计算复杂度较高,不适用于超大样本
  • 对异常值敏感(特别是最短距离法)

应用场景

  • 客户细分:根据消费行为、人口学特征进行市场细分
  • 疾病分型:根据临床指标对疾病进行亚型分类
  • 样本分类:对未知类别的样本进行归类
  • 变量筛选:识别相似的变量或样本

相关功能

  • 变量聚类:对变量进行聚类分析
  • K均值聚类:基于划分的聚类方法
  • 主成分分析:降维后辅助聚类分析
  • 判别分析:对已知类别的样本建立判别模型

系统聚类(变量聚类)分析

本分析执行变量聚类,用于识别数据集中彼此高度相关的变量,将相似变量归为一类,常用于降维、变量筛选或构建复合指标。

参数设置

1. 距离度量

  • 相关系数距离(1 - Pearson r):衡量变量间线性相关性
  • r越接近1,距离越小,变量越相似

2. 标准化

  • 无:各变量以其原始尺度参与计算
  • Z-Score标准化:将变量转换为均值为0、标准差为1的标准正态分布
  • Min-Max标准化:将变量转换到[0,1]区间

3. 聚类方法

  • 平均连接法(Average Linkage):综合所有点对平均距离,结果稳健。推荐用于一般场景。

数据输入

  • 名称列(可选):如城市名称、样本编号等,用于标识样本
  • 聚类分析变量:选择用于聚类的连续型变量(至少2个)
  • 每行代表一个观测样本
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有用于聚类的连续型变量

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择名称列(可选)
  • 选择聚类分析变量(至少2个)
  • 点击"确定"关闭变量选择对话框

步骤3:设置聚类参数

  • 点击"设置聚类方法"按钮
  • 选择标准化方法(无、Z-Score、Min-Max)
  • 选择类间距离度量(相关系数距离等)
  • 选择聚类方法(平均距离法等)
  • 点击"确定"关闭参数设置对话框

步骤4:执行计算

点击"计算变量聚类"按钮,系统自动进行变量聚类分析

步骤5:查看结果

  • 查看聚类过程表:显示每一步的合并信息(聚类1、聚类2、系数等)
  • 查看聚类分析树形图(Dendrogram):直观展示变量的聚类结构

主要结果

聚类过程表

  • 阶段:聚类步骤序号
  • 聚类1、聚类2:该阶段合并的两个变量(或前期形成的类)
  • 系数:两类间的距离(合并标准)
  • 聚类1首次阶段、聚类2首次阶段:该类首次形成的阶段(0表示原始变量)
  • 下一个阶段:该类下次被合并的阶段

结果解释

聚类结构解读

  • 变量聚类树形图显示了各变量间的相似性结构
  • 在较低距离处合并的变量,其相关性较高
  • 在较高距离处才合并的变量,其独立性较强
  • 系数(距离)越小,表示合并的两类变量越相似

应用价值

  • 降维:识别冗余变量,减少分析维度
  • 变量筛选:从高度相关的变量组中选择代表性变量
  • 构建复合指标:将相似变量归为一类,构建综合指标

方法影响说明

  • 系统聚类的结果受所选距离度量、标准化方法和连接准则的影响
  • 不同的参数组合可能导致不同的聚类结构

注意事项

变量选择

  • 选择与研究目的相关的连续型变量
  • 变量量纲差异大时应进行标准化

结果验证

  • 聚类分析是探索性方法,结果需结合专业知识验证
  • 建议进行敏感性分析,检验聚类稳定性

应用场景

  • 降维:识别高度相关的变量组,减少分析维度
  • 变量筛选:从相似变量中选择代表性指标
  • 构建复合指标:将相似变量归为一类
  • 探索变量间关系:发现变量间的相似性结构

相关功能

  • 样本聚类:对观测样本进行聚类分析
  • K均值聚类:基于划分的聚类方法
  • 主成分分析:降维后辅助聚类分析
  • 相关分析:检查变量间的相关性

K均值聚类分析

K均值聚类(K-means clustering)是一种无监督学习方法,用于将样本划分为K个互斥的簇(聚类),使得同一簇内样本相似度高,不同簇间样本差异大。

术语解释

  • 聚类中心(Centroid):每个簇的"重心",由簇内所有样本在各变量上的均值构成
  • 误差平方和(SSD/Within-Cluster Sum of Squares):衡量簇内紧凑程度,值越小表示聚类越紧密
  • 标准化:当变量量纲不同时,需进行标准化(如Z-score)以避免某些变量因数值大而主导距离计算
  • 方差分析(ANOVA):用于检验各变量在不同聚类间是否存在显著差异,F值大且p < 0.05表明该变量对聚类有区分作用
  • 本分析采用K-means++初始化策略提升聚类稳定性,并基于欧氏距离进行迭代优化

数据输入

  • 名称列(可选):如城市名称、样本编号等,用于标识样本
  • 聚类分析变量:选择用于聚类的连续型变量(至少2个)
  • 每行代表一个观测样本
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有用于聚类的连续型变量

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择名称列(可选)
  • 选择聚类分析变量(至少2个)
  • 点击"确定"关闭变量选择对话框

步骤3:设置聚类参数

  • 点击"设置"按钮
  • 设置聚类数K:指定要将样本划分为几个簇
  • 标准化:勾选此项可对变量进行Z-score标准化
  • 点击"确定"关闭参数设置对话框

步骤4:执行计算

  • 点击"计算K均值聚类"按钮
  • 系统自动进行多次聚类,每次使用不同的初始中心
  • 每次聚类都会产生一个方案,显示在"可选方案"下拉菜单中

步骤5:选择最优方案

  • 查看"可选方案"下拉菜单中的各个方案
  • 每个方案显示其误差平方和(SSD)
  • 选择SSD最小的方案(聚类最紧密)
  • 系统会自动显示所选方案的详细结果

步骤6:保存聚类结果

  • 点击"保存聚类"按钮
  • 系统会在数据表中添加新的一列"聚类"
  • 该列显示每个样本所属的聚类编号(1, 2, 3...K)
  • 保存后可进行后续分析或导出

主要结果

聚类分析参数

  • 聚类数:用户指定的K值
  • 标准化:是否进行了标准化处理
  • 总误差平方和:所有簇内误差平方和的总和,衡量整体聚类质量

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数、标准差、中位数、最小值、最大值

聚类中心

  • 显示每个聚类在各变量上的均值
  • 反映各聚类的特征
  • 用于解释和命名聚类

方差分析表

  • 检验各变量在不同聚类间是否存在显著差异
  • F值:组间均方/组内均方
  • P值:显著性水平
  • P < 0.05表明该变量对聚类有显著区分作用

结果解释

聚类质量评估

  • SSD(误差平方和)越小,表示聚类越紧密
  • 比较不同K值的SSD,可选择最优聚类数
  • 可使用肘部法则(Elbow Method)确定最佳K值

聚类特征解读

  • 查看各聚类的中心(均值)
  • 比较不同聚类在各变量上的差异
  • 根据变量特征为每个聚类命名或定义
  • 例如:高收入高消费群体、低收入保守群体等

变量重要性

  • 查看方差分析表中的F值和P值
  • F值越大、P值越小的变量,对聚类区分作用越强
  • 可考虑删除对聚类无显著贡献的变量

方案选择

  • 系统会生成多个聚类方案(不同初始中心)
  • 选择SSD最小的方案通常最优
  • 若多个方案SSD相近,可任选其一

注意事项

聚类数K的选择

  • K值需事先指定,是K-means的主要参数
  • 可尝试多个K值,比较SSD变化
  • K值过小可能过度简化,K值过大可能过拟合
  • 建议结合专业知识和数据特征确定

标准化处理

  • 当变量量纲差异大时,必须进行标准化
  • 否则数值大的变量会主导距离计算
  • 标准化后各变量均值为0,标准差为1

方法局限性

  • K-means假设簇为球形,对非球形簇效果不佳
  • 对异常值敏感,异常值可能显著影响聚类中心
  • 需要事先指定K值
  • 结果可能受初始中心影响,因此采用K-means++初始化

结果验证

  • 聚类分析是探索性方法,结果需结合专业知识验证
  • 可通过轮廓系数(Silhouette Coefficient)评估聚类质量
  • 建议进行敏感性分析,检验聚类稳定性

应用场景

  • 客户细分:根据消费行为、人口学特征进行市场细分
  • 图像压缩:将像素颜色聚类,减少颜色数量
  • 文档分类:根据文本特征对文档进行聚类
  • 异常检测:远离聚类中心的样本可能为异常值
  • 数据降维:用聚类中心代表大量样本

相关功能

  • 系统聚类(层次聚类):不需要事先指定聚类数
  • 变量聚类:对变量而非样本进行聚类
  • 主成分分析:降维后辅助聚类分析
  • 判别分析:对已知类别的样本建立判别模型

线性判别分析(LDA)

线性判别分析(Linear Discriminant Analysis, LDA)是一种监督分类方法,用于在已知类别标签的数据基础上,构建线性判别规则以预测新样本所属类别。

核心假设

  • 所有类别具有相同的协方差矩阵(即协方差齐性)
  • 使用合并协方差矩阵计算马氏距离(平方)
  • 判别边界为超平面
  • 适用于类别间变异结构相似的场景

术语解释

  • 分组变量:表示样本类别的整数编码变量(如 1=健康,2=患病),必须为数值型整数
  • 特征变量:用于判别的数值型自变量,将被用于构建判别函数
  • 马氏距离(平方):考虑变量尺度与相关性的多维距离,LDA 中用于衡量样本到各类别中心的"统计距离"
  • Fisher 判别函数:形如 D_k(x) = w_k^T x + c_k 的线性函数,用于计算样本对各类别的判别得分

数据处理说明

  • 自动剔除方差小于 1e-6 的特征(近零方差)
  • 默认采用等先验概率(各类别先验概率 = 1/类别数)

数据输入与设置

变量选择

  • 选择分类变量:必须是整数编码的类别变量
  • 选择特征变量:选择一个或多个数值型自变量

选项设置

  • 保存预测分组:将模型预测的类别保存到数据表
  • 显示全部结果:显示所有样本的详细分类结果(包括正确和误分类)

主要结果

数据提取结果

  • 提取样本数:有效参与分析的样本数量
  • 有效特征数:剔除近零方差后剩余的特征数量
  • 分组变量:类别变量名称
  • 预测变量:特征变量名称列表

描述性统计量

显示各特征变量的样本量、平均数、标准差、中位数、最小值、最大值

组间平方距离

  • 显示各类别之间的马氏距离平方
  • 距离越大,表示两类越容易区分
  • 对角线为 0(自身到自身的距离)

组均值与组标准差

  • 显示各特征变量在各类别中的均值和标准差
  • 合并均值和合并标准差:基于所有样本计算

Fisher 线性判别函数系数

  • 显示每个类别的判别函数系数(包括常量和各变量系数)
  • 用于计算新样本的判别得分
  • 样本归属至得分最高的类别

判别分析分类结果

  • 显示误分类样本的详细信息
  • 包括:样本编号、实际类别、预测类别、最小平方距离、预测概率、到各类别的距离、后验概率
  • 帮助识别难以分类的边界样本

正确分类统计

  • 显示各类别的样本数、正确分类数、正确率(%)
  • 总计:总体分类准确率

分类结果混淆矩阵

  • 行表示实际类别,列表示预测类别
  • 主对角线元素为正确分类的样本数
  • 非对角线元素表示误分类情况

详细分类性能指标

  • 召回率(Recall):在所有实际为该类别的样本中,被正确预测的比例(查全率)
  • 精确率(Precision):在所有被预测为该类别的样本中,预测正确的比例(查准率)
  • F1 分数(F1-Score):精确率和召回率的调和平均数,是综合性能的单一指标
  • 支持数(Support):实际属于该类别的样本数量

结果解释

模型整体判别效能

  • 查看总体分类准确率
  • 准确率低(如<60%)可能表明判别效果较差,不建议用于实际分类
  • 查看各类别的正确率,识别判别困难的类别

方法特异性解读

  • 线性判别分析(LDA)假设各类别协方差矩阵相等,判别边界为超平面
  • Fisher 判别函数可用于新样本分类:计算各函数值,归属至得分最高类别
  • 组间平方距离反映类别可分性:距离越大,越易区分;若距离接近 0,说明特征难以分离两类

特征变量贡献分析

  • 可以通过比较组间均值差异与组内标准差来评估特征的判别能力
  • 组间均值差异大 + 组内标准差小 → 判别能力强
  • 若某特征在所有类别中均值相近,则对分类贡献有限

注意事项

异常值敏感

  • 判别分析对异常值敏感
  • 通常需在判别分析前进行数据清洗,以降低异常值的影响

过拟合风险

  • 若特征数接近或超过样本数,QDA 易过拟合,优先考虑 LDA 或降维(如 PCA)
  • LDA 通过合并协方差矩阵减少参数估计,相对更稳健

先验概率

  • 本分析采用等先验概率
  • 若实际类别分布不均(如罕见病),应调整先验以提高准确性

协方差齐性

  • LDA 假设各类别协方差矩阵相等
  • 若协方差差异显著,可考虑二次判别分析(QDA)

应用场景

  • 疾病诊断:根据临床指标区分健康与患病
  • 客户分类:根据消费行为区分客户类型
  • 图像识别:根据像素特征区分图像类别
  • 信用评估:根据财务指标区分信用良好与不良

相关功能

  • 二次判别分析(QDA):不假设协方差齐性的判别分析
  • 主成分分析(PCA):降维后辅助判别分析
  • Logistic 回归:另一种常用的分类方法
  • 聚类分析:无监督的分类方法

二次判别分析(QDA)

二次判别分析(Quadratic Discriminant Analysis, QDA)是LDA的非线性扩展,适用于各类别内部变异结构(协方差)存在显著差异的情形。

核心特点

  • 不要求协方差矩阵相等,每类使用独立的协方差矩阵
  • 判别边界为二次曲面
  • 适用于类别间变异模式差异较大的情况
  • 对样本量要求更高

术语解释

  • 分组变量:表示样本类别的整数编码变量(如1=健康,2=患病),必须为数值型整数
  • 特征变量:用于判别的数值型自变量,将被用于构建判别函数
  • 马氏距离(平方):考虑变量尺度与相关性的多维距离,QDA中用于衡量样本到各类别中心的"统计距离"
  • 广义平方距离:计算公式为 (x - μ_k)^T Σ_k^(-1) (x - μ_k) + ln|Σ_k|,值越小表示样本越可能属于类别k。注意:该距离不对称,仅用于排序,不可解释为传统几何距离

数据处理说明

  • 自动剔除方差小于1e-6的特征(近零方差)
  • QDA模式下,若任意两特征相关系数大于0.95,将提示多重共线性问题
  • QDA要求每类样本数严格大于特征数,否则协方差矩阵无法求逆
  • 默认采用等先验概率(各类别先验概率 = 1/类别数)

应用条件

  • 分组变量为整数编码的分类变量
  • 特征变量为连续型数值变量
  • 每类样本数 > 特征数(否则协方差矩阵奇异)
  • 各类别协方差矩阵存在差异(否则建议使用LDA)

数据输入

  • 选择分类变量:必须是整数编码的类别变量
  • 选择特征变量:选择一个或多个数值型自变量
  • 每行代表一个观测对象
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有分类变量和特征变量

步骤2:选择分析变量

  • 点击"选择分析变量"按钮
  • 选择分类变量(整数编码)
  • 选择特征变量(一个或多个)
  • 点击"确定"关闭变量选择对话框

步骤3:设置选项

  • 点击"设置"按钮
  • 保存预测分组:将模型预测的类别保存到数据表
  • 显示全部结果:显示所有样本的详细分类结果(包括正确和误分类)

步骤4:执行计算

点击"计算二次判别(QDA)"按钮,系统自动进行QDA分析

步骤5:查看结果

  • 查看数据提取结果:显示提取样本数、有效特征数、分组变量、预测变量
  • 查看描述性统计量:显示各变量的样本量、平均数、标准差、中位数、最小值、最大值
  • 查看从广义平方距离到组:显示样本到各类别的距离
  • 查看组均值和组标准差:显示各特征变量在各类别中的均值和标准差
  • 查看判别分析分类结果:显示误分类样本的详细信息
  • 查看正确分类统计:显示各类别的样本数、正确数、正确率
  • 查看分类结果混淆矩阵:行表示实际类别,列表示预测类别
  • 查看详细分类性能指标:显示召回率、精确率、F1分数、支持数

主要结果

数据提取结果

  • 提取样本数:有效参与分析的样本数量
  • 有效特征数:剔除近零方差后剩余的特征数量
  • 分组变量:类别变量名称
  • 预测变量:特征变量名称列表

描述性统计量

显示各特征变量的样本量、平均数、标准差、中位数、最小值、最大值

从广义平方距离到组

  • 显示样本到各类别的广义平方距离
  • 距离越小,表示样本越可能属于该类别
  • 注意:该距离不对称,仅用于排序,不可解释为传统几何距离

组均值和组标准差

  • 显示各特征变量在各类别中的均值和标准差
  • 合并均值和合并标准差:基于所有样本计算

判别分析分类结果

  • 显示误分类样本的详细信息
  • 包括:样本编号、实际类别、预测类别、最小平方距离、预测概率、到各类别的距离、后验概率
  • 帮助识别难以分类的边界样本

正确分类统计

  • 显示各类别的样本数、正确数、正确率(%)
  • 总计:总体分类准确率

分类结果混淆矩阵

  • 行表示实际类别,列表示预测类别
  • 主对角线元素为正确分类的样本数
  • 非对角线元素表示误分类情况

详细分类性能指标

  • 召回率(Recall):在所有实际为该类别的样本中,被正确预测的比例(查全率)
  • 精确率(Precision):在所有被预测为该类别的样本中,预测正确的比例(查准率)
  • F1分数(F1-Score):精确率和召回率的调和平均数,是综合性能的单一指标
  • 支持数(Support):实际属于该类别的样本数量

结果解释

模型整体判别效能

  • 查看总体分类准确率
  • 准确率低(如<60%)可能表明判别效果较差,不建议用于实际分类
  • 查看各类别的正确率,识别判别困难的类别

方法特异性解读

  • 二次判别分析(QDA)允许各类别协方差不同,判别边界为二次曲面,更灵活但需更多样本
  • 广义判别得分(非对称)仅用于辅助理解,实际分类基于样本对所有类别的实时马氏距离
  • QDA对样本量要求高(每类样本数>特征数),否则协方差矩阵可能奇异,导致结果不稳定

特征变量贡献分析

  • 可以通过比较组间均值差异与组内标准差来评估特征的判别能力
  • 组间均值差异大 + 组内标准差小 → 判别能力强
  • 若某特征在所有类别中均值相近,则对分类贡献有限

注意事项

异常值敏感

  • 判别分析对异常值敏感
  • 通常需在判别分析前进行数据清洗,以降低异常值的影响

样本量要求

  • 若特征数接近或超过样本数,QDA易过拟合,优先考虑LDA或降维(如PCA)
  • QDA要求每类样本数严格大于特征数,否则协方差矩阵无法求逆

先验概率

  • 本分析采用等先验概率
  • 若实际类别分布不均(如罕见病),应调整先验以提高准确性

与LDA的选择

  • 若各类别协方差矩阵相似,建议使用LDA(更稳健,需要更少样本)
  • 若各类别协方差矩阵差异显著,使用QDA(更灵活,但需要更多样本)

应用场景

  • 疾病诊断:根据临床指标区分健康与患病(各类别变异模式不同)
  • 客户分类:根据消费行为区分客户类型
  • 图像识别:根据像素特征区分图像类别
  • 信用评估:根据财务指标区分信用良好与不良

相关功能

  • 线性判别分析(LDA):假设协方差矩阵相等的判别分析
  • 主成分分析(PCA):降维后辅助判别分析
  • Logistic回归:另一种常用的分类方法
  • 聚类分析:无监督的分类方法

主成分分析(PCA)

主成分分析(PCA)是一种数据压缩技术,通过线性变换将原始变量转换为少数几个互不相关的主成分(PC),使得前几个主成分能最大程度保留原始数据的方差信息。

核心目标:降维、去噪、可视化,不解释潜在结构

术语解释

  • 主成分:原始变量的线性组合,彼此正交,按解释方差从大到小排序
  • 特征值:反映对应主成分所解释的方差量,≥1常作为保留标准(Kaiser准则)
  • 载荷:原始变量与主成分的相关系数,|载荷| > 0.5表示强贡献
  • 累积贡献率:前k个主成分共同解释的总方差比例,≥70%通常可接受

实际用途

  • 作为新变量输入模型:主成分得分彼此正交,可避免多重共线性,适用于回归、判别分析等
  • 数据可视化:利用前2-3个主成分绘制散点图,观察样本聚类、离群点或分组趋势
  • 构建综合指标:若某主成分由多个同向变量主导(如血压、血糖等),可将其视为综合得分
  • 异常检测:主成分得分极端(如>±3)的样本可能是数据录入错误或真实离群个体,需核查

数据输入

  • 选择分析变量:选择用于主成分分析的连续型变量(至少2个)
  • 每行代表一个观测样本
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有用于分析的连续型变量

步骤2:选择分析变量

  • 勾选需要分析的变量列
  • 至少需要选择2个变量

步骤3:设置选项

  • 点击"主成分设置"按钮
  • 选择主成分数:
    • 自动主成分数:根据Kaiser准则(特征值≥1)自动确定
    • 手动设置主成分数:指定保留的主成分数量
  • 保存主成分得分:将主成分得分保存到数据表
  • 主成分得分表显示全部结果:显示所有样本的主成分得分

步骤4:执行计算

点击"计算"按钮,系统自动进行主成分分析

步骤5:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差等
  • 查看主成分解释方差:显示各主成分的特征值、方差贡献率、累积贡献率
  • 查看主成分载荷矩阵:显示各变量在各主成分上的载荷
  • 查看主成分得分系数:显示计算主成分得分的系数
  • 查看主成分得分(前10个样本):显示样本的主成分得分
  • 查看变量载荷图:可视化变量在主成分空间的位置
  • 查看特征值碎石图:帮助确定主成分数量

主要结果

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数、标准差、中位数、最小值、最大值

主成分解释方差

  • 特征值:各主成分解释的方差量
  • 方差贡献率(%):各主成分解释的方差占总方差的比例
  • 累积贡献率(%):前k个主成分累积解释的方差比例

主成分载荷矩阵

  • 显示各变量在各主成分上的载荷(相关系数)
  • |载荷| > 0.5表示该变量对该主成分有强贡献
  • 主成分关键变量:列出对每个主成分贡献最大的变量

主成分得分系数

  • 用于计算主成分得分的系数
  • 主成分得分 = Σ(变量×系数)

主成分得分

  • 显示各样本在各主成分上的得分
  • 主成分得分均值为0,标准差为1

结果解释

降维效果评估

  • 查看累积贡献率:前k个主成分解释的总方差比例
  • ≥70%通常认为降维效果可接受
  • 若累积贡献率较低,说明信息损失较大,建议谨慎使用

主成分数量确定依据

  • Kaiser准则:保留特征值≥1的主成分
  • 碎石图:观察特征值下降的"肘部"位置
  • 累积贡献率:选择能解释足够方差(如70%)的最少主成分数

各主成分的关键变量解读

  • 查看载荷矩阵中绝对值较大的载荷(>0.5)
  • 根据主导变量的专业意义,为主成分命名
  • 例如:若某主成分由血压、血糖、血脂等变量主导,可命名为"代谢综合征因子"

注意事项

方法局限性

  • 主成分是纯数学变换,不假设潜在结构,其命名需结合领域知识,不可强行赋予理论含义
  • 若研究目标是探索"潜在因子"(如"焦虑""社会经济地位"),应使用因子分析而非主成分分析

数据要求

  • 变量应为连续型或有序分类变量
  • 样本量应足够大(建议样本数≥变量数的5-10倍)
  • 变量间应存在一定相关性(否则PCA无意义)

结果应用

  • 主成分得分可用于后续分析(如回归、聚类)
  • 极端得分样本需核查是否为异常值
  • 主成分的解释需结合专业背景

应用场景

  • 多变量数据降维:减少变量数量,简化数据结构
  • 多重共线性处理:在回归分析前消除变量间的高度相关
  • 数据可视化:将高维数据投影到2-3维空间进行可视化
  • 综合指标构建:将多个相关变量综合为少数几个主成分
  • 异常值检测:识别得分极端的样本

相关功能

  • 因子分析:探索潜在因子结构
  • 聚类分析:基于主成分得分进行样本聚类
  • 回归分析:使用主成分得分作为自变量
  • 判别分析:使用主成分得分进行分类

主成分法因子分析

因子分析(FA)是一种结构探索技术,假设观测变量间的相关性由少数不可观测的公共因子驱动,旨在揭示数据背后的潜在维度。

核心目标:识别潜在结构、简化变量关系、构建理论模型

术语解释

  • 公共因子:影响多个变量的潜在结构(如"焦虑"、"社会经济地位")
  • 公因子方差:变量被公共因子解释的方差比例,>0.4表示拟合良好
  • 载荷:变量与因子的相关性,|载荷| > 0.4通常视为有实际意义
  • 因子旋转(如Varimax):使因子结构更清晰(简单结构),便于命名和解释

提取方法

  • 主成分法:基于相关矩阵的特征分解,适用于初步探索
  • 主轴因子法:迭代估计公因子方差,更严格但计算复杂

旋转方法

  • 无旋转:保留原始因子结构
  • 最大方差法(Varimax):正交旋转,使因子间独立,最常用
  • 四次幂最大法(Quartimax):简化变量结构
  • 等量最大法(Equamax):Varimax和Quartimax的折中

数据输入

  • 选择分析变量:选择用于因子分析的连续型变量(至少3个)
  • 每行代表一个观测样本
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有用于分析的连续型变量

步骤2:选择分析变量

  • 勾选需要分析的变量列
  • 至少需要选择3个变量

步骤3:设置因子分析选项

  • 点击"因子分析设置"按钮
  • 选择因子数:
    • 自动因子数:根据特征值≥1准则自动确定
    • 手动设置因子数:指定提取的因子数量
  • 保存因子得分:将因子得分保存到数据表
  • 因子得分表显示全部结果:显示所有样本的因子得分

步骤4:设置旋转选项

  • 点击"旋转设置"按钮
  • 选择旋转方法(无旋转、Varimax、Quartimax、Equamax)
  • 设置提取迭代次数(默认100)
  • 设置旋转迭代次数(默认100)

步骤5:执行计算

点击"主成分法计算"按钮,系统自动进行因子分析

步骤6:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差、中位数
  • 查看总方差解释:显示各因子的特征值、方差贡献率、累积贡献率
  • 查看公因子方差:显示各变量被公共因子解释的方差比例
  • 查看旋转前后的载荷矩阵:显示各变量在各因子上的载荷
  • 查看因子得分系数矩阵:显示计算因子得分的系数
  • 查看因子得分(前10个样本):显示样本的因子得分
  • 查看统计图表:特征值碎石图、变量载荷图、因子得分描述统计

主要结果

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数、标准差、中位数、最小值、最大值

总方差解释

  • 因子:因子序号
  • 特征值:各因子解释的方差量
  • 方差贡献率(%):各因子解释的方差占总方差的比例
  • 累积贡献率(%):前k个因子累积解释的方差比例
  • 特征值≥1准则保留因子数:根据Kaiser准则确定的因子数
  • 累计解释方差:提取因子解释的总方差比例

公因子方差

  • 初始:所有变量的初始公因子方差均为1
  • 提取:提取因子后各变量的公因子方差
  • >0.4表示拟合良好,<0.4的变量可考虑剔除

载荷矩阵

  • 旋转前的载荷矩阵:原始因子载荷
  • 旋转后的载荷矩阵:经旋转后的因子载荷,结构更清晰
  • |载荷| > 0.4表示该变量对该因子有实际意义
  • 因子关键变量:列出对每个因子贡献最大的变量

因子得分

  • 因子得分系数矩阵:用于计算因子得分的系数
  • 因子得分 = 标准化数据 × 因子得分系数
  • 使用回归法计算因子得分:B = R⁻¹L
  • 因子得分均值为0,标准差为1

结果解释

因子数量确定

  • 查看特征值≥1的因子数(Kaiser准则)
  • 查看碎石图的"肘部"位置
  • 查看累积贡献率(通常≥60%可接受)

因子结构解读

  • 查看旋转后的载荷矩阵
  • 识别每个因子的关键变量(|载荷| > 0.4)
  • 根据关键变量的共同语义为因子命名
  • 例如:若某因子由血压、血糖、血脂等变量主导,可命名为"代谢综合征因子"

模型拟合评估

  • 查看公因子方差:若有变量的提取值<0.4,说明该变量与公共因子关联较弱
  • 查看累计解释方差:若过低(如<50%),可能遗漏重要因子

注意事项

方法局限性

  • 因子是统计构造的潜在变量,其存在需理论支持,不可仅凭数据强行解释
  • 主成分法直接基于相关矩阵特征分解,适用于初步探索
  • 若研究目标是探索"潜在因子",应使用主轴因子法更严格

数据要求

  • 变量应为连续型或有序分类变量
  • 样本量应足够大(建议样本数≥变量数的5-10倍)
  • 变量间应存在一定相关性(否则因子分析无意义)
  • 可通过Bartlett球形检验和KMO检验评估数据适用性

结果应用

  • 因子得分可用于后续分析(如回归、聚类)
  • 因子命名应基于专业知识和理论背景
  • 旋转方法的选择会影响因子结构,建议尝试多种方法

应用场景

  • 心理量表开发:识别潜在心理构念(如焦虑、抑郁)
  • 市场调研:发现消费者行为的潜在驱动因素
  • 变量降维:将多个相关变量简化为少数几个综合因子
  • 理论模型构建:验证变量间的潜在结构关系

相关功能

  • 主成分分析(PCA):数据压缩技术,不假设潜在结构
  • 聚类分析:基于因子得分进行样本聚类
  • 回归分析:使用因子得分作为自变量
  • 相关分析:检查变量间的相关性

主轴因子法因子分析

因子分析(FA)是一种结构探索技术,假设观测变量间的相关性由少数不可观测的公共因子驱动,旨在揭示数据背后的潜在维度。

核心目标:识别潜在结构、简化变量关系、构建理论模型

术语解释

  • 公共因子:影响多个变量的潜在结构(如"焦虑"、"社会经济地位")
  • 公因子方差:变量被公共因子解释的方差比例,>0.4表示拟合良好
  • 载荷:变量与因子的相关性,|载荷| > 0.4通常视为有实际意义
  • 因子旋转(如Varimax):使因子结构更清晰(简单结构),便于命名和解释

提取方法

  • 主轴因子法:通过迭代估计公因子方差,更符合因子分析的理论假设
  • 与主成分法的区别:主轴法专门用于探索潜在结构,而主成分法主要用于数据压缩

数据输入

  • 选择分析变量:选择用于因子分析的连续型变量(至少3个)
  • 每行代表一个观测样本
  • 缺失值会自动排除在计算之外

操作步骤

步骤1:准备数据

在数据区输入观测数据,确保有用于分析的连续型变量

步骤2:选择分析变量

  • 勾选需要分析的变量列
  • 至少需要选择3个变量

步骤3:设置因子分析选项

  • 点击"因子分析设置"按钮
  • 选择因子数:
    • 自动因子数:根据特征值≥1准则自动确定
    • 手动设置因子数:指定提取的因子数量
  • 保存因子得分:将因子得分保存到数据表
  • 因子得分表显示全部结果:显示所有样本的因子得分

步骤4:设置旋转选项

  • 点击"旋转设置"按钮
  • 选择旋转方法(无旋转、Varimax、Quartimax、Equamax)
  • 设置提取迭代次数(默认100)
  • 设置旋转迭代次数(默认100)

步骤5:执行计算

点击"主轴因子法计算"按钮,系统自动进行因子分析

步骤6:查看结果

  • 查看描述性统计量:显示各变量的样本量、平均数、标准差、中位数
  • 查看总方差解释:显示各因子的特征值、方差贡献率、累积贡献率
  • 查看公因子方差:显示各变量被公共因子解释的方差比例
  • 查看旋转前后的载荷矩阵:显示各变量在各因子上的载荷
  • 查看因子得分系数矩阵:显示计算因子得分的系数
  • 查看因子得分(前10个样本):显示样本的因子得分
  • 查看统计图表:特征值碎石图、变量载荷图、因子得分描述统计

主要结果

描述性统计量

  • 样本量:各变量的有效观测数
  • 平均数、标准差、中位数、最小值、最大值

总方差解释

  • 因子:因子序号
  • 特征值:各因子解释的方差量
  • 方差贡献率(%):各因子解释的方差占总方差的比例
  • 累积贡献率(%):前k个因子累积解释的方差比例
  • 特征值≥1准则保留因子数:根据Kaiser准则确定的因子数
  • 累计解释方差:提取因子解释的总方差比例

公因子方差

  • 初始:所有变量的初始公因子方差均为1
  • 提取:提取因子后各变量的公因子方差
  • >0.4表示拟合良好,<0.4的变量可考虑剔除

载荷矩阵

  • 旋转前的载荷矩阵:原始因子载荷
  • 旋转后的载荷矩阵:经旋转后的因子载荷,结构更清晰
  • |载荷| > 0.4表示该变量对该因子有实际意义
  • 因子关键变量:列出对每个因子贡献最大的变量

因子得分

  • 因子得分系数矩阵:用于计算因子得分的系数
  • 因子得分 = 标准化数据 × 因子得分系数
  • 使用回归法计算因子得分:B = R⁻¹L
  • 因子得分均值为0,标准差为1

结果解释

因子数量确定

  • 查看特征值≥1的因子数(Kaiser准则)
  • 查看碎石图的"肘部"位置
  • 查看累积贡献率(通常≥60%可接受)

因子结构解读

  • 查看旋转后的载荷矩阵
  • 识别每个因子的关键变量(|载荷| > 0.4)
  • 根据关键变量的共同语义为因子命名
  • 例如:若某因子由血压、血糖、血脂等变量主导,可命名为"代谢综合征因子"

模型拟合评估

  • 查看公因子方差:若有变量的提取值<0.4,说明该变量与公共因子关联较弱
  • 查看累计解释方差:若过低(如<50%),可能遗漏重要因子

注意事项

方法局限性

  • 因子是统计构造的潜在变量,其存在需理论支持,不可仅凭数据强行解释
  • 主轴因子法通过迭代估计公因子方差,更符合因子分析的理论假设
  • 若研究目标是探索"潜在因子",应使用主轴因子法更严格

数据要求

  • 变量应为连续型或有序分类变量
  • 样本量应足够大(建议样本数≥变量数的5-10倍)
  • 变量间应存在一定相关性(否则因子分析无意义)
  • 可通过Bartlett球形检验和KMO检验评估数据适用性

结果应用

  • 因子得分可用于后续分析(如回归、聚类)
  • 因子命名应基于专业知识和理论背景
  • 旋转方法的选择会影响因子结构,建议尝试多种方法

应用场景

  • 心理量表开发:识别潜在心理构念(如焦虑、抑郁)
  • 市场调研:发现消费者行为的潜在驱动因素
  • 变量降维:将多个相关变量简化为少数几个综合因子
  • 理论模型构建:验证变量间的潜在结构关系

相关功能

  • 主成分分析(PCA):数据压缩技术,不假设潜在结构
  • 聚类分析:基于因子得分进行样本聚类
  • 回归分析:使用因子得分作为自变量
  • 相关分析:检查变量间的相关性

问卷题型设置

问卷题型设置模块用于配置问卷数据的变量类型、计分规则、维度结构和清洗选项,为后续的描述性统计、信效度检验、因子分析等提供标准化数据基础。

题型分类说明

1. 单选题

  • 定义:受访者只能选择一个答案的题目
  • 示例:性别(男/女)、是否吸烟(是/否)、教育程度(小学/初中/高中/大学)
  • 分析方法:频数分析、交叉表分析、卡方检验

2. 多选题

  • 定义:受访者可以选择多个答案的题目
  • 数据录入格式(当前版本支持):
    • 单列录入:每个多选题占用一个变量列
    • 分隔符连接:多个选项使用分隔符连接在同一单元格中
    • 示例:"A┋B┋C"表示选择了 A、B、C 三个选项
    • 示例:"定期免费测量血压、血糖┋健康知识讲座┋组织健身活动"
  • 不支持格式:
    • 不支持 0/1 编码方式(即不支持将一个多选题拆分为多个列,每列代表一个选项)
  • 分析方法:多选题频数分析、响应率分析、交叉分析

3. 数值题

  • 定义:受访者填写具体数值的题目
  • 示例:年龄(岁)、身高(厘米)、月收入(元)
  • 数据编码:直接录入数值
  • 分析方法:描述性统计(均值、标准差等)、相关分析、回归分析

4. 量表题

  • 定义:采用李克特量表等有序等级测量的题目
  • 示例:过去一周,我感到精力充沛(1=从不,2=偶尔,3=有时,4=经常,5=总是)
  • 数据编码:按量表分值录入(如 1-5 分)
  • 分析方法:信度分析、因子分析、均值比较、相关分析

5. 排序题

  • 定义:要求受访者对多个选项进行重要性或偏好排序的题目
  • 数据录入格式:
    • 单列录入:每个排序题占用一个变量列
    • 分隔符连接:多个选项按排序顺序使用分隔符连接
    • 示例:"饮食状况→运动习惯→遗传因素→心理状态→作息规律"
  • 分析方法:平均秩次分析、肯德尔和谐系数

操作步骤

步骤 1:导入数据

  • 点击"文件"→"导入"导入问卷数据文件
  • 支持 Excel(.xlsx)、CSV 等格式
  • 第一行为变量名,第二行起为观测数据

步骤 2:打开题型设置对话框

  • 点击"题型设置"→"设置基础题型"或"设置扩展题型"
  • 系统弹出"将问题加入相应题型"对话框

步骤 3:分配变量到题型

  • 左侧"全部问题"列表显示所有未分类的变量
  • 右侧按题型分组(单选题、多选题、数值题、量表题、排序题)
  • 选中左侧变量,点击右向箭头添加到相应题型
  • 按住 Shift 键点击箭头可全部添加或全部移除变量
  • 右侧选择框内可以拖动排序,调整题目显示顺序

步骤 4:设置分隔符(多选题/排序题)

  • 点击"题型设置"→"多项题分隔符"
  • 输入用于分隔多个选项的符号(如逗号、分号、竖线、顿号)
  • 确保分隔符与数据录入时使用的符号一致
  • 常用分隔符:┋、,、;、、

步骤 5:设置缺失值

  • 点击"题型设置"→"缺失值"
  • 添加系统应识别为缺失的编码(如 99、999、N/A)
  • 系统会在分析时自动排除这些值

步骤 6:确认并应用

  • 检查各题型下的变量分配是否正确
  • 点击"确定"保存设置
  • 设置完成后即可进行相应的统计分析

注意事项

多选题录入限制

  • 当前版本仅支持分隔符方式录入多选题
  • 请勿将一个多选题拆分为多个 0/1 变量列
  • 所有选项必须在同一列中,用分隔符连接

分隔符设置技巧

  • 分隔符应在数据录入前确定,并在整个问卷中保持一致
  • 避免使用可能在答案内容中出现的符号作为分隔符
  • 多选题和排序题可能使用不同的分隔符

数据编码一致性

  • 同一题目的选项应使用相同的编码系统
  • 量表题应保证分值方向一致(或明确标注反向题)
  • 检查是否有前后空格(如" A┋B "应改为"A┋B")

缺失值处理

  • 缺失值编码应在数据收集前确定
  • 避免使用可能在正常答案中出现的数值作为缺失值
  • 常见的缺失值编码:99、999、-999、N/A、NA、空白等

应用场景

  • 健康调查问卷:人口学特征、生活方式、健康状况
  • 满意度调查:服务评价、产品反馈
  • 心理量表:抑郁、焦虑、生活质量评估
  • 市场调研:消费者偏好、购买行为
  • 教育评估:学习效果、教学反馈

相关功能

  • 数据概览:查看数据结构和题型分布
  • 描述性统计:频数表、均值、标准差等
  • 交叉分析:卡方检验、列联表分析
  • 量表信效度分析:Cronbach's α、因子分析

问卷数据概览

问卷数据概览模块用于快速了解问卷数据的整体情况,包括题型分布、数据质量、各题目的回答情况和关键统计指标,为后续深入分析提供数据基础。

使用前提

  • 必须先完成"题型设置",将所有题目正确分类为单选题、多选题、数值题、量表题或排序题
  • 设置题型后,所有计算按钮才会变成可用状态

主要内容

1. 基本信息

  • 总题数:问卷中所有题目的数量
  • 总样本量:有效问卷的数量

2. 题型分布与数据质量

显示各类题型(单选题、多选题、数值题、排序题、量表题)的:

  • 题目数:该题型的题目数量
  • 平均有效回答率:该题型题目的平均有效回答比例
  • 平均缺失率:该题型题目的平均缺失比例

帮助评估数据完整性和质量

3. 关键统计摘要

单选题摘要:

  • 显示每个单选题的最高频选项及占比
  • 快速了解各单选题的主要回答倾向

多选题摘要:

  • 显示每个多选题的最高频选项及选择率
  • 了解多选题中最受欢迎的选项

数值题摘要:

  • 显示每个数值题的平均值和标准差
  • 了解数值型数据的集中趋势和离散程度

量表题摘要:

  • 显示每个量表题的平均值和标准差
  • 了解受访者对量表题的整体态度倾向

排序题摘要:

  • 显示每个排序题的最高频选项
  • 了解受访者的主要排序偏好

操作步骤

步骤1:导入数据

点击"文件"→"导入"导入问卷数据文件

步骤2:设置题型

  • 点击"题型设置"→"设置基础题型"或"设置扩展题型"
  • 将所有题目正确分类为相应的题型
  • 设置完成后,计算按钮将变为可用状态

步骤3:生成数据概览

  • 点击"数据概览"标签页,点击"计算"
  • 系统自动生成问卷数据概览报告

步骤4:查看和分析

  • 查看基本信息,了解问卷规模
  • 检查题型分布与数据质量,评估数据完整性
  • 阅读关键统计摘要,快速了解数据特征

注意事项

数据质量检查

  • 关注平均缺失率,若某题型缺失率较高,需检查数据录入或问卷设计
  • 有效回答率低于95%的题目,建议检查是否存在问题

结果解读

  • 数据概览提供的是描述性统计,不涉及推断性分析
  • 高频选项仅反映样本特征,不代表总体情况
  • 平均值受极端值影响,需结合标准差综合判断

后续分析

  • 数据概览后,可进行综合分析、交叉分析等深入分析
  • 根据数据特征选择合适的统计方法

应用场景

  • 数据清洗后快速了解数据质量
  • 撰写报告前的数据特征描述
  • 向非专业人员展示数据概况
  • 发现数据异常或问题题目

相关功能

  • 综合分析:对各题型进行详细的统计分析
  • 交叉分析:分析不同变量间的关联关系
  • 量表信效度分析:评估量表题的信度和效度
  • 统计图:生成各类统计图表

问卷综合分析

问卷综合分析模块用于对已完成题型设置的问卷数据进行全面的描述性统计分析,包括单选题、多选题、数值题、量表题和排序题的频数分布、百分比、均值、标准差等统计指标。

操作步骤

步骤1:完成题型设置

  • 在进行综合分析前,必须先完成"题型设置"
  • 将所有题目正确分类为单选题、多选题、数值题、量表题或排序题
  • 设置完成后,"计算"按钮将变为可用状态

步骤2:选择要分析的问题

  • 点击"选择要分析的问题"按钮
  • 在对话框中添加需要分析的题目
  • 可以全部选择或部分选择
  • 点击"确定"保存选择

步骤3:执行分析

  • 点击"计算"按钮
  • 系统自动对所有选中的题目进行综合分析
  • 分析过程可能需要几秒至几分钟,取决于题目数量和数据量

步骤4:查看结果

  • 右侧结果区按题目顺序显示各题目的统计分析结果
  • 可以滚动查看不同题目的分析结果
  • 每个题目结果包含表格和统计图表
  • 可点击图表查看大图或导出

结果解释

单选题结果解读

  • 频数:选择该选项的实际人数
  • 百分比(%):选择该选项的人数占总有效样本的百分比
  • 最高频选项:帮助快速识别主流选择
  • 选项过多时(>10)自动禁用饼图,避免图表拥挤

多选题结果解读

  • 选择人数:选择该选项的受访者人数
  • 选择率(%):选择该选项的人数占总样本的百分比
  • 注意:多选题的选择率总和可能超过100%,因为每人可选多项
  • 分隔符提示:确认系统是否正确识别了多选题的分隔符

数值题结果解读

  • 有效样本量:非缺失值的数量,反映数据完整性
  • 平均值:数据的算术平均,反映集中趋势
  • 中位数:数据排序后位于中间位置的值,不受极端值影响
  • 标准差:数据的离散程度,值越大表示数据越分散
  • Q-Q图解读:点越接近对角线,数据越符合正态分布

量表题结果解读

  • 平均值:反映受访者对该题目的整体态度倾向
  • 标准差:反映受访者态度的离散程度,值小说明意见较一致
  • 中位数:反映态度的集中趋势,适用于偏态分布
  • 小提琴图:宽度表示该得分的频数,可直观比较分布形态

排序题结果解读

  • 综合排序:根据总得分从高到低排列,得分越高表示越重要/越受欢迎
  • 排序第1-第N:显示各选项被排在各位置的人数和百分比
  • 总得分计算:得分 = (总选项数 - 排名位置 + 1),累加所有受访者的打分
  • 建议结合各排序位置的分布综合判断,避免仅依赖总得分

注意事项

数据质量检查

  • 确保数据录入准确,无逻辑错误(如年龄超出合理范围)
  • 检查缺失值情况,必要时进行数据清洗或说明
  • 多选题的分隔符设置必须与数据录入时一致
  • 排序题的选项顺序应与问卷设计一致

结果解读原则

  • 百分比应结合样本量解读,小样本的百分比可能不稳定
  • 平均值受极端值影响,需结合中位数和标准差综合判断
  • 排序题的总得分反映综合偏好,但需关注各排序位置的分布
  • 统计显著不等于实际意义显著,需结合专业背景判断

图表使用说明

  • 选项过多时(>10),自动禁用饼图,仅显示柱状图
  • Q-Q图用于检验数据正态性,点越接近直线表示越符合正态分布
  • 小提琴图展示数据分布密度,宽度表示该值的频数
  • 可右键点击图表导出为图片或复制到报告

应用场景

  • 问卷调查数据的初步描述性分析
  • 了解样本的基本特征和分布情况
  • 为后续深入分析(如交叉分析、差异检验)提供基础
  • 撰写调查报告的数据支持和图表素材
  • 向非专业人员展示数据概况

相关功能

  • 题型设置:定义各题目的类型(单选/多选/数值/量表/排序)
  • 数据概览:快速查看数据整体情况和题型分布
  • 交叉分析:分析两个变量间的关联(如性别×满意度)
  • 分层交叉分析:按分层变量进行交叉分析
  • 量表信效度分析:评估量表的可靠性和有效性

问卷交叉表分析

问卷交叉表分析用于探索两个问卷变量之间的关联关系,根据变量类型自动选择合适的统计方法进行分析。

分析类型

1. 单选题 × 单选题

  • 分析两个分类变量之间的关联性
  • 统计方法:Pearson卡方检验
  • 输出结果:
    • 交叉频数表(观察值)
    • 期望频数表
    • 卡方检验结果(卡方值、自由度、P值)
    • 效应量指标(Cramér's V、列联系数)
    • 分组堆积柱状图

2. 单选题 × 数值题

  • 分析分类变量与连续变量之间的差异
  • 统计方法:单因素方差分析(ANOVA)
  • 输出结果:
    • 分组描述性统计(样本量、均值、标准差)
    • 方差分析表(F值、自由度、P值、η²)
    • 事后比较(Bonferroni检验)
    • 分组箱线图

3. 数值题 × 数值题

  • 分析两个连续变量之间的相关性
  • 统计方法:Pearson线性相关分析
  • 输出结果:
    • 相关系数(r)及P值
    • 决定系数(R²)
    • 散点图与回归线
    • 线性回归方程

操作步骤

步骤1:完成题型设置

  • 在进行交叉分析前,必须先完成"题型设置"
  • 将所有题目正确分类为单选题、多选题、数值题、量表题或排序题
  • 设置完成后,计算按钮将变为可用状态

步骤2:选择交叉分析变量

  • 点击"选择交叉分析的问题"按钮
  • 从左侧"全部问题"列表中选择第一个变量
  • 点击右向箭头添加到"第一个交叉分析变量"
  • 从左侧列表中选择第二个变量
  • 点击右向箭头添加到"第二个交叉分析变量"
  • 点击"确定"保存选择

步骤3:执行分析

  • 点击"计算"按钮
  • 系统自动识别变量类型并选择合适的统计方法

步骤4:查看结果

  • 右侧结果区显示详细的统计分析结果
  • 包括统计表格和可视化图表

结果解释

单选题 × 单选题

  • 卡方检验P < 0.05:两个分类变量存在显著关联
  • Cramér's V:衡量关联强度(0-1,值越大关联越强)
  • 观察频数与期望频数的差异反映变量间的关联模式

单选题 × 数值题

  • 方差分析P < 0.05:不同组别在数值变量上存在显著差异
  • η²(Eta平方):效应量,表示组别解释的变异比例
  • Bonferroni检验:确定具体哪些组别之间存在差异
  • 校正显著性标准:α/比较次数

数值题 × 数值题

  • 相关系数r:取值范围[-1, 1],正值表示正相关,负值表示负相关
  • P < 0.05:相关性具有统计学意义
  • 决定系数R²:一个变量可由另一个变量解释的变异比例
  • 回归方程:Y = a + bX,可用于预测

注意事项

卡方检验前提

  • 期望频数<5的格子数不应超过20%
  • 若前提不满足,结果可能不可靠
  • 可考虑合并类别或使用Fisher精确检验

方差分析前提

  • 各组数据应满足正态性和方差齐性
  • 若前提不满足,可考虑非参数检验(如Kruskal-Wallis H检验)

相关分析前提

  • 两变量应近似正态分布且存在线性关系
  • 若存在非线性关系或严重偏态,可考虑Spearman秩相关
  • 相关不等于因果,需谨慎解释

应用场景

  • 探索人口学特征与健康行为的关联
  • 比较不同群体的指标差异
  • 分析变量间的相关关系
  • 验证研究假设

相关功能

  • 分层交叉分析:控制分层变量后进行交叉分析
  • 综合分析:对各题型进行全面的描述性统计
  • 量表信效度分析:评估量表的可靠性和有效性

分层交叉分析

分层交叉分析用于在控制一个或多个分层变量的情况下,分析主分析变量与目标变量的关系。本模块支持两种分析模式:层级汇总模式和多维交叉表模式。

分析模式

1. 层级汇总模式

  • 适用于具有层级结构的数据(如:省→市→县等层级结构)
  • 显示层级汇总行,从最高层级到最低层级逐级展示统计结果
  • 例如:先显示广东省的汇总数据,再显示广东省下各市的汇总数据,最后显示各市下各区县的数据
  • 可选择"仅显示最末级名称",简化显示(如"南山区"而非"广东省/深圳市/南山区")

2. 多维交叉表模式

  • 适用于平行变量的交叉分析(如:性别×吸烟×饮食等)
  • 无汇总行,直接展示多维交叉表
  • 适合分析多个分类变量的组合效应

变量设置

主分析变量

  • 选择单选题、数值题或量表题作为主要分析对象
  • 数值题:计算各层的平均值、标准差、中位数等统计量
  • 单选题/量表题:计算各层的频数分布和百分比

分层变量

  • 仅支持单选题作为分层变量
  • 最多可选择5个分层变量
  • 按层次排列:第一个变量为最高层,最后一个变量为最低层
  • 例如:省(第1层)→市(第2层)→县/区(第3层)

主分层变量(可选)

  • 可选择额外的单选题作为主分层变量
  • 按选项逐个分析:对主分层变量的每个选项分别进行分层交叉分析
  • 例如:选择"性别"作为主分层变量,则分别分析男性和女性的层级数据

操作步骤

步骤1:完成题型设置

  • 在进行分层交叉分析前,必须先完成"题型设置"
  • 将所有题目正确分类为单选题、多选题、数值题、量表题或排序题
  • 设置完成后,计算按钮将变为可用状态

步骤2:选择分析变量

  • 点击"选择分层交叉分析的问题"按钮
  • 选择主分析变量(单选题、数值题或量表题)
  • 选择分层变量(仅单选题,最多5个)
  • 可选:选择主分层变量(仅单选题)
  • 点击"确定"保存选择

步骤3:设置分析模式

  • 点击"设置分层分析模式"按钮
  • 选择分析模式:
    • 层级汇总模式:适用于省→市→县等层级结构,显示层级汇总行
    • 多维交叉表模式:适用于性别×吸烟×饮食等平行变量,无汇总行
  • 勾选"仅显示最末级名称"(仅层级汇总模式):
    • 勾选:仅显示"南山区"
    • 不勾选:显示完整路径"广东省/深圳市/南山区"
  • 点击"确定"保存设置

步骤4:执行分析

  • 点击"计算"按钮
  • 系统自动进行分层交叉分析

步骤5:查看结果

  • 查看层级汇总分析结果表
  • 结果包含:层级组合、样本量、平均值、标准差、中位数、最小值、最大值
  • 层级汇总模式下,结果按层级结构排序(省→市→县)

结果解释

层级汇总模式结果

  • 层级组合:显示当前层级的名称(如"广东省"、"广州市"、"天河区")
  • 样本量:该层级组合下的有效样本数量
  • 平均值:主分析变量的算术平均(仅数值题)
  • 标准差:主分析变量的离散程度(仅数值题)
  • 中位数:主分析变量的中位值(仅数值题)
  • 最小值、最大值:主分析变量的取值范围(仅数值题)

多维交叉表模式结果

  • 显示多个分层变量的交叉组合
  • 每个组合显示主分析变量的统计量
  • 适合比较不同变量组合下的差异

主分层变量结果

  • 若选择了主分层变量,系统会按该变量的每个选项分别输出分析结果
  • 例如:选择"性别"作为主分层变量,则分别输出男性和女性的层级汇总结果
  • 便于比较不同主分层组别的层级差异

注意事项

数据质量

  • 确保分层变量确实具有层级结构(如省→市→县)
  • 检查各层级的样本量,样本量过少的层级结果可能不稳定
  • 注意缺失值处理,系统会自动排除含缺失值的记录

层级结构

  • 层级汇总模式要求分层变量具有明确的层级关系
  • 例如:省(第1层)→市(第2层)→县/区(第3层)
  • 若分层变量无层级关系,建议使用多维交叉表模式

结果解读

  • 层级汇总结果反映各层级的平均水平,不代表个体水平
  • 比较不同层级时,应考虑样本量差异
  • 标准差大表示该层级内个体差异大
  • 中位数比平均值更能反映偏态分布的集中趋势

主分层变量使用

  • 主分层变量用于将数据分为几个大组分别分析
  • 适合比较不同组别(如男/女)在同一层级结构下的差异
  • 注意:主分层变量会增加结果输出量

应用场景

  • 地域分析:省→市→县的层级数据分析
  • 组织架构分析:公司→部门→小组的层级数据分析
  • 教育体系分析:学校→年级→班级的层级数据分析
  • 多维交叉分析:性别×年龄组×收入水平的交叉分析
  • 分组比较:分别分析男性和女性的地域分布特征

相关功能

  • 题型设置:定义各题目的类型
  • 数据概览:快速查看数据整体情况
  • 综合分析:对各题型进行全面的描述性统计
  • 交叉分析:分析两个变量间的关联
  • 量表信效度分析:评估量表的可靠性和有效性

量表信效度分析

量表信效度分析是对Likert量表心理测量学质量的综合检验,既评估其内部一致性(信度),也验证其潜在因子结构(结构效度),为量表的科学使用提供依据。

术语解释

  • 量表题:采用相同评分尺度(如1-5)的多个题项,共同测量同一潜变量(如满意度、焦虑水平)
  • 反向计分:部分题项表述与量表方向相反,需先校正(如"1→5, 2→4")再计算总分
  • Cronbach's α:衡量量表内部一致性的信度指标,α ≥ 0.7通常视为可接受
  • 校正题总相关:某题项与剔除自身后的量表总分的相关系数,>0.3表示题项与量表整体一致性良好
  • 量表合成分数:对完整作答者计算的校正后量表均分,可用于后续交叉分析或预测建模
  • 探索性因子分析(EFA):用于检验量表的结构效度,判断题项是否可归结为一个或多个潜在因子,因子载荷≥0.4通常视为良好
  • 公因子方差(Communality):反映题项被提取的公共因子所解释的比例,≥0.4表示题项与潜在结构关联良好

操作步骤

步骤1:选择量表题

  • 点击"选择分析变量"按钮
  • 从左侧"全部问题"列表中选择属于该量表的题项
  • 点击右向箭头添加到右侧"信效度分析的量表题"列表
  • 点击"确定"保存选择

步骤2:设置量表题属性

  • 点击"量表题设置"按钮
  • 在"设置量表题属性"对话框中:
    • 确认题号、题干是否正确
    • 设置计分方向(正向计分/反向计分)
    • 确认最低分和最高分(如1-5分)
  • 点击"确定"保存设置

步骤3:设置分析选项

  • 点击"选项"按钮
  • 勾选"保存合成量表均分":将计算每个完整作答者的量表均分并保存到新列
  • 点击"确定"保存选项

步骤4:执行分析

  • 点击"计算"按钮
  • 系统自动进行信效度分析

步骤5:查看结果

  • 查看量表数据基础统计(校正后):量表题数、有效样本量
  • 查看各题项描述性统计(经反向计分校正):题号、题干、计分方向、最小值、最大值、均值、标准差
  • 查看信度分析结果:Cronbach's α系数、校正题总相关
  • 查看效度分析结果:KMO值、Bartlett球形检验、因子载荷矩阵、公因子方差

主要结果

量表数据基础统计

  • 量表题数:参与分析的量表题项数量
  • 有效样本量(完整作答):所有量表题均作答的样本数

各题项描述性统计

  • 题号、题干:题项标识和内容
  • 计分方向:正向计分或反向计分
  • 最小值、最大值:题项得分范围
  • 均值、标准差:题项得分的集中趋势和离散程度

信度分析结果

  • Cronbach's α系数:量表内部一致性指标
    • α ≥ 0.9:信度极佳
    • 0.8 ≤ α < 0.9:信度良好
    • 0.7 ≤ α < 0.8:信度可接受
    • α < 0.7:信度不足,需修订量表
  • 校正题总相关:各题项与量表总分的相关
    • >0.5:题项与量表关联很强
    • 0.3-0.5:题项与量表关联良好
    • <0.3:题项可能需要删除或修改

效度分析结果

  • KMO值:取样适切性量数,>0.6表示适合做因子分析
  • Bartlett球形检验:检验变量间是否存在相关性,P<0.05表示适合做因子分析
  • 因子载荷矩阵:各题项在各因子上的载荷,≥0.4表示题项与因子关联良好
  • 公因子方差:各题项被公共因子解释的比例,≥0.4表示题项与潜在结构关联良好

结果解释

信度评估

  • Cronbach's α反映量表内部一致性,值越高表示题项间相关性越强
  • 若删除某题项后α系数显著提高,说明该题项可能不适合纳入量表
  • 校正题总相关<0.3的题项应考虑删除或修改

效度评估

  • KMO>0.6且Bartlett检验显著,说明数据适合做因子分析
  • 因子载荷≥0.4的题项可保留,<0.4的题项应考虑删除
  • 公因子方差<0.4的题项说明其变异大部分未被公共因子解释,应考虑删除
  • 若提取的因子与理论预期一致,说明量表具有良好的结构效度

注意事项

反向计分处理

  • 必须正确识别反向题并在分析前进行校正
  • 反向计分公式:新分值 = (最高分 + 最低分) - 原始分值
  • 例如:5点量表中,1→5, 2→4, 3→3, 4→2, 5→1

样本量要求

  • 信度分析:建议样本量≥100
  • 因子分析:建议样本量≥题项数×5-10
  • 样本量过小可能导致结果不稳定

量表合成分数

  • 仅对完整作答者计算(所有题项均有值)
  • 使用校正后的题项得分计算均值
  • 可用于后续的交叉分析、回归分析等

应用场景

  • 量表开发与修订:评估新量表的信效度
  • 量表质量检验:验证现有量表在特定人群中的适用性
  • 题项筛选:识别并删除质量不佳的题项
  • 结构验证:探索或验证量表的因子结构

相关功能

  • 综合分析:对量表题进行描述性统计
  • 交叉分析:分析量表得分与人口学变量的关系
  • 因子分析:进行更深入的探索性或验证性因子分析

条形图/柱状图

条形图/柱状图用于直观展示分类变量的频数分布或数值变量的统计指标,通过矩形条的长度或高度反映数据大小。

图表类型

1. 简单条形图

  • 展示单个分类变量各水平的频数或百分比
  • 适用于单选题、多选题选项分布展示

2. 分组条形图

  • 展示两个分类变量的交叉分布
  • 适用于比较不同组别间的差异

3. 堆积条形图

  • 展示部分与整体的关系
  • 适用于显示构成比例

4. 均值条形图

  • 展示数值变量在不同分组下的均值
  • 注意:本功能不支持显示误差线

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有分类变量(用于 X 轴标签)和数值变量(用于 Y 轴高度)

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于绘制条形高度的数值变量(如"满意度评分")
    • 标签列(可选):选择用于 X 轴标签的分类变量(如"科室")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"条形图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"各科室患者满意度比较")
    • X 轴标题:输入 X 轴标签(如"科室")
    • Y 轴标题:输入 Y 轴标签(如"满意度评分")
    • 统计图方向:选择纵向(柱状图)或横向(条形图)
    • 图例位置:选择不显示、底部、顶部、左侧、右侧或内部各角落
    • 坐标轴扩展比率:设置坐标轴顶部空白比例(默认 0.1000),避免条形顶部紧贴图表边界,提升可读性
    • 最大小数位:设置数据标签显示的小数位数
    • 显示数据标签:勾选后在条形上显示具体数值
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 显示网格线:勾选后显示背景网格线
    • 是否堆叠:勾选后启用堆积条形图模式
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成条形图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签、图例等文字内容
  • 可以调整颜色、字体、布局等格式
  • 编辑完成后点击"保存"应用修改

结果解释

条形长度/高度

  • 反映该类别的频数、百分比或均值大小
  • 条形越长/越高,表示该类别数值越大

图例

  • 说明不同颜色/图案代表的类别
  • 帮助识别分组变量各水平

注意事项

图表选择

  • 分类变量适合用条形图展示
  • 类别过多时(>10),建议合并或仅显示主要类别
  • 百分比总和应为 100%(简单条形图)

图表美化

  • 标题应简洁明了,反映图表主要内容
  • 坐标轴标签应包含变量名称和单位
  • 颜色搭配应清晰易辨,避免使用过多颜色
  • 图例位置应不影响数据阅读

编辑功能

  • 点击编辑按钮后可修改图表中的文字内容
  • 可以调整字体大小、颜色、对齐方式
  • 可以移动图例、调整坐标轴范围
  • 编辑后的图表可以导出为图片或复制到文档

方向选择

  • 纵向(柱状图):适合类别较少、标签较短的情况
  • 横向(条形图):适合类别较多、标签较长的情况

应用场景

  • 展示人口学特征分布(性别、年龄组、教育程度)
  • 比较不同组间的指标差异
  • 展示问卷各题目的回答分布
  • 展示疾病发病率、患病率等流行病学指标
  • 比较不同治疗方案的效果(如满意度评分)

相关功能

  • 饼图:展示构成比例
  • 直方图:展示连续变量分布
  • 箱线图:展示数据分布和离群值
  • 折线图:展示变化趋势
  • 小提琴图:展示数据分布密度

折线图

折线图用于展示数据随时间或其他连续变量的变化趋势,通过连接数据点的线条直观反映变量的动态变化过程。

图表类型

1. 简单折线图

  • 展示单个变量随时间或有序变量的变化趋势
  • 适用于时间序列数据、治疗前后对比

2. 分组折线图

  • 同时展示多个组别的变化趋势
  • 适用于比较不同组间的变化模式

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有数值变量(用于 Y 轴)和可选的标签列(用于 X 轴)

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于绘制折线的数值变量(如"空腹血糖"、"对照组"、"治疗组")
    • 标签列(可选):选择用于 X 轴标签的变量(如"治疗周数"、"时间点")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"折线图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"新型降糖药物治疗期间空腹血糖变化趋势")
    • X 轴标题:输入 X 轴标签(如"治疗周数")
    • Y 轴标题:输入 Y 轴标签(如"空腹血糖(mmol/L)")
    • 统计图方向:选择纵向或横向
    • 图例位置:选择不显示、底部、顶部、左侧、右侧或内部各角落
    • 坐标轴扩展比率:设置 Y 轴顶部空白比例(默认 0.1000),避免数据点紧贴图表边界
    • 最大小数位:设置数据标签显示的小数位数
    • 显示数据标签:勾选后在数据点上显示具体数值
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 显示网格线:勾选后显示背景网格线
    • 显示数据点:勾选后在折线上显示数据点标记
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成折线图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签、图例等文字内容
  • 可以调整颜色、字体、布局等格式
  • 编辑完成后点击"保存"应用修改

结果解释

折线趋势

  • 上升折线:表示数值随 X 轴变量增加而增加
  • 下降折线:表示数值随 X 轴变量增加而减少
  • 平稳折线:表示数值变化不大

数据点

  • 每个数据点代表一个观测值
  • 数据标签显示具体数值(如勾选)

图例

  • 说明不同颜色/线型代表的组别
  • 帮助识别多个变量的变化趋势

注意事项

图表选择

  • 折线图适用于展示连续变化趋势
  • X 轴变量应为时间或有序变量
  • 数据点不宜过多,否则折线会过于拥挤

图表美化

  • 标题应简洁明了,反映图表主要内容
  • 坐标轴标签应包含变量名称和单位
  • 不同组别的线条应使用不同颜色或线型
  • 图例位置应不影响数据阅读

编辑功能

  • 点击编辑按钮后可修改图表中的文字内容
  • 可以调整字体大小、颜色、对齐方式
  • 可以移动图例、调整坐标轴范围
  • 编辑后的图表可以导出为图片或复制到文档

数据点显示

  • 勾选"显示数据点"可在折线上显示标记
  • 勾选"显示数据标签"可显示具体数值
  • 数据点过多时建议关闭数据标签,避免图表拥挤

应用场景

  • 展示时间序列数据的变化趋势(如体温、血压变化)
  • 比较不同组别的治疗效果(如对照组 vs 治疗组)
  • 展示随访数据的变化(如体重、血糖变化)
  • 展示问卷得分随时间的变化

相关功能

  • 条形图:展示分类变量的分布
  • 箱线图:展示数据分布和离群值
  • 散点图:展示两个连续变量的关系
  • 小提琴图:展示数据分布密度

箱线图

箱线图(Box Plot)用于展示数据的分布特征,包括中位数、四分位数、极值和异常值,特别适用于比较不同组别间的数据分布差异。

箱线图组成

1. 箱体(Box)

  • 箱体下边界:第一四分位数(Q1,25%分位数)
  • 箱体内粗线:中位数(Q2,50%分位数)
  • 箱体上边界:第三四分位数(Q3,75%分位数)
  • 箱体高度:四分位距(IQR = Q3 - Q1)

2. 须线(Whiskers)

  • 上须线:从Q3延伸至最大值(通常为Q3 + 1.5×IQR范围内的最大值)
  • 下须线:从Q1延伸至最小值(通常为Q1 - 1.5×IQR范围内的最小值)

3. 异常值(Outliers)

  • 超出须线范围的点被视为异常值
  • 异常值用单独的点或星号标记

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有数值型变量(用于Y轴)和可选的分组变量(用于X轴)

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于绘制箱线图的数值变量(如"空腹血糖")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"箱线图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"新型降糖药物对空腹血糖水平的影响")
    • X轴标题:输入X轴标签(如"分组")
    • Y轴标题:输入Y轴标签(如"空腹血糖(mmol/L)")
    • 统计图方向:选择纵向或横向
    • 图例位置:选择不显示、底部、顶部、左侧、右侧或内部各角落
    • 坐标轴扩展比率:设置Y轴顶部空白比例(默认 0.1000)
    • 显示数据标签:勾选后显示统计指标
    • 显示网格线:勾选后显示背景网格线
    • 显示提示:勾选后鼠标悬停显示详细信息
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成箱线图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签、图例等文字内容
  • 可以调整颜色、字体、布局等格式
  • 编辑完成后点击"保存"应用修改

结果解释

箱体位置

  • 箱体位置越高,表示该组数据整体水平越高
  • 比较不同组的箱体位置,可判断组间差异

箱体高度

  • 箱体高度(IQR)反映数据的离散程度
  • 箱体越高,表示数据越分散
  • 箱体越低,表示数据越集中

中位数线

  • 中位数线在箱体内的位置反映数据分布的偏态
  • 中位数靠近箱体下边界:数据右偏(正偏)
  • 中位数靠近箱体上边界:数据左偏(负偏)
  • 中位数在箱体中央:数据分布较对称

须线长度

  • 须线长度反映数据的分布范围
  • 上须线长、下须线短:数据右偏
  • 下须线长、上须线短:数据左偏

异常值

  • 异常值可能表示数据录入错误或真实极端值
  • 需要结合专业知识判断异常值的合理性
  • 异常值过多可能影响统计推断的准确性

注意事项

图表选择

  • 箱线图适用于展示连续型数据的分布
  • 特别适合比较多个组别的数据分布
  • 组别过多时(>10),建议合并或仅显示主要组别

数据要求

  • 每组样本量应足够大(建议每组≥5)
  • 样本量过小可能导致箱线图不稳定
  • 箱线图不显示数据的具体分布形态,建议结合直方图或小提琴图使用

应用场景

  • 比较不同治疗组的疗效差异
  • 展示不同人群的指标分布
  • 识别数据中的异常值
  • 比较不同时间点的变化
  • 质量控制中的过程监控

相关功能

  • 条形图:展示分类变量的频数分布
  • 小提琴图:展示数据分布密度
  • 直方图:展示连续变量分布
  • 散点图:展示两个连续变量的关系

小提琴图

小提琴图(Violin Plot)结合了箱线图和核密度图的特点,既能展示数据的分布特征,又能显示数据的密度分布,特别适合比较不同组别间的数据分布形态。

小提琴图组成

1. 小提琴形状

  • 小提琴的宽度:反映该位置数据的密度,越宽表示数据点越多
  • 小提琴的高度:反映数据的取值范围
  • 小提琴的形状:显示数据分布的形态(单峰、双峰、偏态等)

2. 内部箱线图

  • 箱体内粗线:中位数(Q2,50%分位数)
  • 箱体下边界:第一四分位数(Q1,25%分位数)
  • 箱体上边界:第三四分位数(Q3,75%分位数)
  • 须线:显示数据的范围(通常为Q1/Q3 ± 1.5×IQR)

3. 核密度估计

  • 通过核密度估计方法平滑数据分布
  • 带宽参数控制平滑程度

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有数值型变量(用于Y轴)和可选的分组变量(用于X轴)

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于绘制小提琴图的数值变量(如"空腹血糖")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"小提琴图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"新型降糖药物对空腹血糖水平的影响")
    • X轴标题:输入X轴标签(如"分组")
    • Y轴标题:输入Y轴标签(如"空腹血糖(mmol/L)")
    • 统计图方向:选择纵向或横向
    • 图例位置:选择不显示、底部、顶部、左侧、右侧或内部各角落
    • 坐标轴扩展比率:设置Y轴顶部空白比例(默认 0.1000)
    • 显示网格线:勾选后显示背景网格线
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 显示中位数线:勾选后在中位数位置显示横线
    • 附加箱线图:勾选后在小提琴内部显示箱线图
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成小提琴图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签、图例等文字内容
  • 可以调整颜色、字体、布局等格式
  • 编辑完成后点击"保存"应用修改

结果解释

小提琴形状

  • 小提琴越宽的位置,表示该数值范围内的数据点越多
  • 单峰分布:小提琴呈单一凸起
  • 双峰分布:小提琴呈两个凸起
  • 偏态分布:小提琴形状不对称

组间比较

  • 比较不同组小提琴的位置,可判断组间差异
  • 比较不同组小提琴的形状,可判断分布形态差异
  • 比较不同组小提琴的宽度,可判断数据集中程度

内部箱线图

  • 中位数线位置:反映数据的中心位置
  • 箱体高度:反映数据的离散程度
  • 须线长度:反映数据的分布范围

注意事项

图表选择

  • 小提琴图适用于展示连续型数据的分布
  • 特别适合比较多个组别的数据分布形态
  • 组别过多时(>10),建议合并或仅显示主要组别

数据要求

  • 每组样本量应足够大(建议每组≥10)
  • 样本量过小可能导致核密度估计不稳定
  • 小提琴图比箱线图显示更多信息,但需要更多样本

与箱线图对比

  • 小提琴图:显示数据分布密度,适合大样本
  • 箱线图:显示统计指标,适合小样本
  • 可选择在小提琴内部显示箱线图,结合两者优点

应用场景

  • 比较不同治疗组的疗效分布
  • 展示不同人群的指标分布形态
  • 识别数据分布的多峰性
  • 比较不同时间点的分布变化
  • 探索数据的分布特征

相关功能

  • 箱线图:展示数据的统计指标
  • 直方图:展示连续变量分布
  • 条形图:展示分类变量的频数分布
  • 散点图:展示两个连续变量的关系

饼图

饼图用于展示各部分占整体的比例关系,通过扇形面积大小直观反映各类别的占比情况,适用于展示构成比数据。

图表特点

  • 圆形分割:整个圆代表总体(100%),各扇形代表不同类别
  • 比例直观:扇形面积越大,表示该类别占比越高
  • 适用于分类变量:展示各类别在总体中的构成比
  • 类别不宜过多:建议类别数≤10,否则图表过于拥挤

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有分类变量(用于标签)和数值变量(用于占比)
  • 数值变量应为百分比或频数

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于绘制饼图的数值变量(如"占比(%)")
    • 标签列(可选):选择用于显示类别名称的变量(如"合并症类别")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"饼图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"社区高血压患者合并症分布")
    • X轴标题:通常留空(饼图不需要X轴标题)
    • Y轴标题:通常留空(饼图不需要Y轴标题)
    • 数据标签位置:选择标签显示位置
      • 不显示:不显示数据标签
      • 内部:标签显示在扇形内部
      • 外部:标签显示在扇形外部(推荐)
    • 突出显示第几个切片:设置要突出的扇形序号(-1表示不突出)
    • 图例位置:选择图例显示位置(底部、顶部、左侧、右侧)
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 显示中心汇总值:勾选后在饼图中心显示总计值
    • 最大小数位:设置数据标签显示的小数位数
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成饼图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、标签等文字内容
  • 可以调整字体格式
  • 编辑完成后点击"保存"应用修改

结果解释

扇形面积

  • 扇形面积大小反映该类别的占比
  • 面积越大,表示该类别占比越高
  • 所有扇形面积之和为100%

数据标签

  • 显示各类别的具体数值或百分比
  • 外部标签更清晰,适合类别较多的情况
  • 内部标签节省空间,适合类别较少的情况

图例

  • 说明不同颜色代表的类别
  • 帮助识别各扇形对应的类别

突出显示

  • 将指定扇形从饼图中分离出来
  • 用于强调某个重要类别
  • -1表示不突出任何扇形

注意事项

适用场景

  • 适用于展示构成比数据(如市场份额、人口构成)
  • 适合类别数≤10的情况
  • 不适用于展示时间序列数据或趋势
  • 不适用于类别过多的情况

数据要求

  • 数值应为非负数
  • 所有数值之和应为100%(或可转换为百分比)
  • 类别应有明确的名称

应用场景

  • 展示人口构成(如年龄结构、性别比例)
  • 展示市场份额分布
  • 展示疾病构成比(如合并症分布)
  • 展示预算分配比例
  • 展示问卷调查结果分布

相关功能

  • 条形图:展示分类变量的频数分布
  • 折线图:展示变化趋势
  • 环形图:饼图的变体,中间空心
  • 堆积条形图:展示构成比的另一种方式

散点图

散点图用于展示两个连续变量之间的关系,通过点的分布模式直观反映变量间的相关性、趋势和异常值。

图表类型

1. 简单散点图

  • 展示两个连续变量的关系
  • 适用于相关性分析、趋势观察

2. 带回归线的散点图

  • 在散点图基础上添加线性回归线
  • 显示回归方程和相关性趋势

3. 气泡图

  • 用点的大小表示第三个变量
  • 适用于展示三维数据关系

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有两个连续型数值变量

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于X轴和Y轴的两个数值变量
    • 通常X轴为自变量,Y轴为因变量
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"散点图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"2型糖尿病患者HbA1c与空腹血糖的相关性")
    • X轴标题:输入X轴标签(如"糖化血红蛋白 HbA1c(%)")
    • Y轴标题:输入Y轴标签(如"空腹血糖(mmol/L)")
    • 统计图方向:选择纵向或横向
    • 坐标轴扩展比率:设置坐标轴顶部和右侧空白比例(默认 0.1000)
    • 气泡图:勾选后启用气泡图模式,点的大小可表示第三个变量
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 显示网格线:勾选后显示背景网格线
    • 显示回归线:勾选后添加线性回归线和回归方程
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成散点图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签等文字内容
  • 可以调整颜色、字体、布局等格式
  • 编辑完成后点击"保存"应用修改

结果解释

点的分布模式

  • 正相关:点从左下到右上分布,X增加Y也增加
  • 负相关:点从左上到右下分布,X增加Y减少
  • 无相关:点呈随机分布,无明显趋势
  • 非线性关系:点呈曲线分布

回归线

  • 显示线性回归方程(如 y = a + bx)
  • 回归线越陡,相关性越强
  • 点越靠近回归线,拟合越好

异常值

  • 远离主群的点可能为异常值
  • 需要结合专业知识判断是否为数据错误或真实极端值

注意事项

图表选择

  • 散点图适用于两个连续变量的关系展示
  • 数据点过多时(>1000),建议抽样或使用透明度
  • 数据点过少时(<10),相关性判断需谨慎

图表美化

  • 标题应简洁明了,反映图表主要内容
  • 坐标轴标签应包含变量名称和单位
  • 回归线有助于直观判断线性关系
  • 网格线有助于读取具体数值

编辑功能

  • 点击编辑按钮后可修改图表中的文字内容
  • 可以调整字体大小、颜色、对齐方式
  • 可以调整坐标轴范围、刻度
  • 编辑后的图表可以导出为图片或复制到文档

气泡图说明

  • 气泡图需要三个变量:X轴、Y轴、气泡大小
  • 气泡大小反映第三个变量的数值
  • 适用于展示三维数据关系

应用场景

  • 探索两个连续变量的相关性(如身高与体重)
  • 观察变量间的趋势和模式
  • 识别异常值和离群点
  • 回归分析前的数据探索
  • 展示剂量-反应关系

相关功能

  • 条形图:展示分类变量的分布
  • 折线图:展示变化趋势
  • 箱线图:展示数据分布和离群值
  • 相关分析:计算相关系数
  • 线性回归:建立预测模型

热力图

热力图(Heatmap)通过颜色深浅直观展示二维数据矩阵中数值的大小和分布模式,特别适用于展示多组数据间的差异和关联。

应用场景

  • 展示不同组别在多个指标上的差异(如不同年龄组的疾病患病率)
  • 展示基因表达数据
  • 展示相关系数矩阵
  • 展示时间序列数据的变化模式

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要绘图的数据
  • 确保有数值型变量(用于颜色映射)和可选的标签列(用于行标签)
  • 数据应为矩阵格式,行代表样本/组别,列代表变量/指标

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择用于绘制热力图的数值变量(如"高血压"、"糖尿病"等)
    • 标签列(可选):选择用于行标签的变量(如"年龄组")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"热力图选项"对话框中设置:
    • 统计图标题:输入图表主标题(如"不同年龄组常见慢性病患病率热力图(单位:%)")
    • X轴标题:输入X轴标签(如"疾病类型")
    • Y轴标题:输入Y轴标签(如"年龄组")
    • 热力图配色方案:选择颜色映射方案
      • 红黄蓝方案:红色表示高值,蓝色表示低值(推荐)
      • 红绿蓝方案:红色表示高值,蓝色表示低值
      • 彩虹色方案:使用彩虹色谱
      • Viridis科学配色:感知均匀的科学配色(推荐用于印刷)
      • Plasma配色:紫色到黄色的渐变
      • Inferno配色:黑色到红色的渐变
      • Cividis科学配色:色盲友好的科学配色
      • 灰度方案:从白到黑的灰度渐变
      • 黑白方案:黑白二值化
    • 坐标轴扩展比率:设置坐标轴顶部空白比例(默认 0.1000)
    • 最大小数位:设置数据标签显示的小数位数
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 显示数据标签:勾选后在单元格中显示具体数值
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成热力图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签等文字内容
  • 可以调整字体格式
  • 编辑完成后点击"保存"应用修改

结果解释

颜色深浅

  • 颜色越深(如红色),表示该单元格的数值越大
  • 颜色越浅(如蓝色),表示该单元格的数值越小
  • 通过颜色对比可以快速识别高值和低值区域

数据标签

  • 显示每个单元格的具体数值
  • 便于精确读取数据
  • 数据过多时建议关闭数据标签,避免图表拥挤

行和列的模式

  • 观察行的颜色模式,可识别该样本/组别的特征
  • 观察列的颜色模式,可识别该变量/指标的分布
  • 寻找颜色相似的行或列,可发现聚类模式

配色方案选择

红黄蓝方案

  • 红色表示高值,黄色表示中等值,蓝色表示低值
  • 直观易懂,适合大多数场景
  • 适合展示有明确高低之分的数据

科学配色方案(Viridis/Cividis)

  • 感知均匀,颜色变化与数值变化成比例
  • 适合色盲人群阅读
  • 适合印刷和学术论文

灰度方案

  • 黑白灰渐变
  • 适合黑白印刷
  • 对比度可能不如彩色方案

注意事项

数据准备

  • 确保数据为数值型
  • 缺失值会影响可视化效果,建议提前处理
  • 数据量过大时,建议先进行聚类或降维

图表美化

  • 标题应简洁明了,反映图表主要内容
  • 坐标轴标签应清晰可读
  • 选择合适的配色方案,避免颜色过于刺眼
  • 数据标签不宜过多,避免图表拥挤

数据标准化

  • 若各变量量纲差异大,建议先进行标准化
  • 标准化后各变量均值为0,标准差为1
  • 便于比较不同变量间的相对大小

应用场景

  • 展示不同年龄组的疾病患病率
  • 展示不同地区的人口统计指标
  • 展示基因表达数据
  • 展示相关系数矩阵
  • 展示时间序列数据的变化模式

相关功能

  • 条形图:展示单个变量的分布
  • 箱线图:展示数据分布和离群值
  • 聚类分析:对行或列进行聚类
  • 相关分析:计算变量间的相关系数

正态分布图

正态分布图用于检验数据是否服从正态分布,通过直方图、Q-Q图和P-P图等多种可视化方法直观展示数据的分布特征。

图表类型

1. 密度直方图

  • 显示数据的概率密度分布
  • 叠加理论正态分布曲线进行对比
  • Y轴表示概率密度,总面积为1

2. 频数直方图

  • 显示数据在各区间的实际频数
  • Y轴表示频数(计数)
  • 适合展示数据的实际分布情况

3. 频率直方图

  • 显示数据在各区间的相对频率
  • Y轴表示频率(百分比或比例)
  • 所有柱形高度之和为100%

4. Q-Q图(分位数-分位数图)

  • 比较样本分位数与理论正态分位数
  • 若数据服从正态分布,点应大致沿对角线分布
  • X轴:理论正态分位数
  • Y轴:样本分位数

5. P-P图(概率-概率图)

  • 比较样本累积概率与理论正态累积概率
  • 若数据服从正态分布,点应大致沿对角线分布
  • X轴:预期累积概率
  • Y轴:实测累积概率

操作步骤

步骤 1:准备数据

  • 在数据区输入或导入需要检验的连续型数据
  • 确保数据为数值型变量

步骤 2:选择绘图变量

  • 点击"选择变量"按钮
  • 在"选择绘图变量"对话框中:
    • 绘图变量:选择需要检验正态性的数值变量(如"收缩压 (mmHg)")
  • 点击"确定"保存选择

步骤 3:设置图形选项

  • 点击"图形选项"按钮
  • 在"正态分布图选项"对话框中设置:
    • 直方图类型:选择图表类型
      • 密度直方图:显示概率密度,适合与理论曲线对比
      • 频数直方图:显示实际频数
      • 频率直方图:显示相对频率
      • Q-Q图:分位数-分位数图
      • P-P图:概率-概率图
    • 统计图标题:输入图表主标题(如"健康成年男性收缩压测量值")
    • X轴标题:输入X轴标签(如"数值")
    • Y轴标题:输入Y轴标签(如"概率密度"、"频数"等)
    • 图例位置:选择图例显示位置(底部、顶部、左侧、右侧)
    • 最大小数位:设置统计标签显示的小数位数
    • 显示数据标签:勾选后显示均值、标准差、样本数等统计信息
    • 显示网格线:勾选后显示背景网格线
    • 显示提示:勾选后鼠标悬停显示详细信息
    • 附加密度曲线:勾选后在直方图上叠加理论正态分布曲线
  • 点击"确定"保存设置

步骤 4:生成图表

  • 点击"生成正态图"按钮
  • 图表将显示在右侧结果区

步骤 5:编辑图表

  • 点击结果区工具栏的"编辑"按钮
  • 可以修改图表标题、坐标轴标签等文字内容
  • 可以调整字体格式
  • 编辑完成后点击"保存"应用修改

结果解释

直方图解读

  • 观察直方图的形状是否接近钟形(中间高、两边低)
  • 观察直方图是否左右对称
  • 观察理论正态曲线与直方图的拟合程度
  • 拟合越好,数据越接近正态分布

Q-Q图解读

  • 点沿对角线分布:数据服从正态分布
  • 点呈S形曲线:数据存在偏态
  • 点在两端偏离:数据存在厚尾或薄尾
  • 点呈其他模式:数据可能不服从正态分布

P-P图解读

  • 点沿对角线分布:数据服从正态分布
  • 点偏离对角线:数据不服从正态分布
  • P-P图对分布中心的偏离更敏感
  • Q-Q图对分布尾部的偏离更敏感

统计标签

  • 均值:数据的算术平均值
  • 标准差:数据的离散程度
  • 样本数:有效观测值的数量

注意事项

样本量要求

  • 样本量应足够大(建议n≥30)
  • 样本量过小可能导致直方图不稳定
  • 小样本时建议结合Q-Q图或P-P图判断

图表选择

  • 密度直方图:适合与理论分布对比
  • 频数直方图:适合展示实际数据分布
  • 频率直方图:适合比较不同样本量的数据
  • Q-Q图/P-P图:适合精确检验正态性

正态性判断

  • 直方图呈钟形且对称
  • Q-Q图或P-P图的点大致沿对角线分布
  • 建议结合多种图表综合判断
  • 必要时可进行正态性检验(如Shapiro-Wilk检验)

图表美化

  • 标题应简洁明了,反映数据内容
  • 坐标轴标签应包含变量名称和单位
  • 合理设置小数位数,避免过多或过少
  • 网格线有助于读取数值,但不宜过多

应用场景

  • 检验数据是否满足正态分布假设
  • 参数检验前的正态性检验
  • 质量控制中的数据分布分析
  • 展示数据的分布特征

相关功能

  • 条形图:展示分类变量的分布
  • 箱线图:展示数据分布和离群值
  • 小提琴图:展示数据分布密度
  • 描述性统计:计算均值、标准差等指标
  • 正态性检验:进行统计学检验

随机数生成

随机数生成功能模块提供六种常用的概率分布随机数生成方法,用于模拟数据、统计实验和教学演示等场景。

均匀分布随机数

在指定范围内生成服从均匀分布的随机数,每个值在范围内出现的概率相等。

参数说明

  • 数量:生成随机数的个数
  • 最小值:随机数的下限
  • 最大值:随机数的上限
  • 小数位:设置随机数的小数位数
  • 组数:生成数据列的数量

应用场景

  • 模拟均匀分布的数据
  • 随机抽样
  • 蒙特卡洛模拟

正态分布随机数

生成服从正态分布的随机数,数据呈钟形分布,符合中心极限定理。

参数说明

  • 数量:生成随机数的个数
  • 平均数:正态分布的均值μ
  • 标准差:数据的离散程度σ
  • 小数位:设置随机数的小数位数
  • 组数:生成数据列的数量

应用场景

  • 模拟自然现象和测量误差
  • 生成符合正态分布的模拟数据
  • 统计方法的模拟研究

卡方分布随机数

生成服从卡方分布的随机数,常用于假设检验和置信区间估计。

参数说明

  • 数量:生成随机数的个数
  • 自由度:卡方分布的自由度
  • 小数位:设置随机数的小数位数
  • 组数:生成数据列的数量

应用场景

  • 卡方检验的模拟研究
  • 方差分析的模拟
  • 拟合优度检验

t分布随机数

生成服从t分布的随机数,适用于小样本统计推断。

参数说明

  • 数量:生成随机数的个数
  • 自由度:t分布的自由度
  • 小数位:设置随机数的小数位数
  • 组数:生成数据列的数量

应用场景

  • t检验的模拟研究
  • 小样本统计推断
  • 置信区间的模拟

F分布随机数

生成服从F分布的随机数,用于方差分析和方差比较。

参数说明

  • 数量:生成随机数的个数
  • 自由度1:分子自由度
  • 自由度2:分母自由度
  • 小数位:设置随机数的小数位数
  • 组数:生成数据列的数量

应用场景

  • 方差分析的模拟研究
  • 方差齐性检验
  • 回归分析的F检验

Poisson分布随机数

生成服从Poisson分布的随机数,描述单位时间或空间内稀有事件发生次数。

参数说明

  • 数量:生成随机数的个数
  • 平均数:单位时间或空间内事件发生的平均次数λ
  • 小数位:设置随机数的小数位数(通常为0)
  • 组数:生成数据列的数量

应用场景

  • 模拟稀有事件的发生次数
  • 模拟单位时间内的电话呼叫数
  • 模拟单位面积内的缺陷数
  • 模拟疾病发病人数

操作步骤

步骤1:选择分布类型

  • 根据研究目的选择合适的概率分布

步骤2:设置参数

  • 输入相应的分布参数(如均值、标准差、自由度等)
  • 设置生成随机数的数量
  • 设置小数位数和组数

步骤3:执行生成

  • 点击"生成"按钮
  • 系统自动生成指定分布的随机数

步骤4:查看结果

  • 查看生成的随机数列表
  • 可进行描述性统计分析
  • 可导出为Excel、CSV等格式

注意事项

参数设置

  • 确保参数符合分布的基本要求
  • 如标准差应大于0,自由度应为正数

样本量

  • 样本量越大,生成的随机数越接近理论分布
  • 小样本时可能存在抽样误差

随机数种子

  • 每次生成的随机数序列不同
  • 如需重复相同结果,应保存生成的数据

数据导出

  • 生成的随机数可导出用于后续分析
  • 建议及时保存生成的数据

应用场景

  • 研究设计:模拟不同分布的数据
  • 统计教学:演示各种概率分布的特征
  • 方法研究:统计方法的模拟比较
  • 质量控制:蒙特卡洛模拟
  • 风险评估:不确定性分析

相关功能

  • 描述性统计量:查看生成数据的统计特征
  • 频数分布:查看随机数的分布情况
  • 正态分布检验:检验生成数据是否符合正态分布
  • 统计图:绘制直方图、箱线图等