准确率：机器学习与数据分析中的核心指标

发布于 2026年03月23日 19:00 ·

准确率：机器学习与数据分析中的核心指标

在机器学习和数据分析领域，准确率（Accuracy）是最基础、最直观的性能评估指标之一。它衡量的是模型预测结果中正确预测的比例，是理解模型表现的第一步。本文将深入探讨准确率的定义、计算方法、适用场景、局限性以及在实际项目中的应用注意事项。

一、准确率的数学定义

准确率是一个简单但强大的统计量，其数学表达式为：

准确率 = (真正例 + 真负例) / 总样本数

用公式表示为：

accuracy = (TP + TN) / (TP + TN + FP + FN)

其中：

TP（True Positive）：真正例 - 模型正确预测为正类的样本数量

TN（True Negative）：真负例 - 模型正确预测为负类的样本数量

FP（False Positive）：假正例 - 模型错误预测为正类的样本数量

FN（False Negative）：假负例 - 模型错误预测为负类的样本数量

二、准确率的计算示例

让我们通过一个简单的分类问题来演示准确率的计算过程：

import numpy as np
假设我们有一个二分类问题的预测结果
ytrue = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]  # 真实标签
ypred = [1, 0, 0, 1, 0, 1, 1, 0, 1, 1]  # 预测标签
def calculateaccuracy(ytrue, ypred):
    """
    计算准确率
    """
    if len(ytrue) != len(ypred):
        raise ValueError("预测值和真实值的长度必须相同")
    
    correct = sum(1 for true, pred in zip(ytrue, ypred) if true == pred)
    accuracy = correct / len(ytrue)
    return accuracy
计算准确率
acc = calculateaccuracy(ytrue, ypred)
print(f"准确率: {acc:.2f} ({acc*100:.1f}%)")
输出混淆矩阵信息
tp = sum(1 for t, p in zip(ytrue, ypred) if t == 1 and p == 1)
tn = sum(1 for t, p in zip(ytrue, ypred) if t == 0 and p == 0)
fp = sum(1 for t, p in zip(ytrue, ypred) if t == 0 and p == 1)
fn = sum(1 for t, p in zip(ytrue, ypred) if t == 1 and p == 0)
print(f"真正例(TP): {tp}")
print(f"真负例(TN): {tn}")
print(f"假正例(FP): {fp}")
print(f"假负例(FN): {fn}")

运行结果：
准确率: 0.70 (70.0%) 真正例(TP): 4 真负例(TN): 3 假正例(FP): 2 假负例(FN): 1

三、准确率的应用场景

1. 平衡数据集
当数据集中各类别样本数量相对均衡时，准确率是一个很好的评估指标。例如：
手写数字识别：10个类别，每个类别大约包含6000个样本

垃圾邮件检测：垃圾邮件和非垃圾邮件各占约50%

医学诊断：健康患者和患病患者的比例接近1:1
在这些情况下，随机猜测的准确率约为50%-90%（取决于类别数量），因此准确率能够有效反映模型的性能提升。
2. 多分类问题
对于多分类问题，准确率的计算方式类似：

from sklearn.metrics import accuracyscore
from sklearn.datasets import loadiris
from sklearn.modelselection import traintestsplit
from sklearn.ensemble import RandomForestClassifier
使用鸢尾花数据集进行多分类
iris = loadiris()
Xtrain, Xtest, ytrain, ytest = traintestsplit(
    iris.data, iris.target, testsize=0.3, randomstate=42
)
model = RandomForestClassifier(nestimators=100, randomstate=42)
model.fit(Xtrain, ytrain)
ypred = model.predict(Xtest)

accuracy = accuracyscore(ytest, ypred)
print(f"鸢尾花分类准确率: {accuracy:.3f}")

四、准确率的局限性

尽管准确率直观易懂，但在某些重要场景下存在明显局限性：

1. 类别不平衡问题

这是准确率最主要的缺陷。考虑一个极端情况：

99%的样本属于类别A
1%的样本属于类别B
模型将所有样本预测为A类

在这种情况下，模型的准确率高达99%，但实际上它对少数类完全没有识别能力！

# 模拟类别不平衡的情况
ytrueimbalanced = [0]  990 + [1]  10  # 99%类别0，1%类别1
ypredallzero = [0] * 1000  # 预测全部为0
acc = calculateaccuracy(ytrueimbalanced, ypredallzero)
print(f"不平衡数据下的准确率: {acc:.3f}")  # 输出: 0.990

2. 代价敏感性问题
在实际应用中，不同错误的代价可能差异巨大：
癌症检测：漏诊（假阴性）比误诊（假阳性）代价更高

欺诈检测：漏掉欺诈交易比误判正常交易代价更高

推荐系统：推荐的无关内容比不推荐相关内容的代价更高
在这些情况下，仅仅关注整体准确率可能掩盖了模型的关键缺陷。
五、改进方案：结合其他评估指标

为了解决准确率的局限性，通常需要结合其他评估指标：

1. 精确率（Precision）和召回率（Recall）
对于不平衡数据集，更合适的指标组合是精确率和召回率：

from sklearn.metrics import precisionscore, recallscore, f1score
precision = precisionscore(ytrue, ypred)
recall = recallscore(ytrue, ypred)
f1 = f1score(ytrue, ypred)

print(f"精确率: {precision:.3f}")
print(f"召回率: {recall:.3f}")
print(f"F1分数: {f1:.3f}")

2. ROC曲线和AUC值
ROC曲线能够展示模型在不同阈值下的性能表现：

from sklearn.metrics import roccurve, auc
import matplotlib.pyplot as plt
假设我们有概率预测结果
yscores = [0.9, 0.8, 0.3, 0.7, 0.2, 0.85, 0.1, 0.4, 0.6, 0.3]
fpr, tpr, thresholds = roccurve(ytrue, yscores)
rocauc = auc(fpr, tpr)

plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {rocauc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

六、实际应用中的最佳实践

1. 根据业务需求选择指标

医疗诊断：优先考虑召回率，确保不遗漏病例
垃圾邮件过滤：优先考虑精确率，避免误杀正常邮件
金融风控：综合考虑精确率和召回率，平衡风险和成本

2. 交叉验证

使用交叉验证来更可靠地评估模型性能：

from sklearn.modelselection import crossvalscore
from sklearn.linearmodel import LogisticRegression
使用5折交叉验证
cvscores = crossvalscore(LogisticRegression(), iris.data, iris.target, cv=5, scoring='accuracy')
print(f"交叉验证准确率: {cvscores.mean():.3f} (+/- {cvscores.std() * 2:.3f})")

3. 混淆矩阵分析
深入分析混淆矩阵可以帮助发现模型的具体问题：

from sklearn.metrics import confusionmatrix
import seaborn as sns
cm = confusionmatrix(ytrue, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix')
plt.ylabel('True Label')
plt.xlabel('Predicted Label')
plt.show()

七、总结

准确率作为机器学习中最基础的性能评估指标，具有以下特点：

✅ 优点：

直观易懂，计算简单

适用于类别分布相对均衡的场景

是多分类问题的好起点

❌ 缺点：

对类别不平衡敏感