词嵌入：自然语言处理的基石技术

发布于 2026年03月28日 00:00 ·

词嵌入：自然语言处理的基石技术

引言

在人工智能和机器学习的浪潮中，自然语言处理（NLP）作为其中的重要分支，正以前所未有的速度改变着我们的生活。从智能客服到机器翻译，从语音识别到情感分析，NLP技术的广泛应用背后，离不开一个关键技术的支撑——词嵌入（Word Embedding）。本文将深入探讨词嵌入的概念、原理、常见算法以及应用实例，带你领略这一技术的魅力。

1. 词嵌入的基本概念

1.1 什么是词嵌入？

词嵌入是一种将词汇映射到低维连续向量空间的技术。它将离散的词汇符号（如单词）转换为连续的数值向量，使得计算机能够"理解"词汇之间的语义关系。

传统的词表示方法，如独热编码（One-Hot Encoding），虽然简单直观，但存在维度灾难和无法表达词汇间关系的缺点。例如，用100万维的向量表示一个词，且所有词向量之间都是正交的，这显然无法体现"猫"和"狗"、"苹果"和"香蕉"等语义相似性。

词嵌入通过将词汇投射到一个低维连续空间中，解决了这些问题。在这个空间中，相似的词汇在向量空间中也会彼此接近。

1.2 为什么需要词嵌入？

维度压缩：将高维稀疏的独热编码压缩为低维稠密向量
语义表达：能够捕捉词汇间的语义和语法关系
计算效率：低维向量运算更高效，减少内存占用
通用表示：同一向量空间可支持多种NLP任务

2. 词嵌入的核心思想

词嵌入的核心思想是"分布式假设"（Distributional Hypothesis）：具有相似上下文的词汇往往具有相似的语义。

这个假设基于语言学中的观点：出现在相同上下文环境中的词汇往往共享相似的语义特征。例如，"银行"和"贷款"经常出现在类似上下文中，而"河流"和"水"也是如此。

基于这一假设，词嵌入模型通过分析词汇的上下文来学习其向量表示，从而捕捉词汇间的语义关系。

3. 主流词嵌入算法

3.1 Word2Vec

Word2Vec是目前最流行和应用最广泛的词嵌入算法之一，由Google于2013年提出。它包含两种架构：CBOW（Continuous Bag of Words）和Skip-Gram。

CBOW模型

CBOW通过上下文词汇预测目标词汇。例如，给定上下文["the", "cat", "sat"]，预测中心词"sat"。

# 伪代码示例：CBOW训练流程
def traincbow(centerword, contextwords, embeddingdim):
    # 初始化输入层和输出层权重矩阵
    inputweights = np.random.randn(vocabsize, embeddingdim)
    outputweights = np.random.randn(embeddingdim, vocabsize)
    
    # 前向传播
    contextvectors = [inputweights[wordidx] for word in contextwords]
    contextvector = np.mean(contextvectors, axis=0)
    logits = np.dot(contextvector, outputweights)
    probs = softmax(logits)
    
    # 反向传播更新权重
    # ...
    return inputweights, outputweights

Skip-Gram模型

Skip-Gram则相反，通过中心词预测上下文词汇。给定中心词"sat"，预测其上下文["the", "cat"]。

# 伪代码示例：Skip-Gram训练流程
def trainskipgram(centerword, contextwords, embeddingdim):
    # 初始化输入层权重矩阵
    inputweights = np.random.randn(vocabsize, embeddingdim)
    outputweights = np.random.randn(embeddingdim, vocabsize)
    
    # 对于每个上下文词汇进行训练
    for contextword in contextwords:
        centervector = inputweights[centerwordidx]
        logits = np.dot(centervector, outputweights)
        probs = softmax(logits)
        
        # 反向传播更新权重
        # ...
    
    return inputweights, outputweights

Word2Vec的优势在于：

训练效率高，尤其适合大规模语料

能捕捉丰富的语义和语法关系

生成的词向量质量高

3.2 GloVe（Global Vectors for Word Representation）

GloVe是斯坦福大学提出的另一种词嵌入方法，它结合了全局统计信息和局部上下文信息。

与Word2Vec不同，GloVe通过构建词汇共现矩阵并分解该矩阵来学习词向量。它考虑了词汇在整个语料库中的全局共现统计。

# GloVe算法简化版
def trainglove(vocabulary, corpus, embeddingdim):
    # 1. 构建共现矩阵Xij
    X = buildcooccurrencematrix(corpus, vocabulary)
    
    # 2. 定义损失函数
    def lossfunction(wi, bi, wj, bj):
        dotproduct = np.dot(wi + bi, wj + bj)
        logcooccur = np.log(X[i][j])
        return (dotproduct - logcooccur) ** 2
    
    # 3. 优化所有参数
    parameters = optimizeparameters(lossfunction)
    
    return parameters

GloVe的特点：

显式利用了全局共现统计

数学理论基础更完善

在某些任务上表现优于Word2Vec

3.3 FastText

FastText由Facebook开发，是对Word2Vec的重要改进。它不仅考虑整个词汇，还考虑词汇的子结构（n-grams）。

对于词汇"apple"，FastText会考虑其字符级n-grams，如"app", "ppl", "ple"等。这使得它能够更好地处理未登录词（OOV）问题。

# FastText词向量生成示例
def getfasttextvector(word, model):
    # 获取词汇的所有n-grams
    ngrams = getsubwordngrams(word)
    
    # 对所有n-grams的平均向量求平均
    vectors = [model.subwordvectors[n] for n in ngrams if n in model.subwordvectors]
    return np.mean(vectors, axis=0) if vectors else np.zeros(model.vectorsize)

FastText的优势：
更好的处理低频词和未登录词

对拼写错误和形态变化鲁棒

在文本分类等任务上表现优异

4. 词嵌入的语义关系

通过学习得到的词嵌入可以展现丰富的语义关系，这些关系通常遵循一定的几何模式：

4.1 类比关系

词嵌入最著名的特性之一是能够捕捉类比关系。例如，"国王 - 男人 + 女人 ≈ 女王"这样的关系在词向量空间中表现为：

# 向量类比示例
def analogy(a, b, c):
    # a:b :: c:d
    d = c + (b - a)
    return findsimilarword(d)

具体来说：
向量减法：king - man + woman ≈ queen

国家首都：france - paris + tokyo ≈ japan

这种类比能力源于词嵌入学习到的分布式表示，其中语义相似的词汇在向量空间中彼此接近。

4.2 语义距离度量

词嵌入空间中的距离可以反映词汇间的语义相关性。常用的距离度量包括：

余弦相似度：衡量两个向量方向的夹角余弦值

欧氏距离：直接计算向量间的直线距离

import numpy as np
def cosinesimilarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
def euclideandistance(vec1, vec2):
    return np.linalg.norm(vec1 - vec2)

5. 实际应用案例

5.1 文本分类

在文本分类任务中，词嵌入可以显著提高模型性能。以新闻分类为例：

from sklearn.linearmodel import LogisticRegression
from sklearn.metrics import accuracyscore
使用预训练的词嵌入
def texttovector(text, wordvectors, maxlength=100):
    words = text.lower().split()
    vectors = []
    for word in words[:maxlength]:
        if word in wordvectors:
            vectors.append(wordvectors[word])
    
    # 取平均得到文档向量
    return np.mean(vectors, axis=0) if vectors else np.zeros(wordvectors.vectorsize)
训练分类器
classifier = LogisticRegression()
trainvectors = [texttovector(text, wordvectors) for text in traintexts]
testvectors = [texttovector(text, wordvectors) for text in testtexts]
classifier.fit(trainvectors, trainlabels)
predictions = classifier.predict(testvectors)
accuracy = accuracyscore(testlabels, predictions)

5.2 推荐系统

在推荐系统中，词嵌入可以用于内容推荐。例如，通过电影标题和描述的词向量，可以计算电影间的相似度：

```python
def recommendmovies(targetmovie, moviedatabase, wordvectors):
targetvector = texttovector(target_m