25 | PyTorch简介：Tensor和相关运算-NLP入门到实战精讲(上)

当前位置:　首页>> 技术小册>> NLP入门到实战精讲(上)

### 章节 25 | PyTorch简介：Tensor和相关运算

#### 引言

在深度学习领域，PyTorch作为一股不可忽视的力量，以其灵活易用的特性迅速赢得了广大研究者和开发者的青睐。作为本书“NLP入门到实战精讲（上）”的重要组成部分，本章将深入介绍PyTorch的核心概念之一——Tensor（张量），以及基于Tensor的基本运算，为后续章节中的深度学习模型构建与训练奠定坚实基础。

#### 25.1 PyTorch概述

PyTorch是一个开源的机器学习库，专为深度学习应用而设计。它提供了强大的GPU加速能力，同时保持了高度的灵活性和易用性，使得研究人员能够轻松实现复杂的神经网络模型，并进行高效的实验和原型开发。PyTorch的核心优势在于其动态计算图机制，这使得模型的开发和调试过程更加直观和灵活。

#### 25.2 Tensor基础

##### 25.2.1 Tensor的定义

在PyTorch中，Tensor是基本的数据结构，类似于NumPy的ndarray，但Tensor可以在GPU上运行，以加速计算。Tensor可以看作是一个多维数组，用于存储数据，这些数据可以是浮点数、整数等类型，是构建神经网络模型的基本单元。

##### 25.2.2 Tensor的创建

PyTorch提供了多种方式来创建Tensor，包括从已有数据转换、使用随机数生成等。以下是一些常见的Tensor创建方法：

- **从Python列表或NumPy数组创建**：
  ```python
  import torch
  import numpy as np

# 从Python列表创建
  list_tensor = torch.tensor([1, 2, 3])

# 从NumPy数组创建
  np_array = np.array([1, 2, 3])
  np_tensor = torch.tensor(np_array)
  ```

- **使用随机数据创建**：
  ```python
  # 创建形状为(3, 4)的未初始化Tensor
  uninitialized_tensor = torch.empty(3, 4)

# 创建形状为(3, 4)且元素值从均匀分布[0, 1)中随机抽取的Tensor
  random_tensor = torch.rand(3, 4)

# 创建形状为(3, 4)且元素值从标准正态分布中随机抽取的Tensor
  normal_tensor = torch.randn(3, 4)
  ```

##### 25.2.3 Tensor的属性

每个Tensor都包含多个属性，用于描述其形状、数据类型等特性：

- **形状（Shape）**：通过`.shape`属性获取，表示Tensor的维度大小。
- **数据类型（Data Type）**：通过`.dtype`属性获取，如`torch.float32`、`torch.int64`等。
- **设备（Device）**：通过`.device`属性获取，表示Tensor存储在哪个设备上（CPU或GPU）。

#### 25.3 Tensor的相关运算

PyTorch支持丰富的Tensor运算，包括基本的数学运算、线性代数运算、索引与切片等，这些运算为神经网络的构建提供了强大的支持。

##### 25.3.1 基本数学运算

PyTorch中的Tensor支持几乎所有的基本数学运算，如加法、减法、乘法、除法等，这些运算都是逐元素进行的。

```python
a = torch.tensor([1.0, 2.0, 3.0])
b = torch.tensor([4.0, 5.0, 6.0])

# 加法
add_result = a + b

# 逐元素乘法
mul_result = a * b

# 逐元素除法
div_result = a / b

# 幂运算
power_result = a ** 2
```

##### 25.3.2 线性代数运算

PyTorch还提供了丰富的线性代数运算，如矩阵乘法、矩阵求逆、转置等，这些运算在构建神经网络时尤为重要。

```python
A = torch.tensor([[1, 2], [3, 4]])
B = torch.tensor([[5, 6], [7, 8]])

# 矩阵乘法
mm_result = torch.matmul(A, B)

# 转置
transpose_A = A.T

# 矩阵求逆（注意：矩阵必须是可逆的）
inverse_A = torch.inverse(A)  # 假设A是可逆的
```

##### 25.3.3 索引与切片

PyTorch的Tensor支持类似于NumPy的索引与切片操作，允许用户灵活地访问和修改Tensor中的元素。

```python
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# 访问第一行第二列的元素
element = x[0, 1]

# 修改第一行第二列的元素
x[0, 1] = 10

# 切片操作，获取前两行
slice_x = x[:2, :]
```

##### 25.3.4 广播机制

PyTorch中的Tensor运算支持广播（Broadcasting）机制，即当两个Tensor进行运算时，如果它们的形状不完全相同，PyTorch会尝试自动扩展它们的形状，使它们能够进行逐元素的运算。

```python
a = torch.tensor([1.0, 2.0, 3.0])
b = torch.tensor(2.0)  # 这是一个标量，PyTorch会将其扩展为与a形状相同的Tensor

# 广播机制下的加法
broadcast_result = a + b
```

#### 25.4 Tensor与梯度

在深度学习中，梯度的计算是反向传播算法的核心。PyTorch通过自动微分系统（Autograd）实现了对Tensor操作的自动求导，使得梯度计算变得简单高效。

要计算梯度，首先需要设置Tensor的`.requires_grad`属性为`True`，以表明这个Tensor是需要梯度的。然后，在Tensor上执行一系列操作后，通过调用`.backward()`方法，PyTorch会自动计算并存储所有需要梯度的Tensor的梯度。

```python
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x ** 2

# 计算梯度
y.backward(torch.tensor([1.0, 1.0, 1.0]))  # 假设dy/dy为全1

# 访问梯度
print(x.grad)  # 输出：[2., 4., 6.]
```

#### 结语

本章详细介绍了PyTorch中的Tensor基础及其相关运算，包括Tensor的创建、属性、基本数学运算、线性代数运算、索引与切片、广播机制以及Tensor与梯度的关系。这些内容是理解和使用PyTorch进行深度学习开发的基石，为后续章节中神经网络模型的构建与训练打下了坚实的基础。通过本章的学习，读者将能够熟练地使用PyTorch进行Tensor操作，为后续的深度学习实践做好充分准备。

该分类下的相关小册推荐：

AI时代项目经理：ChatGPT与项目经理(下)

NLP入门到实战精讲(中)

深度强化学习--算法原理与金融实践(五)

AI Agent 智能体实战课

NLP自然语言处理

区块链权威指南(下)

AI时代产品经理：ChatGPT与产品经理(下)

AIGC原理与实践：零基础学大语言模型(五)

用ChatGPT轻松玩转机器学习与深度学习

AI时代产品经理：ChatGPT与产品经理(中)

AI时代项目经理：ChatGPT与项目经理(上)

推荐系统概念与原理