前言
是笔者在学习线性代数时思考了很久的问题,在学习了抽象代数后有了更加深刻的理解。
在阅读此篇文章之前,如果读者是习读工科或未接触过抽象代数的相关概念的人士,那请读者先暂时忘记一切工程数学上线性代数的相关理论,相信在阅读完此篇文章后读者将会以一种新的视角重新认识这门学科
文章从2025/3/8开始撰写,至2025/10/11整理完毕,但笔者并非数学专业的科班学生,因此难免有部分不严谨之处,敬请见谅
向量和线性空间
向量的部分我们不再着重讨论,但需要强调的一点是,我们以后在考虑单个向量时,仍将其视为从起点到终点的有向线段,而在进一步讨论整体空间的问题时,我们只关注向量的终点这个点本身
线性空间(又称向量空间),是由数个向量张成的空间,它的公理化表示是集合
::: align-center
\mathcal{V}=\{a_1\mathbf{x_1}+a_2\mathbf{x_2}+\cdots+a_n\mathbf{x_n}|a_1,a_2,\cdots,a_n\in\mathbb{R}\}
:::
线性空间的基本要求为:
- 存在零向量
- 加法和数乘有定义,即加法公理和标量乘法公理成立
加法公理
- 交换律:v+w=w+v
- 结合律:u+(v+w)=(u+v)+w
- 零向量存在:0_V+v=v
- 负向量存在:\forall u\in V,\exists x\in V,v+x=0_V
标量乘法公理
- 标量乘法结合律:\lambda(\mu v)=(\lambda\mu) v
- 单位元的作用:1v=v
- 标量乘法对加法的分配律:(\lambda+\mu)v=\lambda v+\mu v
- 标量加法对乘法的分配律:\lambda(v+w)=\lambda v+\lambda w
子空间
非常粗略地说,对于线性代数而言,假设我们有一个由向量组成的集合(线性空间)\mathbb{R}^m的子集\mathcal{M},如果对\mathcal{M}中的任意两个向量a,b和标量k\in \mathbb{R},它们的加法和数乘运算封闭(粗略地说,向量进行加法和数乘运算后依然属于此集合),则我们称\mathcal{M}为\mathbb{R}的一个(线性)子空间
易知一个线性空间的子空间应是此线性空间的子集
注意到青色的区域了吗?
基与线性生成、线性独立
在认识了线性空间以后,我们开始考虑如何“描述”这些线性空间,更具体地,我们在考虑如何使用一组不变的“魔数”描述这个线性空间里的所有向量,我们考虑的这一组东西应该具有以下的性质:
- 这一组魔数之间不能被相互表示,否则能被其他魔数相互表示的魔数不应属于魔数
- 这一组魔数应能表示此线性空间内的任何向量
读者在了解相关定义后容易猜到我们描述的概念就是——基,而上面的两个条件就是:
- 基之间相互线性独立
- 基能够线性生成整个向量空间,或这组基是该向量空间的生成序列(Spanning Sequence)
线性独立的概念已经很明确了,对于向量空间\mathcal{V}内的一组向量\{v_1,v_2,\cdots,v_n\},如果方程
::: align-center
\sum_{i=1}^n \lambda_iv_i=0_V
:::
成立当且仅当\lambda_i=0,则向量组v_i线性独立
而要使得\{v_1,v_2,\cdots,v_n\}为\mathcal{V}的生成序列,则需要要求对于\mathcal{V}内的任意向量v,方程
::: align-center
a_1v_1+a_2v_2+\cdots+a_nv_n=v
:::
有解
维度
对于一个线性空间\mathcal{V},它的维度\dim \mathcal{V}被定义为此空间基的数量,也就是基的集合的基数
线性映射和线性映射的表示矩阵
我们先从线性映射开始说起,假如一个映射f
::: align-center
A:\mathbb{R}^n\mapsto \mathbb{R}^m
:::
是线性映射,也就是说,此映射遵循
- 叠加原理:f(x+y)=f(x)+f(y)
- 齐次性:f(\lambda x)=\lambda f(x)
在引入了基这个工具后,我们假设\{e_1,e_2\cdots,e_n\}是\mathbb{R}^n的基,\{f_1,f_2,\cdots,f_m\}是\mathbb{R}^m的基
由于\{e_1,e_2\cdots,e_n\}在A下的像是已知的,故它可以由基\{f_1,f_2,\cdots,f_m\}表示
::: align-center
\left\{\begin{aligned}&A(e_1)=a_{11}f_1+a_{12}f_2+\cdots+a_{1m}f_m\\&A(e_2)=a_{21}f_1+a_{22}f_2+\cdots+a_{2m}f_m\\&\vdots\\&A(e_n)=a_{n1}f_1+a_{n2}f_2+\cdots+a_{nm}f_m\end{aligned}\right .
:::
现在考虑\mathbb{R}^n内的任意一个向量\alpha,考虑它的像A(\alpha)
首先由于\alpha\in\mathbb{R}^n,它可以被基\{e_1,e_2\cdots,e_n\}表示,故有
::: align-center
\alpha=\lambda_1e_1+\lambda_2e_2+\cdots+\lambda_ne_e
:::
请读者记住缩放的标量系数为\lambda_i,现在我们套上A
::: align-center
A(\alpha)=A(\lambda_1e_1+\lambda_2e_2+\cdots+\lambda_ne_e)
:::
此时,由线性映射的线性性和齐次性,可以得到
::: align-center
\begin{aligned}&A(\alpha)=\lambda_1A(e_1)+\lambda A(e_2)+\cdots+\lambda_nA(e_n)\\&=\lambda_1(\sum_{j=1}^ma_{1j}f_j)+\lambda_2(\sum_{j=1}^ma_{2j}f_j)+\cdots+\lambda_n(\sum_{j=1}^ma_{nj}f_j)\\&=(\lambda_1\sum_{j=1}^ma_{1j})f_j+(\lambda_2(\sum_{j=1}^ma_{2j})f_j+\cdots+(\lambda_n(\sum_{j=1}^ma_{nj})f_j\end{aligned}
:::
这表明,A(\alpha)在空间\mathbb{R}^m内使用基\{f_1,f_2,\cdots,f_m\}的表示为
::: align-center
\begin{pmatrix}a_{11}&a_{21}&\cdots&a_{n1}\\a_{12}&a_{22}&\cdots&a_{n2}\\\vdots&\vdots&&\vdots\\a_{1m}&a_{2m}&\cdots&a_{nm}\end{pmatrix}\begin{pmatrix}\lambda_1\\\lambda_2\\\vdots\\\lambda_n\end{pmatrix}
:::
如果我们有A(\alpha)在\mathbb{R}^m内的坐标表示的话(为什么说如果有,请读者思考向量和向量的坐标表示之间的关系,为什么向量一定有坐标表示,向量的坐标表示和向量本身是一个东西吗?见下)
::: align-center
A(\alpha)=\begin{pmatrix}\mu_1\\\mu_2\\\vdots\\\mu_n\end{pmatrix}
:::
而我们如果又得到了\alpha在\mathbb{R}^n的坐标表示,并且其正好等于基前的缩放标量系数时(请读者思考为什么这么“正好”?见下)
::: align-center
\alpha=\begin{pmatrix}\lambda_1\\\lambda_2\\\vdots\\\lambda_n\end{pmatrix}
:::
那么即可画等号
::: align-center
\begin{pmatrix}\mu_1\\\mu_2\\\vdots\\\mu_n\end{pmatrix}=\begin{pmatrix}a_{11}&a_{21}&\cdots&a_{n1}\\a_{12}&a_{22}&\cdots&a_{n2}\\\vdots&\vdots&&\vdots\\a_{1m}&a_{2m}&\cdots&a_{nm}\end{pmatrix}\begin{pmatrix}\lambda_1\\\lambda_2\\\vdots\\\lambda_n\end{pmatrix}
:::
其中等号右边的这个“数表”,我们就把它叫做线性映射A在给定基\{e_1,e_2,\cdots,e_n\}与\{f_1,f_2,\cdots,f_n\}下的表示矩阵,有时又将其写为\mathcal{M}_{\mathcal{\epsilon,F}}(T)由此,我们可以知道
::: align-center
线性映射是个抽象的概念,当我们给定“入口基”和“出口基”时,就可以用矩阵这个具象的工具来操作它。更具体地说,不同的线性空间是抽象的,基也是抽象的,如果基的坐标形式给定后基就是具象的;沟通不同线性空间之间关系的线性映射是抽象的,在坐标形式的基给定时,我们就可以使用矩阵这个具象的工具表示线性映射
:::
在拥有了矩阵这个便捷的工具后,我们研究的任何有关线性映射的问题(例如解线性方程组)均可转化为矩阵上的运算,为我们提供了极大的便利
例如我们以后解线性方程组(例如下面的齐次方程组)
::: align-center
\left\{\begin{matrix}
a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=0\\
a_{21}x_1+a{22}x_2+\cdots+a_{2n}x_n=0\\
\vdots\\
a_{n1}x_1+a_{n2}x_2+\cdots+a_{nn}x_n=0
\end{matrix}\right .
:::
时,便可将它写为矩阵乘法的形式
::: align-center
A\mathbf{x}=0
:::
列空间与零空间
在了解了矩阵这个工具后,我们便可以使用线性空间的知识研究这个“数表”的子空间了
列空间与像集
要解释“列”空间,我们必须要从矩阵的列开始
假设我们的矩阵是
::: align-center
A=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}
:::
其中a_1,a_2,\cdots,a_n是m维列向量
这个矩阵表示着(或我们称这个矩阵诱导了)一个\mathbb{R^n}\mapsto \mathbb{R^m}的线性变换
如果我们寻求这个线性变换的像集\mathcal{R}(A),即\{Ax|x\in \mathbb{R}^n\},展开Ax,我们就会发现
::: align-center
\{Ax|x\in \mathbb{R}^n\}=\{x_1a_1+x_2a_2+\cdots+x_na_n|x\in\mathbb{R}^n\}
:::
即这个线性变换的像集,是此矩阵列向量的线性组合,或者我们称其为列向量的线性生成空间span(a_1,a_2,\cdots,a_n)
所以此矩阵的列空间实际上就是此线性线性映射的像集\mathcal{R}(A)
由映射定义知它是映射陪域\mathbb{R^m}的子空间
几何上,它表示了此线性映射完毕后空间中点所有可能在的区域
橘色区域,便是我们的列空间,容易看出它是整个二维空间\mathbb{R}^2的子空间
零空间与零向量的原像集
在考虑完列空间与像集后,读者可能会想探求一个线性映射的原像集与矩阵的某个空间之间有什么联系,当然,在探索这个联系前我们首先要找到像集中的一个特殊的向量“零向量”
::: align-center
为什么?
:::
因为在上面考虑列空间与像集时,我们考虑的向量x都已经在原像集,而现在我们不知道哪个向量可能在像集,万一找到的是不在像集的向量那我们探讨的问题便失去了意义,但线性映射有的一个好处就是零向量永远在像集,故我们可以探索零向量在线性映射前是什么样子
这相当于寻找一个x满足\{Ax=0^m|x\in \mathbb{R}^n\},即我们在寻找零向量的原像集\mathcal{N}(A)
几何上,它表示在线性映射以后“坍缩”的区域(例如在三维到二维的线性映射,一定有一维坍缩进了原点,我们的零空间在此时就是这个一维的空间,因为坍缩进了原点,故它又叫做“核空间”)
行空间与左零空间
在研究完了列空间与零空间后,我们可能会去研究此线性映射A的矩阵转置后的空间,如下的讨论将尝试在不涉及伴随映射的情况下进行,为此我们将采取线性方程组的概念来加以替代
重新认识线性方程组
如果我们考虑线性方程组
::: align-center
\left\{\begin{matrix}
a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=0\\
a_{21}x_1+a{22}x_2+\cdots+a_{2n}x_n=0\\
\vdots\\
a_{p1}x_1+a_{p2}x_2+\cdots+a_{pn}x_n=0
\end{matrix}\right .
:::
其中p
这意味着此方程组的方程个数小于未知变量个数,这里请读者请先不要考虑有没有唯一解的问题,若我们扩展此方程组
::: align-center
\left\{\begin{matrix}
a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=0\\
a_{21}x_1+a{22}x_2+\cdots+a_{2n}x_n=0\\
\vdots\\
a_{p1}x_1+a_{p2}x_2+\cdots+a_{pn}x_n=0\\
0x_1+0x_2+\cdots+0x_n=0\\
\vdots\\
0x_1+0x_2+\cdots+0x_n=0
\end{matrix}\right .
:::
现在方程的个数等于未知变量的个数了,但我们多扩充的方程,x_i前面的系数全部为零
::: align-center
要是这些行上的a_{ij},都不是零,那该多么的好啊!
:::
但笔者要是说,正是这些行上系数,尤其是这些0们,才是赋予了这个线性方程组多彩生命生命轨迹的功臣呢?
行空间与原像集
很显然,我们矩阵的行向量构成的行空间,就是上述线性方程组的“非零行”,们,它们就像一个围墙,使线性变换前的\mathbf{x}们始终处在这些区域,\mathbf{x}的任意分量与它们的组合都必须满足
::: align-center
\left\{\begin{matrix}
a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=0\\
a_{21}x_1+a{22}x_2+\cdots+a_{2n}x_n=0\\
\vdots\\
a_{n1}x_1+a_{n2}x_2+\cdots+a_{nn}x_n=0
\end{matrix}\right .
:::
未知向量\mathbf{x}的生命,在行空间内是一定的,它们永远不可能逾越这道鸿沟(还记得粉色区域吗?)
容易知道行空间\mathcal{R}(A^T)是原像集\mathbb{R}^n的子空间
左零空间与零向量的像集
但是,向量的生命轨迹并不完全不变的!如果线性方程组方程的个数小于未知量的个数,那么多出“系数为零”的部分,将允许未知向量\mathbf{x}藏匿于它们的“载体”零向量中,保持一丝神秘的色彩,没人知道线性映射完成后空间中的向量,有哪些来自行空间,而哪些来自于这个叫做左零空间的子空间
因为已经有了零空间的动画,读者容易想到倒放便是左零空间中的向量出现的动画
四个空间的关系

::: align-center
正交补:给定\mathbb{R}^n的子空间\mathcal{M},\mathbb{R}^n的子集M^{\perp}:=\{a\in \mathbb{R}^n|a\perp\mathcal{M}\}称为\mathcal{M}的正交补
:::
正交性
- 行空间\mathcal{R}(A^T)和零空间\mathcal{N}(A)在\mathbb{R}^n中互为正交补;列空间\mathcal{R}(A)和左零空间\mathcal{N}(A^T)在\mathbb{R}^m中互为正交补
- A对应的线性映射A: \mathbb{R}^n\mapsto\mathbb{R^m}把\mathcal{N}(A)映射到\{0_m\},把\mathcal{R}(A^T)映射到\mathcal{R}(A)
- A^T对应的线性映射(伴随映射)A^*:\mathbb{R}^m\mapsto \mathbb{R}^n把\mathcal{N}(A^T)映射到\{0_n\},把\mathcal{R}(A)映射到\mathcal{R}(A^T)
为什么?
读者不妨再仔细观察上面的动画(我们以零空间的动画为例,观察行空间和零空间的正交性),回想被压入原点的零空间的向量们,事实上,真正被全部压入原点的,没有一丝分量留下的那些向量们只分布在一条直线上,这条直线和变换后其他向量所在的那条黄色直线有什么关系呢?
注:此处可能有纰漏,因为黄色直线代表的是列空间,受限于技术条件,笔者暂时还未想到该如何可视化这个效果,笔者能趋向于将这个“零空间”理解为变换后缺失的那条“基向量”,而行空间由原来的基向量和变换后缺失的这条基向量张成
映射与伴随映射的叠加
- \mathcal{R}(A^TA)=\mathcal{R}(A^T),\mathcal{N}(A^TA)=\mathcal{N}(A)
- \mathcal{R}(AA^T)=\mathcal{R}(A),\mathcal{N}(AA^T)=\mathcal{N}(A^T)
为什么?
我们知道矩阵的乘法实际上代表着线性映射的叠加,而上面显然是这样,至此,我们终于无法避免地要引入伴随映射的概念,以下是实变函数与泛函分析的内容
::: align-center
伴随映射(欧氏空间):给定欧氏空间\mathcal{U,V},内积分别为<\cdot,\cdot>_{\mathcal{U}},<\cdot,\cdot>_{\mathcal{V}},线性映射f\in Hom(\mathcal{V},\mathcal{U}),g\in Hom(\mathcal{U},\mathcal{V})满足任意x\in\mathcal{U},y\in\mathcal{V},都有
:::
如果我们进一步局限\mathcal{U,V}为实域,我们将得到
::: align-center
当\mathcal{U}=\mathbb{R}^n,\mathcal{V}=\mathbb{R}^m时,由A\in \mathbb{R}^{m\times n}确定的线性映射A:x\mapsto Ax的伴随映射是A^*:y\mapsto A^Ty
:::
读者不要混淆伴随映射与逆映射的概念,线性映射的逆映射是干脆暴力地反转原映射的效果,顺着“回去的路”回到的是出发的地方,而伴随映射是通过内积定义的,它的条件更为宽泛,只要求前后两个空间内进行的内积效果相等

(注:感谢Mark_Ren,此图片来自此视频)
以第一条为例
若我们将目光放在实域,一个线性映射叠加它的伴随映射组成的新映射A^TA(注意方向是从右到左,而不是从左到右,事实上,考虑线性映射施加在向量\mathbf{x}上,那么先施加y=Ax,后施加z=A^Ty,最后得到z),它先将原像集,即行空间映射到像集,即列空间,又将列空间映射到行空间,则\mathcal{R}(A^TA)=\mathcal{R}(A^T),对于零空间,同理(注意这里涉及到了泛函分析,所以表示有些粗糙,如果读着仔细分析可能需要研究对偶空间,它和上面内积定义的联系桥梁是Riesz表示定理)
秩与秩—零化度定理
秩
粗略地说,从线性映射的角度定义,秩应为线性映射列空间的维度,即
::: align-center
rank(A)=\dim\mathcal{R}(A)
:::
又称此时的秩为列秩
因为列空间是线性变换后的像所在的空间,所以研究这个空间的维度可以帮助我们判断这个矩阵所表示的线性映射是否“压缩”了空间,这对于诸如解线性方程组等场景是非常有用的(从这个场景,回忆相关知识,我们可以知道非线性方程组的解是否是唯一确定的,就在于矩阵是否是满秩的,及矩阵是否“压缩”了空间,如果空间被“压缩”了,那么解便是无穷个,而组成解的特解+基础解系中的基础解系部分,就藏在零空间里面)
秩-零化度定理
秩-零化度定理指出
::: align-center
rank(A)+nullity(A)=n
:::
即列空间维度和零空间维度之和等于原像集维度n
粗略地说,线性变换前后的行空间和列空间的维度是相等的,我们改变的只是零空间(零空间中的向量在变换后都坍缩进了原点,变为了零向量,所以维度变为0),而因为行秩等于列秩等于矩阵的秩,我们便可以写出变换前零空间维度和行空间维度的关系,从而得到零空间维度和列空间维度的关系
更多的关系,还请见这张图

使用秩——零化度定理,我们便可以方便快捷的判断诸如线性方程组的解中有几个自由未知量这种问题,因为自由未知量全部分布在零空间,而若我们经过初等行变换后得到系数矩阵的非零行个数为r,又矩阵的有n列,则自由未知量的个数为n-r
一些不等式
设线性映射的表示矩阵为m\times n实矩阵
- rank(A)\le\min\{m,n\}
依笔者的理解,矩阵的秩一定小于等于定义域和陪域的维度,取等号时当且仅当行空间和定义域重合,而列空间和陪域重合 - \max\{rank(A),rank(B)\}\le rank(A,B)\le rank(A)+rank(B)
依笔者的理解,增广的矩阵伴随着列的扩充,它的秩表示的应是两个线性映射的列空间的“并集”的维数,但若我们考虑两个映射列空间“重合”的那一部分,便会有- 前面取等号当且仅当一个线性映射的列空间包含在另一个映射的列空间中
- 后面取等号当且仅当两个线性映射的列空间没有交集(除了零向量)
- rank(A+B)\le rank(A)+rank(B)
依笔者理解,两个线性映射各自的列空间中可能有向量等大反向,因此会造成最终而线性映射的和映射的列空间中,这些向量抵消,从而导致维数的减小,当然,取等号等且仅当两个线性映射的列空间中没有等大反向的向量 - rank(AB)\le\min\{rank(A),rank(B)\}
依笔者的理解,在线性映射B的基础上施加线性映射A,若B的列空间与A的零空间有交集(除了零向量),后施加的A会使整体映射的列空间降维,当然,取等号当且仅当没有交集(除了零向量) - 若A_{m\times n}B_{n\times l}=O,则rank(A)+rank(B)\le n
依笔者的理解,B的列空间是A的零空间的子集,而根据秩—零化度定理A的零空间维数与列空间维数的关系为rank(A)+nullity(A)=n,移项得rank(A)=n-nullity(A)\le n,取等号时当且仅当A的零空间维数为0
单射、满射与双射
在认识了几大子空间和基、维度等定义后我们重新回顾单射、满射与双射
单射
粗略地回顾单射的定义
::: align-center
对于某个映射T,若T(u)=T(v),则u=v
:::
即“One-to-One”,不允许出现“多对一”的关系(典型的例子,x^2在(-\infty,+\infty)时并不是单射)
现在我们来研究当T为线性映射时,单射的表示方式
在T为线性映射时,我们有线性性的性质,故可得
::: align-center
T(u)=T(v)\Rightarrow T(u-v)=0
:::
(由线性映射的表示矩阵的知识,也可以写为Tu=Tv\Rightarrow T(u-v)=0,这时T不再是一个对应关系而是矩阵,前者是抽象的,后者是具象的)
u-v经映射后变为了零向量,可知u-v位于核空间内
::: align-center
u-v\in ker(T)(或u-v\in\mathcal{N}(T))
:::
如果T的核空间内只包含零向量,即ker(T)=\{0\}
则u-v=0\Rightarrow u=v,由单射的定义可得T是单射
反之,若T是单射,有u=v\Rightarrow u-v=0,由u,v的任意性得到u-v也是任意的一个向量,故也可以推得ker(T)=\{0\}
故可知线性映射T为单射的充要条件是ker(T)=\{0\}
满射
要求对于任意的映射
::: align-center
T:\mathbb{R}^n\to \mathbb{R}^m
:::
任意y\in \mathbb{R}^m,一定有x\in \mathbb{R}^n,使得y=T(x)(由线性映射的表示矩阵的知识,也可以写为y=Tx,这时T不再是一个对应关系而是矩阵,前者是抽象的,后者是具象的)
而T(x)在T的像集之中
::: align-center
T(x)\in im(T)(或T(x)\in\mathcal{R}(T))
:::
故可知线性映射T为满射的充要条件是im(T)=\mathbb{R}^m,即值域等于陪域,此时这种线性映射又被称为线性变换
基变换
现在我们来思考一个简单的问题
::: align-center
给定一个在基\epsilon=\{e_1,e_2,\cdots,e_n\}下的线性映射T(入口基为\epsilon,出口基也是\epsilon),如何把它变为在基\mathcal{F}=\{f_1,f_2,\cdots,f_m\}下的线性映射
:::
我们的目标是:已知\mathcal{M}_{\epsilon}(T)(或者写\mathcal{M}_{\epsilon,\epsilon},但是一般不这样写),获得\mathcal{M_{\mathcal{F}}}
我们不妨想象一个更为广泛的场景,加入线性映射T在不同的入口基和出口基下有两种表示\mathcal{M}_{\mathcal{B,C}}和\mathcal{M}_{\mathcal{B',C'}},如何将它们关联起来?
容易想到,按照矩阵的乘法,从右向左依次施加,我们应该有
::: align-center
\mathcal{M}_{\mathcal{B',C'}}=\mathcal{M}_{\mathcal{C,C'}}(Id)\mathcal{M}_{\mathcal{B,C}}(T)\mathcal{M}_{\mathcal{B',B}}(Id)
:::
其中Id是恒等变换(代数上也就是把入口基和出口基之间用恒等式表示)
这样经过\mathcal{B'\rightarrow(B\rightarrow C)\rightarrow C'},我们就完成了转换
而在这里\mathcal{B=C,B'=C'},仅此而已,故可以得到基变换的公式为
::: align-center
\mathcal{M}_{\mathcal{F}}=\mathcal{M}_{\mathcal{\epsilon,F}}(Id)\mathcal{M}_{\mathcal{\epsilon}}(T)\mathcal{M}_{\mathcal{F,\epsilon}}(Id)
:::
举个例子,将在\epsilon\rightarrow \epsilon的线性变换
::: align-center
T\begin{pmatrix}x\\y\end{pmatrix}=\begin{pmatrix}-12x+7y\\-43x+17y\end{pmatrix}
:::
换为\mathcal{F}\rightarrow\mathcal{F}的线性变换,其中\epsilon为标准基,\mathcal{F}为\{\begin{pmatrix}2\\5\end{pmatrix},\begin{pmatrix}1\\3\end{pmatrix}\}
首先我们带入入口基e_1,e_2,“即”\begin{pmatrix}1\\0\end{pmatrix}和\begin{pmatrix}0\\1\end{pmatrix}(请读者思考“即”为什么加引号),分别得到\begin{pmatrix}-12\\-43\end{pmatrix}和\begin{pmatrix}7\\17\end{pmatrix},它们在出口基\epsilon下的表示依然是\begin{pmatrix}-12\\-43\end{pmatrix}和\begin{pmatrix}7\\17\end{pmatrix},故我们将其写入矩阵的列,得到
::: align-center
\mathcal{M}_{\epsilon}(T)=\begin{pmatrix}-12&7\\-43&17\end{pmatrix}
:::
现在思考由\mathcal{F}\rightarrow\mathcal{\epsilon}的恒等变换,\mathcal{F}恒等变换后还是\mathcal{F},用\epsilon表示,则有
::: align-center
\begin{aligned}&f_1=2e_1+5e_2\\&f_2=e_1+3e_2\end{aligned}
:::
将缩放标量因子写入矩阵的列,得到
::: align-center
\mathcal{M}_{\mathcal{F},\epsilon}(Id)=\begin{pmatrix}2&1\\5&3\end{pmatrix}
:::
同样的,反向将e_1,e_2用f_1,f_2表示,解得
::: align-center
\mathcal{M}_{\epsilon,\mathcal{F}}(Id)=\begin{pmatrix}3&-1\\-5&2\end{pmatrix}
:::
由此由矩阵乘法得到所求的映射为
::: align-center
\mathcal{M}_{\mathcal{F}}(T)=\begin{pmatrix}34&19\\-57&29\end{pmatrix}
:::
那么,为什么要特别地举这个入口和出口基是相同的的映射的例子呢?请见下
同构和坐标映射
现在离我们的终极目标还剩最后一块短板没有补齐,那就是
::: align-center
我们缺少向量这个抽象概念与坐标这个具象概念之间的关系
:::
读者已经知道向量可以使用坐标表示,但是使用一个唯一坐标表示的“向量”就一定是我们所要表示的向量吗?只觉得可以是不够的,我们必须建立起向量和一组数字之间的关系,这样我们的最后一块短板就可以补齐,基就可以用坐标表示,而一旦基可以用坐标表示,线性映射也就可以用矩阵表示,我们就得到了处理线性映射这个抽象问题的终极具象方案
同构
首先引出同构的概念
::: align-center
一个双射的线性映射T:V\to W可以称之为同构映射,如此V和W可以称为同构空间
:::
同构揭示了一个概念
::: align-center
只要一个线性映射是双射,即既单射,又满射,它就是一个同构映射
:::
什么是双射?这相当于对应关系T并不改变一对一的对应关系,并且始终保持所有在V的某个向量都一定对应W的一个向量,相当于某种严格的“唯一确定”的关系,但是这并不意味着V和W是相同的,V可以是一个方形的空间,W可以是一个圆形的空间,但是只要它们之间的对应关系T是“唯一确定”的,是什么形状又有什么所谓呢?
::: align-center
为什么圆形空间一定是圆的?只不过是我们将“圆形”和圆这个文字关联了起来!在线性映射上,只不过是由于我们采用的基不同,而怎么沟通不同基的视角下的空间呢?使用线性映射!而这时候的线性映射是“唯一确定”的,也就是同构映射
:::
因为T是“唯一确定”的,所以在V内任意选定一组基,W内任意选定一组基,同构就保证了T一定能建立起两个空间的联系,不管我们怎么选,就好比化学中的同分异构体,结构再怎么变,分子量也都是相等的
几乎可以立即得同构空间的一个重要性质就是两个空间的维度一定相同
坐标映射
现在它终于来了,我们要证明“圆形”可以和文字圆“唯一确定”的关联起来,也就是,我们要证明在给定抽象基\mathcal{B}=\{b_1,b_2,\cdots,b_n\}下将有限维向量[\cdot]的坐标映射到n维有限实数空间,即一组数的映射
::: align-center
[\cdot]_{\mathcal{B}}\to R^n
:::
是一组同构映射,只要证明了此映射是“唯一确定”的,我们便可以建立起向量与坐标之前的桥梁,一切问题将迎刃而解
首先证明此映射是线性映射,如果成功证明后面便可以简化证明双射的步骤
当抽象向量线性叠加或者线性缩放时,对应的坐标也是相互叠加和线性缩放的,故得证
现在在线性映射的前提下证明此映射是双射,使用上一节推出的充要条件。
- 首先证明单射,检查此映射的核空间是否只包含零向量:✓(唯一被全零坐标表示的只有零向量)
- 其次证明双射,由于此映射核空间的维度为0,由秩-零花度定理得到其列空间即像集的维度和陪域的维度相同,因为在线性映射中值域一定是陪域的子空间,而二者的维度相同 ✓
故得证
一些定理、推论及证明
子空间
(1)若X,Y是V的子空间,则X+Y与X\cap Y也是V的子空间
对于X\cap Y,取u,v\in X\cap Y
因为u\in X,v\in X则u+v\in X
因为u\in Y,v\in Y则u+v\in Y
故u+v\in X\cap Y
\lambda u\in X,\lambda u\in V则\lambda u\in X\cap Y
对于X+Y,取u=x_u+y_u\in X+Y,v=x_v+y_v\in X+Y
则u+v=(x_u+x_v)+(y_u+y_v)\in X+Y
\lambda u=\lambda(x_u+y_u)=\lambda x_u+\lambda y_u\in X+Y
生成空间
(1)如果v_1,v_2,\cdots,v_n是V的元素,那么span(v_1,v_2,\cdots,v_n)是V的子空间
- 零向量存在:0_V=\sum0\cdot v_i
- 对加法封闭:设\sum\lambda_i v_i,\sum\mu_i v_i\in span(v_1,v_2,\cdots,v_n),则\sum\lambda_i v_i+\sum\mu_iv_i=\sum(\lambda_i+\mu_i)v_i\in span(v_1,v_2,\cdots,v_n)
- 对数乘封闭:设\sum\lambda_iv_i\in span(v_1,v_2,\cdots,v_n),则\sum(\lambda\lambda_i)v_i\in span(v_1,v_2,\cdots,v_n)
基与维度
(1)如果\{v_1,v_2,\cdots,v_n\}是V的基,则任意在V内的向量v都可被基的线性组合表示,且表示法唯一
假设v有两种表示法v=\sum\lambda_iv_i=\sum\mu_iv_i,移项获得\sum(\lambda_i-\mu_i)v_i=0,因为v_i是V的基,则v_i\ne 0_V,所以只有\lambda_i-\mu_i=0\Rightarrow \lambda_i=\mu_i
(2)假设V=span(u_1,u_2\cdots,u_m),且\{v_1,v_2,\cdots,v_n\}是V内线性独立的一个向量组,则m\ge n
假设m
令A为a_{i,j}组成的m\times n矩阵,因为m
::: align-center
\left\{\begin{aligned}&a_{11}\mu_1+a_{12}\mu_2+\cdots+a_{1,n}\mu_n=0\\&a_{21}\mu_1+a_{22}\mu_2+\cdots+a_{2,n}\mu_n=0\\&\vdots\\&a_{m1}\mu_1+a_{m2}\mu_2+\cdots+a_{m,n}\mu_n=0\end{aligned}\right .(#)
:::
现在考虑式子
::: align-center
\mu_1v_1+\mu_2v_2+\cdots+\mu_nv_n=\sum_{i=1}^n \mu_iv_i
:::
将上方的(*),即v_i=\sum_j a_{i,j}u_j带入,得到
::: align-center
\sum_{i=1}^n \mu_i(\sum_{j=1}^m a_{i,j}u_j)=\sum_{i=1}^n(\sum_{j=1}^m a_{ij}\mu_i)u_j
:::
由(#),得到括号里的项均为0,则v_i\equiv 0,与v_i相互线性独立矛盾,故m\ge n
(3)设\{v_1,v_2,\cdots,v_n\}是V内相互线性独立的向量组,如果u\notin span(v_1,v_2,\cdots,v_n),则向量组\{v_1,v_2,\cdots,v_n,u\}线性无关
即证\lambda_1v_1+\lambda_2v_2+\cdots+\lambda_nv_n+\lambda u=0_V,若\lambda\ne 0,则移项得到
::: align-center
u=\frac{-\lambda_1}{\lambda}v_1+\frac{-\lambda_2}{\lambda}v_2+\cdots\frac{-\lambda_n}{\lambda}
:::
则u\in span(v_1,v_2,\cdots,v_n),与题设矛盾,则\lambda=0,故\lambda_1v_1+\lambda_2v_2+\cdots+\lambda_nv_n+\lambda u=0_V当且仅当\lambda_i=\lambda=0时成立,则向量组\{v_1,v_2,\cdots,v_n,u\}线性无关
(4)线性空间\mathbb{R}^m中,如果n>m,则任意n个向量都线性相关
考虑\mathbb{R}^m中的向量组a_1,a_2,\cdots,a_n,令A=\begin{pmatrix}a_1&a_2&\cdots&a_n\end{pmatrix},则齐次方程组Ax=0有m个方程n个未知数(A是非满秩矩阵),则Ax=0一定有非零解,设其为\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix},则有\begin{pmatrix}a_1&a_2&\cdots&a_n\end{pmatrix}\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix}=0,矩阵乘法得\sum_{i=1}^n x_i a_i=0,即向量组\{a_1,a_2,\cdots,a_n\}线性相关
(5)基存在定理:给定\mathbb{R}^m的子空间\mathcal{M},如果\mathcal{M}\ne \{0\},则\mathcal{M}存在一组基,且基中向量个数不大于m
任取\mathcal{M}中的一个非零向量a_1,如果\mathcal{M}\in span(a_1)则a_1即为\mathcal{M}的一组基,否则\mathcal{M}=span(a_1),则\mathcal{M}内肯定存在一个向量a_2\notin span(a_1),由(3)可知a_1,a_2线性独立,如果\mathcal{M}=span(a_1,a_2)则a_1,a_2即为\mathcal{M}的一组基,否则...
按此类推,整个过程一定会在m步内停止,因为由(4)若n>m任意n个向量之间都线性相关,因此此过程中一定能找到r个向量a_1,a_2,\cdots,a_r,且r\le m,使得\mathcal{M}=span(a_1,a_2,\cdots,a_r)
(6)基扩充定理:设\mathcal{M,N}是\mathbb{R^m}的子空间,且\mathcal{M}\ne\{0\},如果\mathcal{M}\subseteq\mathcal{N},则\mathcal{M}的任意一组基都能扩充为\mathcal{N}的一组基。特别地,当\mathcal{N}=\mathbb{R}^m时,子空间\mathcal{M}的任意一组基都能扩充成\mathbb{R}^m的一组基
设\{a_1,a_2,\cdots,a_r\}是\mathcal{M}的一组基,如果span(a_1,a_2,\cdots,a_r)=\mathcal{N},则其也是\mathcal{N}的一组基,如若不然则必有a_{r+1}\notin span(a_1,a_2,\cdots,a_r),由(3)知\{a_1,a_2,\cdots,a_r,a_{r+1}\}一定线性无关,若span(a_1,a_2,\cdots,a_r,a_{r+1})=\mathcal{N},则其也是\mathcal{N}的一组基,如若不然....以此类推,一定能得到\mathcal{N}的一组基,且基的个数不大于m
(7)维度的“容斥原理”:若X,Y是有限维向量空间V的子空间,由子空间(1)中的推论知X+Y,X\cap Y也是V的子空间,则有
::: align-center
\dim(X+Y)=\dim(X)+\dim(Y)-\dim(X\cap Y)
:::
设\{v_1,v_2,\cdots,v_n\}是X\cap Y的一组基,则\dim(X\cap Y)=n
由(6)扩充得到X的一组基\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m\},则\dim(X)=n+m
扩充得到Y的一组基\{v_1,v_2,\cdots,v_n,w_1,w_2,\cdots,w_k\},则\dim(Y)=n+k
现在考虑向量组\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k\}
对于x\in X,其可以用X的基线性表示:x=a_1v_1+a_2v_2+\cdots,a_nv_n+b_1u_1+b_2u_2+\cdots b_mu_m,即x\in span(v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m)
对于y\in Y,其可以用Y的基线性表示
y=c_1v_1+c_2v_2+\cdots,c_nv_n+d_1w_1+d_2w_2+\cdots d_kw_k,即y\in span(v_1,v_2,\cdots,v_n,w_1,w_2,\cdots,w_k)
现在考虑用(a_1+c_1)v_1+(a_2+c_2)v_2+\cdots+b_1u_1+b_2u_2+\cdots b_mu_m+d_1w_1+\cdots+d_2w_2+\cdots+d_kw_k表示的x+y,其既属于X又属于Y,故其属于X+Y,而其可以被用上面的方式线性表示,故其属于span(v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k)
则span(v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k)\subseteq X+Y
反之考虑p=x_p+y_p\in X+Y,其中x_p\in X,y_p\in Y,则其可以最终被用\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k\}线性表示,则X+Y\subseteq span(v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k)
故X+Y=span(v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k)
现在考虑式子
::: align-center
z=\lambda_1v_1+\lambda_2v_2+\cdots+\lambda_nv_n+\mu_1u_1+\mu_2u_2+\cdots+\mu_mu_m+\gamma_1w_1+\gamma_2w_2+\cdots+r_kw_k
:::
即
::: align-center
z=\sum_{i=1}^n\lambda_iv_i+\sum_{i=1}^m\mu_iu_i+\sum_{i=1}^k\gamma_iw_i(#)
:::
假设其等于0_V,则得到
::: align-center
z=\sum_{i=1}^n\lambda_iv_i+\sum_{i=1}^m\mu_iu_i=-\sum_{i=1}^k\gamma_iw_i(*)
:::
观察上式左侧,因为\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m\}是X的基,所以z\in X,观察右侧,又\{w_1,w_2,\cdots,w_k\}是Y的基的一部分,则z\in Y,故z\in X\cap Y,而\{v_1,v_2,\cdots,v_n\}是X\cap Y的基,所以又有
::: align-center
z=\sum_{i=1}^n\beta_iv_i
:::
所以有
::: align-center
\sum_{i=1}^n\beta_iv_i=-\sum_{i=1}^k\gamma_iw_i\Rightarrow \sum_{i=1}^n\beta_iv_i+\sum_{i=1}^k\gamma_iw_i=0
:::
因为\{v_1,v_2,\cdots,v_n,w_1,w_2,\cdots,w_k\}是Y的基,其不可能有零向量,所以只有可能是\beta_1=\beta_2=\cdots=\beta_n=\gamma_1=\gamma_2=\cdots=\gamma_k=0,紧接着由(*)得到等式右侧为0_V,而左侧\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m\}是X的基,其不可能有零向量,所以只有可能是\lambda_1=\lambda_2=\cdots=\lambda_n=\mu_1=\mu_2=\cdots=\mu_m=0
则(#)式为0_V当且仅当\lambda_1=\lambda_2=\cdots=\lambda_n=\mu_1=\mu_2=\cdots=\mu_m=\gamma_1=\gamma_2=\cdots=\gamma_k=0,即向量组\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k\}线性无关
则\{v_1,v_2,\cdots,v_n,u_1,u_2,\cdots,u_m,w_1,w_2,\cdots,w_k\}是X+Y的一组基,其维度为n+m+k,则n+m+k=\dim(X+Y)=\dim(X)+\dim(Y)-\dim(X\cap Y)=(n+m)+(n+k)-n
后记
我们补全了由抽象代数到线性代数世界的最后一块短板!其他有关特征值和相似的内容请见这篇文章
全部评论 (0)
暂无评论,快来抢沙发吧~