最优化

最优化从一组可行点中找到“最佳”解决方案。

一个优化问题的形式是最小化（或最大化）目标函数，受制于约束条件： $$ \begin{array}{ll}\mathrm{Minimize}&f(x) \\ \mathrm{subject~to}&x\in\Omega.\end{array} $$

$x\in\mathbb{R}^n$ 被称为决策变量。
$f$ 被称为目标函数。
$\Omega\subseteq\mathbb{R}^n$ 被称为约束集 / 可行集 / 可行区域。

在不失一般性的情况下，可以假设 $G$ 是对称的：
对于任何 $H\in\mathbb{R}^{n\times n}$ (非对称) 和 $x\in\mathbb{R}^n$，我们有： $$\lbrack x^THx\rbrack_{1\times 1}=\lbrack x^THx\rbrack^T_{1\times 1}=x^TH^Tx$$ 因此： $$x^THx=x^TH^Tx=\frac12x^T(\underbrace{H^T+H}_{\text{对称矩阵 $G$}})x.$$ 对于 $f(x)=\frac12x^TGx+c^Tx+\beta$ 其中 $G\in\mathbb{R}^{n\times n}$ 是对称的, 我们有: $$\nabla f(x)=Gx+c.$$

下确界

$l=\inf S, \inf\emptyset=\infty$
令 $S\subseteq\mathbb{R}$ 为非空集。我们有 $l\in[-\infty, \infty)$ 是 $S$ 的下确界，如果：

对于任意 $s\in S, s \geq l$
对于任意 $\zeta>l(\zeta\in\mathbb{R})$，可以找到 $s\in S$ 使得 $s<\zeta$

下确界是比 $S$ 中所有元素都小的最大数。
将集合的下确界值称为最优值。

范数

常见向量范数

$l_1$ norm: $\vert\vert x\vert\vert_1:=\sum_{i=1}^{n}|x_i|\quad$ (sum of abs value)
$l_2$ norm: $\vert\vert x\vert\vert_2:=\sqrt{\sum_{i=1}^{n}|x_i|^2}\quad$ ($\vert\vert x\vert\vert_2^2=\begin{bmatrix}x1&x2\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=x^Tx$)
$l_\infty$ norm: $\vert\vert x\vert\vert_\infty:=\max_{i\leq i\leq n}|x_i|\quad$ (max abs value)

常见矩阵范数

$\vert\vert A\vert\vert_1=\underbrace{\max_j\sum_{i=1}^{n}|a_{ij}|}_{\text{maximum of the $l_1$ norms of columns}}$

induced matrix norm
$\underset{||x||_1=1}{\max}||Ax||_1$

$\vert\vert A\vert\vert_2=\underbrace{\sqrt{\lambda_{max}(A^TA)}}_{\text{maximum eigenvalue of $A^TA$}}$

induced matrix norm
$\underset{||x||_2=1}{\max}||Ax||_2$

$\vert\vert A\vert\vert_\infty=\underbrace{\max_i\sum_{j=1}^{n}|a_{ij}|}_{\text{maximum of the $l_1$ norms of rows}}$

induced matrix norm
$\max_{\vert\vert x\vert\vert_\infty=1}||Ax||_\infty$

$\vert\vert A\vert\vert_F=\underbrace{\sqrt{\sum_{i=1}^{n}\sum_{j=1}^{n}|a_{ij}|^2}}_{\text{known as the Frobenius norm}}$

对于对称矩阵 A
$$\underset{||x||=1}{\min}x^TAx=\lambda_{\min}(A)$$ $$\underset{||x||=1}{\max}x^TAx=\lambda_{\max}(A)\xlongequal[]{if A\succ0}||A||_2$$

正定矩阵

半正定矩阵

令 $A\in\mathbb{R}^{n\times n}$ 为对阵矩阵，如果对于所有 $x\in\mathbb{R}^{n}$，有 $x^TAx\geq0$，则称 $A$ 为半正定矩阵，记作
$A\succeq0$
Example:
$$A=\left[\begin{matrix}3&1\\1&2\end{matrix}\right]$$ $$x^TAx=\left[\begin{matrix}x1&x2\end{matrix}\right]\left[\begin{matrix}3&1\\1&2\end{matrix}\right]\left[\begin{matrix}x1\\x2\end{matrix}\right]$$ $$=3x_1^2+2x_1x_2+2x_2^2$$ $$=2x_1^2+(x_1+x_2)^2+x_2^2\geq0$$

正定矩阵

令 $A\in\mathbb{R}^{n\times n}$ 为对阵矩阵，如果对于所有 $x\in\mathbb{R}^{n}$\{0}，有 $x^TAx>0$，则称 $A$ 为正定矩阵，记作 $A\succ0$

if $D\succ0$ (正定)
$d=-D\nabla f(x)$ 是一个下降方向

泰勒定理

带余项

假设 $f$ 在包含 $[a,b]$ 的一个开区间上 (n+1) 阶可导。则： $$ f(b) = f(a) + f’(a)(b-a) + \frac{f’’(a)}{2!}(b-a)^2 + \cdots + \frac{f^{(n)}(a)}{n!}(b-a)^n + \frac{f^{(n+1)}(\xi)}{(n+1)!}(b-a)^{n+1} $$ 其中 ${\xi \in (a,b)}$.

高维带余项

令 $f\in C^1(\mathbb{R}^n)$, $x$ 和 $y\in\mathbb{R}^n$。则存在 $\xi\in{(1-s)x+sy:s\in(0,1)}$ 使得 $$f(y)=f(x)+[\nabla f(\xi)]^T(y-x).$$

令 $f\in C^2(\mathbb{R}^n)$, $x$ 和 $y\in\mathbb{R}^n$. 则存在 $\xi\in {(1-s)x + sy : s \in (0,1)}$ 使得 $$f(y) = f(x) + [\nabla f(x)]^T (y - x) + \frac{1}{2}(y - x)^T \nabla^2 f(\xi) (y - x). $$

最后修改于 2023-09-22