Definition. Es seien $E$ und $F$ wiederum Banachräume und $X\subset E$ eine offene Teilmenge. Wir setzen $\mathcal L^0(E,F):=F$ und rekursiv $$\mathcal L^k(E,F):=\mathcal L(E,\mathcal L^{k-1}(E,F)).$$ Es sei $f\colon X\to F$ eine Funktion und $x_0\in X$. Wir setzen $\partial^0f:=f$ und damit $\partial^0f(x_0)\in \mathcal L^0(E,F)$. Für $n\in \mathbb N$ nehmen wir an, $\partial^{n-1}f\colon X\to \mathcal L^{n-1}(E,F)$ sei definiert. Existiert $$\partial^nf(x_0):=\partial \left(\partial^{n-1}f\right)(x_0)\in\mathcal L(E,\mathcal L^{n-1}(E,F))=\mathcal L^n(E,F),$$ so heißt $\partial^nf(x_0)$ die $n$-te Ableitung von $f$ in $x_0$ und $f$ in $x_0$ $n$-mal differenzierbar. Analog nennen wir $f$ auf $X$ $n$-mal differenzierbar, wenn $f$ in allen Punkten $n$-mal differenzierbar ist, und $n$-mal stetig differenzierbar, wenn sie die Funktion $\partial^nf$ stetig ist. Wir bezeichnen mit $\mathcal C^n(X,F)$ die Menge der $n$-mal stetig differenzierbaren Funktionen auf $X$ mit Werten in $F$ und mit $$\mathcal C^\infty(X,F):=\cap_{n\in\mathbb N}\mathcal C^n(X,F)$$ die Menge der unendlich oft stetig differenzierbaren oder kurz glatten Funktionen.
Da die Ableitung linear ist, sind alle Funktionenräume $\mathcal C^n(X,F)$ jeweils Vektorräume über $\mathbb K$.
Definition. Eine $n$-lineare Abbildung $\phi\in\mathcal L^n(E,F)$ heißt symmetrisch, wenn für jede Permutation $\sigma$ von $\{1,\ldots,n\}$ und für jedes $n$-Tupel $(x_1,\ldots,x_n)\in E^n$ gilt $$\phi(x_1,\ldots,x_n)=\sigma^*(\phi)(x_1,\ldots,x_n):=\phi(x_{\sigma(1)},\ldots,x_{\sigma(n)}).$$
Bemerkung. Der Unterraum $\mathcal L^n_{sym}(E,F)\subset \mathcal L^n(E,F)$ symmetrischer $n$-linearer Abbildungen ist ein abgeschlossener Untervektorraum. Jedes $\sigma$ induziert nämlich eine lineare Isometrie $$\sigma^*\colon \mathcal L^n(E,F)\to\mathcal L^n(E,F);\quad \phi\mapsto \sigma^*(\phi).$$ Der Raum $\mathcal L^n_{sym}(E,F)$ ist der Durchschnitt $$\cap_{\sigma\in S_n}\ker(\mathrm{id}-\sigma^*)$$ der jeweils abgeschlossenen Kerne der stetigen linearen Abbildungen $\mathrm{id}-\sigma^*\colon \mathcal L^n(E,F)\to \mathcal L^n(E,F)$.
6.4.5. Satz von Schwarz. Ist $f\in \mathcal C^2(X,F)$, so ist $\partial^2f(x)\in \mathcal L^2_{sym}(E,F).$ Insbesondere gilt für alle $v,w\in E$ und alle $x\in X$ $$D_vD_wf(x)=D_wD_vf(x).$$
Beweis. Es sei $r\gt 0$ gegeben, so dass die $2r$-Umgebung $U_{2r}(x)$ noch ganz in $X$ enthalten ist. Wegen der Linearität der Ableitung gilt für die Richtungsableitungen $D_{\lambda v}f(x)=\lambda D_vf(x)$ für $\lambda\in \mathbb K$. Wir können also $\|v\|\lt r$ und $\|w\|\lt r$ annehmen. Somit spannen die vier Punkte $x$, $x+v$, $x+w$ und $x+v+w$ ein konvexes Parallelogramm in $E$ auf, welches ganz in $X$ enthalten ist. Das zentrale Argument des Beweises ist, dass sich die Hintereinanderausführung der beiden Richtungsableitungen als Grenzwert $$D_vD_w f(x) =\lim_{(s,t)\to 0}\frac{f(x+sv+tw)-f(x+sv)-f(x+tw)+f(x)}{st}$$ berechnen lässt. Da in der Formel auf der rechten Seite der Gleichung die beiden Terme $v$ und $w$ vertauscht werden können, ohne den Grenzwert zu verändern, muss das auch für die linke Seite gelten.
Wir wenden dazu zweimal den Mittelwertsatz an. Zuerst auf die Funktion $$\phi(s)=f(x+tv+sw)-f(x+sw)-stD_vD_wf(x).$$ Wir erhalten $$\frac{\|\phi(s)-\phi(0)\|}s\le \sup_{0\le\sigma\le s}\|\phi'(\sigma)\|= \sup_{0\le\sigma\le s}\|D_wf(x+t v+\sigma w)-D_wf(x+\sigma w)-tD_vD_wf(x)\|.$$ Angewandt auf die Funktion $$\psi_\sigma(t)=D_vf(x+t v+\sigma w)-tD_vD_wf(x)$$ liefert der Mittelwertsatz die Ungleichung $$
\frac{\|\psi_\sigma(t)-\psi_\sigma(0)\|}t\le \sup_{0\le\tau\le t}\|\psi_\sigma'(\tau)\|=\sup_{0\le\tau\le t}\|D_vD_wf(x+\tau v+\sigma w)-D_vD_wf(x)\|.$$ Fassen wir die Abschätzungen zusammen, so erhalten wir für den Term $$\left\|\frac{f(x+sv+tw)-f(x+sv)-f(x+tw)+f(x)}{st}-D_vD_wf(x)\right\|= \frac{\|\phi(s)-\phi(0)\|}{st}$$ die Abschätzung
\begin{aligned}\frac{\|\phi(s)-\phi(0)\|}{st} &\le \sup_{0\le\sigma\le s}\frac{\|\psi_\sigma(t)-\psi_\sigma(0)\|}t\\
&\le \sup_{0\le \sigma\le s}\sup_{o\le \tau\le t}\|D_vD_wf(x+\tau v+\sigma w)-D_vD_wf(x)\|.\end{aligned} Im Grenzwert $(s,t)\to 0$ verschwindet dieser Term wegen der Stetigkeit der zweiten Ableitung.
qed
Bemerkung. Die Aussage des Satzes gilt nicht, wenn $f$ nur zweimal partiell differenzierbar ist. Als Beispiel betrachten wir die Funktion $$f(x,y):=\begin{cases} \frac{xy(x^2-y^2)}{x^2+y^2}&(x,y)\not= (0,0)\\0&(x,y)=(0,0).\end{cases}$$ Es gilt \begin{aligned}\partial_1f(x,y)&=\begin{cases} \frac{y(x^4+4x^2y^2-y^4)}{(x^2+y^2)^2}&(x,y)\not= (0,0)\\0&(x,y)=(0,0)\end{cases}\\
\partial_2f(x,y)&=\begin{cases} \frac{x(x^4-4x^2y^2-y^4)}{(x^2+y^2)^2}&(x,y)\not= (0,0)\\0&(x,y)=(0,0)\end{cases}\end{aligned} und folglich \begin{aligned}\partial_2\partial_1f(x,y)&=\lim_{h\to 0}\frac{\partial_1f(0,h)-\partial_1f(0,0)}{h}=-1\\\partial_1\partial_2f(x,y)&=\lim_{k\to 0}\frac{\partial_2f(k,0)-\partial_2f(0,0)}{k}=1.\end{aligned}
6.4.6. Korollar. Ist $f\in \mathcal C^n(X,F)$, so ist $\partial^nf(x)\in \mathcal L^n_{sym}(E,F).$
Beweis. Es sei ein Tupel von Richtungsvektoren $v_1,\ldots,v_n\in E$ gegeben. Jede Permutation $\sigma$ der Menge $\{1,\ldots,n\}$ lässt sich als Komposition von Transpositionen, also als iterierte Vertauschung jeweils zweier nebeneinander stehender Zahlen, darstellen. Nach Satz 6.4.5. lassen sich in der Komposition $D_{v_1}D_{v_2}\ldots D_{v_n}f \in \mathcal C^0(X,F)$ jeweils zwei hintereinander stehende Richtungsableitungen vertauschen, ohne dass sich das Resultat verändert. Insgesamt gilt also für alle $x\in X$ $$D_{v_1}D_{v_2}\ldots D_{v_n}f(x)=D_{v_{\sigma(1)}}D_{v_{\sigma(2)}}\ldots D_{v_{\sigma(n)}}f(x).$$qed
Bemerkungen.
- Ist $E=\mathbb R^n$, so nennt man die iterierten Richtungsableitungen in Richtung der Standard-Einheitsvektoren auch partielle Ableitungen höherer Ordnung. Man schreibt auch $$\frac{\partial^qf(x)}{\partial x^{j_1}\partial x^{j_2}\cdots\partial x^{j_q}}:=\partial_{j_1}\partial_{j_2}\cdots\partial_{j_q}f(x)$$ für $j_1,\ldots,j_d\in \{1,\ldots,n\}$.
- Sind alle partiellen Ableitungen der Ordnung $\le q$, wohlgemerkt in jeder erdenklichen Reihenfolge, stetig, so folgt aus Satz 6.1.4, dass $f$ selbst $q$-mal stetig differenzierbar ist. Ist dem so, dann erhält man im Nachhinein, dass die Reihenfolge, in der die partiellen Ableitungen gebildet wurden, irrelevant war.