Derivarea funcțiilor compuse

regulă în analiza matematică

În calculul diferențial derivarea funcțiilor compuse este o formulă folosită pentru a găsi derivatele unei funcții compuse⁠(d) de două funcții derivabile,  f și g. în funcție de derivatele lui  f și g. Mai exact, dacă este o funcție astfel încât pentru orice x, atunci regula derivării lui h este, în notația lui Lagrange:

sau, echivalent,

Regula poate fi exprimată și în notația lui Leibniz. Dacă o variabilă z depinde de variabila y, care ea însăși depinde de variabila x (adică y și z sunt variabile dependente⁠(d)), atunci z depinde și de x prin variabila intermediară y. În acest caz, regula se exprimă ca

și

pentru a indica în ce puncte trebuie evaluate derivatele.

La integrare, omoloaga regulii este schimbarea de variabilă.

Explicație intuitivă

modificare

Intuitiv, regula de derivare a funcțiilor compuse afirmă că variația instantanee a lui z în funcție de y și cea a lui y în funcție de x permite calcularea variației lui z în funcție de x ca produs al celor două variații.

După cum a spus George F. Simmons: „Dacă o mașină se deplasează de două ori mai repede decât o bicicletă și bicicleta este de patru ori mai rapidă decât un om care merge, atunci mașina se deplasează de 2 × 4 = 8 ori mai repede decât omul”.[1]

Relația dintre acest exemplu și regula de derivare a funcțiilor compuse este următoarea. Fie z, y și x pozițiile (variabile) mașinii, bicicletei, respectiv a omului care merge. Raportul vitezelor mașinii și bicicletei este   Similar,   Deci, raportul vitezelor mașinii și ale omului care merge este

 

Rata de schimbare a pozițiilor este raportul dintre viteze, iar viteza este derivata poziției în funcție de timp, adică

 

sau, echivalent,

 

care este și o aplicare a regulii de derivare.

Regula derivării funcțiilor compuse pare să fi fost folosită pentru prima dată de Gottfried Wilhelm Leibniz. A folosit-o pentru a calcula derivata lui   ca un compus al funcției rădăcină pătrată și al funcției   El a menționat-o pentru prima dată într-un memoriu din 1676 (cu o eroare de semn în calcul).[2] Notația comună a acestei reguli se datorează lui Leibniz.[3] Guillaume de l'Hôpital a folosit regula de derivare în mod implicit în Analyse des infiniment petits. Regula derivării funcțiilor compuse nu apare în niciuna dintre cărțile de analiză ale lui Leonhard Euler, deși au fost scrise la peste o sută de ani după descoperirea lui Leibniz. Se crede că prima versiune „modernă” a regulii apare în Théorie des fonctions analytiques a lui Lagrange, din 1797. Apare și în Résumé des Leçons données a L’École Royale Polytechnique sur Le Calcul Infinitesimal al lui Cauchy, din 1823.[3]

Formulare

modificare

Cea mai simplă formă a regulii derivării funcțiilor compuse apare la funcțiile reale de variabilă reală. Se afirmă că dacă g este o funcție care este derivabilă într-un punct c (adică derivata g′(c) există) și  f este o funcție derivabilă în g(c), atunci funcția compusă   este derivabilă în c, iar derivata este[4]

 

Regula este uneori prescurtată ca

 

Dacă y = f(u) și u = g(x), atunci această formă prescurtată este scrisă în notația lui Leibniz ca:

 

De asemenea, punctele în care sunt evaluate derivatele pot fi precizate explicit:

 

În continuare, prin același raționament, fiind date n și funcțiile   cu funcția compusă  , dacă fiecare funcție   este derivabilă în punctul argumentului său imediat, atunci funcția compusă este și ea derivabilă prin aplicarea repetată a regulii derivării funcțiilor compuse, unde derivata este (în notația lui Leibniz):

 

Aplicații

modificare

Derivarea unei funcții compuse de mai mult de două funcții

modificare

Regula derivării funcțiilor compuse poate fi aplicată compunerilor de mai mult de două funcții. Pentru a afla derivata unei compuse de mai mult de două funcții, se observă că compunerea lui  f, g și h (în această ordine) este compusa lui  f cu gh. Regula compunerii spune că pentru a calcula derivata lui  fgh, este suficientă calcularea derivatei lui  f și a derivatei lui gh. Derivata lui  f poate fi calculată direct, iar derivata lui gh poate fi calculată prin aplicarea din nou a regulii.

Concret, fie funcția

 

Aceasta poate fi descompusă ca un compus de trei funcții:

 

adică  

Derivatele lor sunt:

 

Regula derivării unei funcții compuse spune că derivata compusei în punctul x = a este:

 

În notația lui Leibniz, aceasta este:

 

sau, pe scurt,

 

Derivata funcției este deci:

 

Un alt mod de a calcula această derivată este de a vedea funcția compusă  fgh ca fiind compusa dintre  fg și h. Aplicând regula pentru derivarea funcțiilor compuse în acest mod ar rezulta:

 

Aceasta este aceeași cu cea calculată mai sus. Acest lucru este de așteptat deoarece (fg) ∘ h = f ∘ (gh).

Uneori, este necesar să se deriveze o compunere arbitrar de lungă de forma  . În acest caz se definește

 

unde   și   când  . Atunci regula derivării ia forma

 

sau, în notația lui Lagrange,

 

Derivarea unui raport

modificare

Regula pentru derivarea funcțiilor compuse poate fi utilizată pentru a deduce unele reguli de derivare binecunoscute. De exemplu, regula de derivare a raportului este o consecință a regulii de derivare a funcțiilor compuse și a regulii de derivare a unui produs. Pentru asta, se scrie funcția  f(x)/g(x) ca produsul  f(x) • 1/g(x). Mai întâi se aplică regula derivării produsului:

 

Pentru a calcula derivata lui 1/g(x), se observă că expresia este compusa lui g cu funcția inversă, adică cu funcția care trimite x la 1/x. Derivata funcției inverse este  . Prin aplicarea regulii de derivare a funcțiilor compuse, ultima expresie devine:

 

care este formula uzuală pentru regula derivării unui raport.

Derivarea funcțiilor inverse

modificare

Fie y = g(x) a cărei funcție inversă este  f, astfel că x = f(y). Există o formulă pentru derivata lui  f în funcție de derivata lui g. Pentru a arăta acest lucru, se observă că f și g satisfac relația

 

Și pentru că funcțiile   și x sunt egale, derivatele lor trebuie să fie egale. Derivata lui x este funcția constantă cu valoarea 1, iar derivata lui   este determinată de regula pentru derivarea funcțiilor compuse. Prin urmare:

 

Pentru a exprima  f' ca o funcție de variabila independentă y, se înlocuiește peste tot   cu x. Atunci se poate găsi soluția pentru f'.

 

De exemplu, fie funcția g(x) = ex. Are inversa f(y) = ln y. Deoarece g′(x) = ex, formula de mai sus spune că

 

Această formulă este adevărată ori de câte ori g este derivabilă și inversa sa,  f, este și ea derivabilă. Această formulă poate eșua atunci când una dintre aceste condiții nu este adevărată. De exemplu, fie g(x) = x3. Inversa sa este f(y) = y1/3, care nu este derivabilă în zero. Dacă se încearcă să se folosească formula de mai sus pentru a calcula derivata lui  f în zero, trebuie evaluată 1/g′(f(0)). Deoarece f(0) = 0 și g′(0) = 0, trebuie evaluată expresia 1/0, care este nedefinită. Prin urmare, formula eșuează în acest caz. Acest lucru nu este surprinzător deoarece  f nu este derivabilă în zero.

Propagarea înapoi

modificare

Regula pentru derivarea funcțiilor compuse formează baza algoritmului backpropagation, care este utilizat în scăderea gradientului⁠(d) la rețelele neurale în învățarea profundă (inteligență artificială).[5]

Derivate superioare

modificare

Formula lui Faà di Bruno⁠(d) generalizează regula pentru derivarea funcțiilor compuse pentru derivatele superioare. Fie y = f(u) și u = g(x), atunci primele câteva derivate sunt:

 

Demonstrații

modificare

Prima demonstrație

modificare

O demonstrație a regulii derivării funcțiilor compuse începe prin definirea derivatei funcției compuse  fg, unde se ia limita lui  fg când x tinde la a:

 

Se presupune pentru moment că   nu este egală cu   pentru niciun   lîngă  . Atunci expresia anterioară este egală cu produsul a doi factori:

 

Dacă   variază lângă a, atunci s-ar putea întâmpla ca, indiferent cât de aproape s-ar ajunge de a, să existe întotdeauna un x și mai aproape, astfel încât g(x) = g(a). De exemplu, acest lucru se poate întâmpla lângă a = 0 pentru funcția continuă g definită de g(x) = 0 pentru x = 0 și g(x) = x2 sin(1/x) altfel. Ori de câte ori se întâmplă acest lucru, expresia de mai sus este nedefinită deoarece implică împărțirea cu zero. Pentru a rezolva acest lucru, se introduce o funcție   după cum urmează:

 

Se va arăta că raportul   este întotdeauna egal cu:

 

Ori de câte ori g(x) nu este egal cu g(a), acest lucru este clar deoarece factorii lui g(x) − g(a) se anulează. Când g(x) este egal cu g(a), atunci   deoarece  f(g(x)) = f(g(a)), iar produsul de mai sus este zero deoarece este egal cu  f′(g(a)) înmulțit cu zero. Deci produsul de mai sus este întotdeauna egal cu   și pentru a arăta că derivata lui  fg în a există și pentru a-i determina valoarea, trebuie doar să se arate că limita produsului de mai sus când x tinde la a există și să se determine valoarea ei.

Pentru asta, se reamintește că limita unui produs există dacă există limitele factorilor săi, iar limita produsului va fi egală cu produsul limitelor factorilor. Cei doi factori sunt Q(g(x)) și (g(x) − g(a)) / (xa). Deoarece g este derivabilă în a prin presupunere, limita sa când x tinde la a există și este egală cu g′(a).

În ceea ce privește Q(g(x)), se observă că Q este definită oriunde este definită  f. În plus,  f este derivabilă în g(a) prin presupunere, deci Q este continuă în g(a), prin definiția derivatei. Funcția g este continuă în a deoarece este derivabilă în a și, prin urmare, Qg este continuă în a. Deci limita sa când x tinde la a există și este egală cu Q(g(a)), care este  f'(g(a)).

Aceasta arată că limitele ambilor factori există și că ele sunt egale cu  f′(g(a)) și, respectiv, g′(a). Prin urmare, derivata lui  fg în a există și este egală cu  f′(g(a))g′(a).

A doua demonstrație

modificare

O altă modalitate de a demonstra regula pentru derivarea funcțiilor compuse este măsurarea erorii în aproximarea liniară determinată de derivată. Această demonstrație are avantajul că se poate generaliza la mai multe variabile. Se bazează pe următoarea definiție echivalentă a derivabilității într-un punct: o funcție g este derivabilă în a dacă există un număr real g(a) și o funcție ε(h) care tinde la zero când h tinde la zero și, în plus,

 

Aici membrul stâng reprezintă diferența adevărată dintre valorile lui g în a + h și în a, în timp ce membrul drept reprezintă aproximarea determinată de derivată plus un termen de eroare.

În situația regulii de derivare a funcțiilor compuse, o astfel de funcție ε există deoarece g se presupune că este derivabilă la a. Din nou, prin presupunere, o funcție similară există și pentru  f în g(a). Numind această funcție η, avem

 

Definiția de mai sus nu impune constrângeri pentru η(0), chiar dacă se presupune că η(k) tinde la zero când k tinde la zero. Dacă se pune η(0) = 0, atunci η este continuă în 0.

Demonstrarea teoremei necesită studierea diferenței  f(g(a + h))) − f(g(a)) când h tinde la zero. Primul pas este înlocuirea lui g(a + h) folosind definiția derivării lui g în a:

 

Următorul pas este folosirea definiției derivabilității lui  f în g(a). Acest lucru necesită un termen de forma  f(g(a) + k) pentru unele k. În ecuația de mai sus, k-ul corect variază cu h. Se pune kh = g'(a) h + ε(h) h și partea dreaptă devine  f(g(a) + kh) − f(g(a)). Aplicând definiția derivatei rezultă:

 

Pentru a studia comportamentul acestei expresii când h tinde la zero, se dezvoltă kh. După regruparea termenilor, membrul drept devine:

 

Deoarece ε(h) și η(kh) tind la zero când h tinde la zero, primii doi termeni dintre paranteze tind la zero când h tinde la zero. Aplicând aceeași teoremă la produsele limitelor ca în prima demonstrație, al treilea termen dintre paranteze tinde și el la zero. Deoarece expresia de mai sus este egală cu diferența  f(g(a + h)) − f(g(a)), prin definiție derivata lui  fg este derivabilă în a, iar derivata sa este  f′(g(a)) g′(a).

În această demonstrație rolul lui Q din prima demonstrație este jucat de η. Ele sunt legate prin ecuația:

 

Necesitatea de a defini Q în g(a) este analogă cu necesitatea de a defini η în zero.

A treia demonstrație

modificare

Definiția alternativă a lui Constantin Carathéodory a derivabilității unei funcții poate fi folosită pentru a da o demonstrație elegantă a regulii de derivare a funcțiilor compuse.[6]

Conform acestei definiții, o funcție  f este derivabilă într-un punct a dacă și numai dacă există o funcție q, continuă la a și astfel încât f(x) − f(a) = q(x)(xa). Există cel mult o astfel de funcție și dacă  f este derivabilă în a, atunci f ′(a) = q(a).

Fiind admise ipotezele regulii de derivare a funcțiilor compuse și faptul că funcțiile derivabile și compusele funcțiilor continue sunt continue, rezultă că există funcția q continuă în g(a) și funcția r, continuă în a, astfel încât

 

și

 

Prin urmare,

 

dar funcția h(x) = q(g(x))r(x) este continuă în a, iar pentru acest a se obține

 

O abordare similară funcționează pentru funcțiile (vectoriale) derivabile continuu de mai multe variabile. Această metodă de factorizare permite și o abordare unificată a formelor mai tari de derivabilitate, atunci când derivata este necesară să fie continuă Lipschitz⁠(d), continuitate Hölder⁠(d) etc. Derivarea în sine poate fi privită ca teorema restului polinomului⁠(d), generalizată la o clasă adecvată de funcții.

Demonstrația cu infinitezimale

modificare

Dacă   și   atunci alegând infinitezimala   se calculează corespondenta   și apoi corespondenta  , astfel încât

 

și aplicând partea standard⁠(d) se obține

 

care este chiar regula derivării funcțiilor compuse.

Cazul funcțiilor de mai multe variabile

modificare

Generalizarea completă a regulii pentru derivarea funcțiilor compuse la funcții de mai multe variabile reale⁠(d) (cum ar fi  ) este mai degrabă o chestiune tehnică. Totuși, este mai simplu de scris pentru cazul funcțiilor de forma

 

unde  , și   pentru orice  

Deoarece acest caz apare adesea în studiul funcțiilor de o singură variabilă, merită descris separat.

Cazul funcțiilor scalare cu intrări multiple

modificare

Fie   și   pentru   Se scrie regula pentru derivarea funcțiilor compuse pentru compunerea funcțiilor

 

Este nevoie de derivatele parțiale ale lui  f în funcție de k. Notațiile uzuale pentru derivate parțiale implică nume pentru argumentele funcției. Deoarece aceste argumente nu sunt denumite în formula de mai sus, este mai simplu și mai clar să se folosească notația D și să se noteze cu

 

derivata parțială a lui f în funcție de argumentul său i și cu

 

valoarea acestei derivate în z.

Cu această notație, regula pentru derivarea funcțiilor compuse este

 

Exemplu: operații aritmetice

modificare

Dacă funcția  f este o adunare, adică dacă

 

atunci   și   Astfel, regula pentru derivarea funcțiilor compuse dă

 

La înmulțire

 

derivatele parțiale sunt   și   Astfel,

 

Cazul exponențierii

 

este ceva mai complicat, cu

 

și cu  

 

Rezultă că

 

Regula generală: Funcții vectoriale cu intrări multiple

modificare

Cel mai simplu mod de a scrie regula pentru derivarea funcțiilor compuse în cazul general este de a folosi derivata totală⁠(d), care este o transformare liniară care tratează toate derivatele direcționale într-o singură formulă. Fie funcțiile derivabile  f : RmRk și g : RnRm, și un punct a din Rn. Fie Da g derivata totală a lui g în a și Dg(a) f derivata totală a lui  f în g(a). Aceste două derivate sunt transformări liniare RnRm și RmRk, deci pot fi compuse. Regula pentru derivarea funcțiilor compuse la derivatele totale este că derivata totală a lui  fg în a este compunerea derivatelor:

 

sau, pe scurt,

 

Regula pentru derivatele superioare ale funcțiilor compuse poate fi demonstrată folosind o tehnică similară celei de-a doua demonstrații prezentate mai sus.[7]

Deoarece derivata totală este o transformare liniară, funcțiile care apar în formulă pot fi rescrise ca matrici. Matricea corespunzătoare unei derivate totale este matricea jacobiană⁠(d), iar compusa a două derivate corespunde produsului dintre matricile lor jacobiene. Din această perspectivă, regula pentru derivarea funcțiilor compuse este:

 

sau, pe scurt,  

Adică, jacobianul unei funcții compuse este produsul jacobienilor funcțiilor compuse (evaluate în punctele corespunzătoare).

Regula pentru derivatele superioare ale funcțiilor compuse este o generalizare a regulii pentru derivarea funcțiilor compuse unidimensionale. Dacă k, m și n sunt 1, astfel încât  f : RR și g : RR, atunci matricile jacobiene ale lui  f și g sunt 1 × 1. Mai exact, acestea sunt:

 

Jacobianul lui  fg este produsul acestor matrici 1 × 1, adică  f′(g(a))⋅g′(a), așa cum era de așteptat din regula unidimensională pentru derivarea funcțiilor compuse. În limbajul transformărilor liniare, Da(g) este funcția care scalează un vector cu un factor de g′(a), iar Dg(a)(f) este funcția care scalează un vector cu un factor de  f′(g(a)). Regula pentru derivarea funcțiilor compuse spune că compunerea acestor două transformări liniare este tot o transformarea liniară Da(fg), prin urmare este funcția care scalează un vector cu  f′(g(a))⋅g′(a).

Un alt mod de scriere a regulii pentru derivarea funcțiilor compuse este folosit atunci când  f și g sunt exprimate în funcție de componentelor lor ca y = f(u) = (f1(u), …, fk(u)) și u = g(x) = (g1(x), …, gm(x)). În acest caz, regula de mai sus pentru matricile jacobiene este de obicei scrisă ca:

 

Regula pentru derivatele totale ale funcțiilor compuse implică o regulă pentru derivate parțiale ale funcțiilor compuse. Se reamintește că atunci când derivata totală există, derivata parțială în direcția coordonatei i se găsește prin înmulțirea matricei jacobiene cu al i-lea vector al bazei. Făcând acest lucru cu formula de mai sus, se obține:

 

Deoarece intrările matricei jacobiene sunt derivate parțiale, se poate simplifica formula de mai sus pentru a obține:

 

Mai conceptual, această regulă exprimă faptul că o schimbare a direcției lui xi poate schimba toate g1 până la gm, și oricare dintre aceste schimbări poate afecta  f.

În cazul particular în care k = 1, astfel încât  f este o funcție reală, atunci această formulă se simplifică și mai mult:

 

Acesta poate fi rescris ca un produs scalar. Reamintind că u = (g1, …, gm), derivata parțială u / ∂xi este tot un vector, iar regula pentru derivarea funcțiilor compuse spune că:

 

Fie u(x, y) = x2 + 2y unde x(r, t) = r sin(t) și y(r,t) = sin2(t) determină valoare lui u / ∂r și u / ∂t folosind regula pentru derivarea funcțiilor compuse.

 

și

 

Derivate superioare ale funcțiilor de mai multe variabile

modificare

Formula lui Faà di Bruno pentru derivatele de ordin superior ale funcțiilor cu o singură variabilă se generalizează la cazul funcțiilor de mai multe variabile. Dacă y = f(u) este o funcție de u = g(x) ca mai sus, atunci derivata de ordinul al doilea a lui  fg este:

 

Alte generalizări

modificare

Toate extensiile din analiza matematică au o regulă pentru derivarea funcțiilor compuse. În cele mai multe dintre acestea formula rămâne aceeași, deși sensul acelei formule poate fi foarte diferit.

O generalizare este la varietăți geometrice. În această situație, regula de derivare a funcțiilor compuse reprezintă faptul că derivata lui  fg este compusa dintre derivata lui  f și derivata lui g. Această teoremă este o consecință imediată a regulii privind derivatele superioare ale funcțiilor compuse prezentate mai sus și are exact aceeași formulă.

Regula pentru derivarea funcțiilor compuse este valabilă și pentru derivatele Fréchet⁠(d) din spații Banach. Este valabilă aceeași formulă ca înainte.[8] Acest caz și cel precedent admit o generalizare simultană la varietățile Banach⁠(d).

În algebra diferențială⁠(d) derivata este interpretată ca un morfism de module de diferențiale Kähler⁠(d). Un homomorfism de inele⁠(d) comutative f : RS determină un morfism al diferențialelor Kähler Df : ΩR → ΩS care trimite un element dr la d(f(r)), diferențiala exterioară a lui  f(r). Formula D(fg) = DfDg este valabilă și în acest context. Caracteristica comună a acestor exemple este că sunt expresii ale ideii că derivata face parte dintr-un functor. Un functor este o operație asupra spațiilor și funcțiilor dintre ele. Asociază fiecărui spațiu un spațiu nou și fiecărei funcții dintre două spații o nouă funcție între spațiile noi corespunzătoare. În fiecare dintre cazurile de mai sus, functorul trimite fiecare spațiu către fibratul său tangent⁠(d) și trimite fiecare funcție către derivata sa. De exemplu, în cazul unei varietăți, derivata trimite varietatea Cr la varietatea Cr−1 (fibratul său tangent) și funcția Cr la derivata sa totală. Există o cerință pentru ca acesta să fie un functor, și anume că derivata unui compus trebuie să fie compusa derivatelor. Aceasta este tocmai formula D(fg) = DfDg.

De asemenea, există reguli de derivare a compuselor în calculul stohastic⁠(d). Una dintre acestea, lema lui Itô⁠(d), exprimă compusul unui proces Itô (sau mai general o semimartingală⁠(d)) dXt cu o funcție  f derivabilă de două ori. În lema lui Itô, derivata funcției compuse depinde nu numai de dXt și de derivata lui  f, ci și de derivata de orfinul al doilea a lui  f. Dependența de derivata de ordinul al doilea este o consecință a variației pătratice⁠(d) nenule a procesului stohastic, ceea ce în linii mari înseamnă că procesul se poate deplasa în sus și în jos într-un mod foarte grosier. Această variantă a regulii de derivare a funcțiilor compuse nu este un exemplu de functor deoarece cele două funcții care se compun sunt de tipuri diferite.

  1. ^ en George F. Simmons, Calculus with Analytic Geometry (1985), p. 93
  2. ^ en Child, J. M. (). „The Manuscripts of Leibniz on His Discovery of the Differential Calculus. Part II (Continued)”. The Monist. 27 (3): 411–454. doi:10.5840/monist191727324. ISSN 0026-9662. JSTOR 27900650. 
  3. ^ a b en Rodríguez, Omar Hernández; López Fernández, Jorge M. (). „A Semiotic Reflection on the Didactics of the Chain Rule”. The Mathematics Enthusiast. 7 (2): 321–332. doi:10.54870/1551-3440.1191 . Accesat în . 
  4. ^ en Apostol, Tom (). Mathematical analysis (ed. 2nd). Addison Wesley. p. Theorem 5.5. 
  5. ^ en Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (), Deep learning, MIT , pp=197–217
  6. ^ en Kuhn, Stephen (). „The Derivative á la Carathéodory”. The American Mathematical Monthly. 98 (1): 40–44. doi:10.2307/2324035. JSTOR 2324035. 
  7. ^ en Spivak, Michael (). Calculus on Manifolds. Boston: Addison-Wesley. pp. 19–20. ISBN 0-8053-9021-9. 
  8. ^ en Cheney, Ward (). „The Chain Rule and Mean Value Theorems”. Analysis for Applied Mathematics. New York: Springer. pp. 121–125. ISBN 0-387-95279-9. 

Vezi și

modificare

Legături externe

modificare