Sari la conținut

Matrice hessiană

De la Wikipedia, enciclopedia liberă

În matematică, matricea hessiană, hessianul sau (mai puțin frecvent) matricea Hesse este o matrice pătrată a derivatelor parțiale de ordinul doi ale unei funcții scalare sau unui câmp scalar. Descrie curbura locală a unei funcții de mai multe variabile. Matricea hessiană a fost dezvoltată în secolul al XIX-lea de către matematicianul german Ludwig Otto Hesse. Hesse i-a dat inițial denumirea de matrice de „determinanți funcționali”. Hessianul este uneori notat cu H sau, în mod ambiguu, cu ∇².

Definiții și proprietăți

[modificare | modificare sursă]

Fie o funcție care relaționează vectorii cu scalarii Dacă toate derivatele parțiale de ordinul doi ale lui există, se poate forma matricea hessiană , pătratică, de dimensiune , aranjată ca: Care urmează regula ca rândului i și coloanei j să îi corespunde intrarea:

Dacă, în plus, derivatele parțiale de ordin doi sunt toate continue, matricea hessiană este o matrice simetrică datorită simetriei derivatelor (mixte) de ordinul doi.

Determinantul matricei hessiene se numește determinant hessian.[1]

Matricea hessiană a unei funcții este transpusa matricei jacobiene a gradientului funcției ; adica:

Puncte de inflexiune

[modificare | modificare sursă]

Dacă este un polinom omogen în trei variabile, ecuația este ecuația implicită a unei curbe proiective plane. Punctele de inflexiune ale curbei sunt punctele non-singulare în care determinantul hessian este zero. Prin teorema lui Bézout rezultă că o curbă plană cubică are cel mult 9 puncte de inflexiune, deoarece determinantul hessian este un polinom de gradul 3.

Testul derivatei de ordin doi

[modificare | modificare sursă]

Dacă matricea hessiană este pozitiv-definită la atunci atinge un minim local izolat la Dacă este negativ-definită la atunci atinge un maxim local izolat la Dacă matricea are valori proprii atât pozitive, cât și negative, atunci este un punct de șa pentru În celelalte cazuri, testul este neconcludent.

Pentru matricile hessiene pozitiv-semidefinite și negativ-semidefinite testul este neconcludent (un punct critic în care hessianul este semidefinit, poate fi un punct extrem local sau un punct de șa).

Testul derivatei de ordin doi pentru funcțiile de una sau două variabile este mai simplu decât în cazul general. În cazul funcției de o singură variabilă, hessianul conține o singură derivată de ordin doi; dacă aceasta este pozitivă, atunci este un punct de minim local, iar dacă este negativă, atunci este un punct de maxim local; dacă este zero, atunci testul este neconcludent. În cazul funcției de două variabile, determinantul hessianului poate fi folosit, deoarece este produsul valorilor proprii. Când determinantul matricei (hessiene) este pozitiv, iar f''1,1 este pozitiv, punctul reprezintă un minim local. De asemenea, dacă f''1,1 este negativ, punctul reprezintă un maxim local. Dacă însă determinantul este zero, sau dacă f''1,1 este zero, indiferent de valoarea determinantului, testul este neconcludent.

În mod echivalent, condițiile de ordinul doi care sunt suficiente pentru un minim sau maxim local pot fi exprimate în termeni de succesiune a minorilor principali ai hessianului; aceste condiții sunt un caz special al celor date în secțiunea privitoare la matricile hessiene mărginite prin constrângeri — și anume, cazul în care numărul de constrângeri este zero. Mai exact, condiția suficientă pentru un minim este ca toți acești minori principali să fie pozitivi, în timp ce condiția suficientă pentru un maxim este ca minorii să se alterneze în semn, minorul fiind negativ.

Puncte critice

[modificare | modificare sursă]

Dacă gradientul (vectorul derivatelor parțiale) unei funcții este zero într-un oarecare punct atunci respectivul punct este un punct critic pentru . Determinantul hessianului în este numit, în unele contexte, discriminant. Dacă acest determinant este zero, atunci se numeste punct critic degenerat al lui sau un punct critic non-Morse al lui În caz contrar, este un punct nedegenerat, numit și punct critic Morse al lui

Matricea hessiană joacă un rol important în teoria Morse și în teoria catastrofelor, deoarece nucleul și valorile proprii ale acesteia permit clasificarea punctelor critice.[2][3][4]

Determinantul matricei hessiene, atunci când este evaluat într-un punct critic al unei funcții, este echivalent cu curbura Gauss a funcției considerată ca varietate. Valorile proprii ale hessianului în acel punct reprezintă curburile principale ale funcției, iar vectorii proprii sunt direcțiile principale de curbură.

Utilizarea în optimizare

[modificare | modificare sursă]

Matricile hessiene sunt utilizate în problemele de optimizare în cadrul metodelor (iterative) de tip Newton, reprezentând coeficientul termenului pătratic al unei expansiuni Taylor locale a unei funcții: unde este gradientul Calcularea și stocarea întregii matrici hessiene ocupă memorie, ceea ce este nefezabil pentru funcții de dimensiuni mari, cum ar fi funcțiile de pierdere ale rețelelor neurale, câmpurile aleatoare condiționate și alte modele statistice conținând un număr mare de parametri. Pentru astfel de situații, există algoritmii Newton-trunchiat și cvasi-Newton. Cea din urmă familie de algoritmi utilizează aproximări ale hessianului; unul dintre cei mai populari algoritmi cvasi-Newton este BFGS (algoritmul Broyden–Fletcher–Goldfarb–Shanno).[5]

Deoarece hessianul apare și în expansiunea locală a gradientului:

și lăsând pentru un oarecare scalar rezultă: adică Deci dacă gradientul este deja calculat, hessianul poate fi aproximat printr-un număr de operații liniare. Deși simplu de programat, această schemă de aproximare nu este stabilă numeric deoarece, pe de-o parte trebuie să fie suficient de mic pentru a micșora erorile (de estimare) datorate termenului , dar, pe de altă parte, suficient de mare pentru a nu face primul termen irelevant (i.e. 1/r[...]).[6]

Alte aplicații

[modificare | modificare sursă]

Matricea hessiană este utilizată frecvent pentru exprimarea operatorilor de procesare a imaginii în procesarea digitală a imaginilor și în viziunea computerizată. Poate fi folosită în analiza modului normal pentru a calcula diferitele frecvențe moleculare în spectroscopia în infraroșu.[7] Poate fi folosită și în diagnosticarea statistică și sensibilitatea locală.[8]

Generalizări

[modificare | modificare sursă]

Matricea hessiană mărginită

[modificare | modificare sursă]

Matricea hessiană mărginită este utilizată pentru testul derivatei de ordin doi, în anumite probleme de optimizare ce presupun diverse constrângeri. Dacă există funcția și o funcție de constrângere (în literatura românească se mai numește și "ecuație de legătură") astfel încât Hessianul mărginit este hessianul funcției Lagrange:  :[9]

Dacă există, să zicem, constrângeri, atunci zeroul din colțul din stânga sus devine o matrice de zerouri și există rânduri de derivate ale funcțiilor de constrângere (primele m rânduri ale matricii) și coloane de derivate ale acelorași (primele m coloane ale matricii).

Regulile de mai sus care afirmă că extremele sunt caracterizate (printre punctele critice cu un hessian non-singular) printr-o matrice hessiană pozitiv-definită sau negativ-definită nu se pot aplica aici, deoarece un hessian mărginit nu poate fi nici una, nici alta, întrucât dacă este orice vector a cărui unică intrare diferită de zero este prima.

Testul derivatei de ordin doi constă aici în restricții de semn ai determinanților unui anumit set de submatrici ale hessianului mărginit.[10] Intuitiv, constrângerile pot fi considerate ca reducând problema la una cu variabile libere (de exemplu, maximizarea supusă constrângerii poate fi redusă la maximizarea fără constrângere).

Concret, condițiile de semn sunt impuse succesiunii de minori principali (determinanți ai submatricilor cu începere din stânga sus) ale hessianului mărginit, pentru care primii minori principali sunt ignorați, minorul cel mai mic constând din primele rânduri și coloane trunchiate, următorul constând din primele rânduri și coloane trunchiate, și așa mai departe, ultimul fiind întregul hessian mărginit; dacă este mai mare decât atunci cel mai mic minor principal este hessianul însuși.[11] Există astfel minori de luat în considerare, fiecare evaluat la punctul specific considerat potențial maxim sau minim. O condiție suficientă pentru un maximum local este ca acești minori să alterneze în semn cu cel mai mic având semnul de O condiție suficientă pentru un minimum local este ca toți acești minori să aibă semnul de (În cazul lipsit de constrângeri, unde , aceste condiții coincid cu condițiile ca hessianul nemărginit să fie negativ-definit sau, respectiv, pozitiv-definit).

Funcții cu valori vectoriale

[modificare | modificare sursă]

Dacă este în schimb un câmp vectorial adică atunci colecția de derivate parțiale de ordin doi nu constituie o matrice , ci mai degrabă un tensor de ordinul trei. Aceasta poate fi considerat ca o matrice de matrici hessiane, câte una pentru fiecare componentă a : Acest tensor degenerează la matricea hessiană obișnuită când

Generalizare la cazul complex

[modificare | modificare sursă]

În contextul mai multor variabile complexe, hessianul poate fi generalizat. Fie si Identificarea cu , hessianul „real” normal este o matrice . Întrucât obiectul de studiu în mai multe variabile complexe este constituit de funcțiile olomorfe, adică soluțiile la condițiile Cauchy-Riemann n-dimensionale, de obicei ne uităm la partea hessianului care conține informații invariante la modificările holomorfe de coordonate. Această „parte” este așa-numitul complex hessian, care este matricea Dacă este olomorf, atunci matricea sa complexă hessiană este identică cu zero, deci complexul hessian este folosit pentru a studia funcții netede, dar nu holomorfe (vezi, de exemplu, pseudoconvexitatea Levi). Când avem de-a face cu funcții olomorfe, am putea lua în considerare matricea hessiană

Generalizări la varietățile Riemann

[modificare | modificare sursă]

Fie fie o varietate Riemann si conexiunea sa Levi-Civita. Fie o funcție netedă. Se definește tensorul hessian prin: unde aceasta profită de faptul că prima derivată covariantă a unei funcții este aceeași cu diferența sa obișnuită. Alegerea coordonatelor locale dă o expresie locală pentru hessian ca: unde sunt simbolurile Christoffel ale conexiunii. Alte forme echivalente pentru hessian sunt date de:

  1. ^ Binmore, Ken; Davies, Joan (). Calculus Concepts and Methods. Cambridge University Press. p. 190. ISBN 978-0-521-77541-0. OCLC 717598615. 
  2. ^ Callahan, James J. (). Advanced Calculus: A Geometric View (în engleză). Springer Science & Business Media. p. 248. ISBN 978-1-4419-7332-0. 
  3. ^ Casciaro, B.; Fortunato; Francaviglia; Masiello, ed. (). Recent Developments in General Relativity (în engleză). Springer Science & Business Media. p. 178. ISBN 9788847021136. 
  4. ^ Domenico P. L. Castrigiano; Sandra A. Hayes (). Catastrophe theory. Westview Press. p. 18. ISBN 978-0-8133-4126-2. 
  5. ^ Nocedal, Jorge; Wright, Stephen (). Numerical Optimization. Springer Verlag. ISBN 978-0-387-98793-4. 
  6. ^ Pearlmutter, Barak A. (). „Fast exact multiplication by the Hessian” (PDF). Neural Computation. 6 (1): 147–160. doi:10.1162/neco.1994.6.1.147. 
  7. ^ Mott, Adam J.; Rez, Peter (). „Calculation of the infrared spectra of proteins”. European Biophysics Journal (în engleză). 44 (3): 103–112. doi:10.1007/s00249-014-1005-6. ISSN 0175-7571. PMID 25538002. 
  8. ^ Liu, Shuangzhe; Leiva, Victor; Zhuang, Dan; Ma, Tiefeng; Figueroa-Zúñiga, Jorge I. (martie 2022). „Matrix differential calculus with applications in the multivariate linear model and its diagnostics”. Journal of Multivariate Analysis. 188: 104849. doi:10.1016/j.jmva.2021.104849. 
  9. ^ Hallam, Arne (). „Econ 500: Quantitative Methods in Economic Analysis I” (PDF). Iowa State. 
  10. ^ Neudecker, Heinz; Magnus, Jan R. (). Matrix Differential Calculus with Applications in Statistics and Econometrics. New York: John Wiley & Sons. p. 136. ISBN 978-0-471-91516-4. 
  11. ^ Chiang, Alpha C. (). Fundamental Methods of Mathematical Economics (ed. Third). McGraw-Hill. p. 386. ISBN 978-0-07-010813-4.