Lineárna regresia

Dobrý večer, chcela by som sa prosím spýtať na metodologicku vhodnosť aplikovania lineárnej regresie na tento nižšie zmieneny prípad. Mam dáta o vývoji pohľadávok za jednotlivé mesiace rokov 2018 - 2022 (n = 60 pozorovaní). Ak ich zanesiem do grafu je vidno cyklicky vývoj pohľadávok a tržieb, pričom pohľadávky sú násobne vyššie ako tržby.

Pohľadávky su vyššie práve z toho dôvodu, že sa prenesú ako nezaplatené do ďalších mesiacov (to vysvetľuje aj interná evidencia podniku). Ak by som chcela vedieť koľko pohľadávok sa v priemere prenesie z jedného mesiaca do ďalšieho, je vhodné použiť Linearnu regresiu s cieľom zistiť aka časť variability vo vzniknutých pohľadávkach sa dá vysvetliť tržbami. Y by tak boli mesačne pohľadávky za roky 2018 - 2022 a X by tak boli mesačne tržby za roky 2018 - 2022. Ak by výsledok vyšiel y = 1,30x + 2500,tak dá sa to interpretovať tak, že ak je mes trzba nulová, tak vzniknú pohľadávky aj tak v objeme 2500 tis eur a to sú práve tie neuhradené? Myslíte, že je to vhodná úvaha, či je tento predpoklad náchylný na chyby? (všetky predpoklady kladené na Linearny regresna model boli odtestovane a boli splnené, teda okrem autokorelacie, ktorú som zohľadnila pomocou heteroskedasticitneho konzisteneho estimatora). Ďakujem za odpoveď.


Obtížnost: Vysoká škola
Kategorie: Vysoká škola
Alica B.

Alica B.

27. 04. 2023   20:44

10 odpovědí

MILAN K.
MILAN K.
28.04.2023 03:17:57

To záleží na tom, zda ten vztah mezi veličinami je v zásadě lineární, může být dán obecně jakoukoliv funkcí, pak byste samozřejmě měli více neznámých a rovnice oprav bude vypadat složitěji, nebude to prostě "jen" vyrovnávací přímka, kde veličiny yi považujeme za bezchybné, ale bude záviset na více vyrovnávaných neznámých a tu funkci je třeba vyzkoušet, mechanicky bude vždycky splněno vTPV = min, ale pokaždé jinak, ne vše se odehrává lineárně, ostatně můžete zkusit i obráceně, kdy máte ten soubor dvou veličin a sestavíte rovnice oprav obráceně, xi + vxi = A * x + Bx * yi nebo také můžete považovat obě pozorování zatížené chybami a vyjde Vám zase jiná vyrovnávací přímka a jiné rovnice oprav, všechny tři jsou v jistém vztahu a pokaždé vyjde něco poněkud jinak.

Souhlasí: 1    
Alica B.
Alica B.
28.04.2023 09:51:43

Ďakujem veľmi pekne za odpoveď. A ešte sa chcem prosím spýtať, či je možné ten zásadne lineárny vzťah medzi veličinami zistiť pomocou korelačneho koeficientu, ktorý vyšiel 0,86, čo preukazuje pomerne silný vzťah medzi premennými?

Áno, skúšala som preloženie akoukoľvek funkciou, napr. ak teda y=mesačné pohľadávky a x=mesačné tržby, pri preložení linearnou f. mi vyšiel R2 =73%, pri preložení exponencialou mi vyšiel R2 = 72% a taktiež aj pri mocninovej bol R2 =72% a v prípade polynomickej 2.stupňa vyšlo R2 = 73%. Z toho dôvodu som ponechala a interpretovala linearnu vyrovnávaciu priamku.

    Nesouhlasí: 1
MILAN K.
MILAN K.
28.04.2023 22:50:12

Dobrý den, tak pokud Vám vychází koeficient korelace r = 0.86, tak to s dobrou mírou pravděpodobnosti dokazuje, že vztah mezi veličinami je lineární. Vlastně tím, že dostanete ty přímky tři a protínají se ve společném těžišti korelačního pole, tak poměr tangent alfa x a alfa y je r ^2 a čím je bližší tento poměr 1, tak tím spíše se jedná o až naprostou lineární závislost, prostě když bude =1 tak to znamená, že obě přímky splynuly (alias mají stejné směrnice čili tangenty) a že není žádný rušivý vliv, čili jen pouhá lineární závislost Kdyby nebyl žádný rušivý vliv mezi těmi veličinami, tak by všechny tři vyrovnávací přímky, zjiš'tované podle těch tří různých podmínek splynuly v jednu a byly by důkazem přesně platícího lin. vztahu, viz níže, kde je to dost dobře uvedené.

Tomáš B.
Tomáš B.
28.04.2023 23:58:06

Obyčejná lineární regrese se dá použít, kdykoliv věříme, že mezi náhodnými proměnnými existuje lineární vztah. I v případech, kdy vztah lineární není, ji můžeme použít, ale musíme být velmi opatrní.

Vhodnost LR v tomhle případě bych označil jako diskutabilní a určitě bych byl opatrný s interpretací. Zkusím rozepsat jednu možnost řešení z toho, co jsem pochopil ze zadání.

V daném měsíci \(t\) máme pohledávky P[t] a tržby T[t]. Předpokládejme, že pohledávku P[t] můžeme rozepsat následujícím způsobem.

\( P[t] = VznikléPohledávky[t] - ZaplacenéPohledávky[t] + PřenesenéPohledávky[t] \)

Přenesené pohledávky odpovídají vztahu \( PřenesenéPohledávky[t] = P[t-1] \)

Vzniklé a zaplacené pohledávky můžeme očekávat v lineárním vztahu k tržbám \( E[VznikléPohledávky[t] - ZaplacenéPohledávky[t]] = E[b_0 * T[t] + b_1] \) (to je důležitý předpoklad)

Z toho dostáváme vztah \( E[P[t] - P[t-1]] = E[VP[t] - ZP[t]] = b_0 E[T[t]] + b_1\) (názvy nahodných proměnných jsem zkrátil, ZaplacenéPohledávky jsou ZP, atd.)

Postup je, že spočítáme diference pohledávek mezi měsíci, \(y=P[t]-P[t-1]\) a tuhle proměnnou se snažíme vysvětlit v lineárním vztahu vůči nezávislé proměnné představované tržbami \(x=T[t]\), tedy \( y = b_0 * x + b_1\)

Očekávaná hodnota přenesené části pohledávky pak bude \(E[PP] = E[P[t] - (b_0 E[T[t]] + b_1)] = E[P] - b_0 E[T] - b_1 \)

Alternativní způsob řešení pak je použít autokorelační funkci, třeba ARIMU nebo SARIMU (pokud je vývoj hodnot cyklický, nejspíš je tam sezónnost). Obě funkce mají integrované diference, které jsem výše rozepisoval ručně.

Když to spočítáš podle mého návodu, tak bude R^2 mnohem zajímavější a pravděpodobně nebude 73%. Takhle vysoká hodnota obvykle ukazuje spíš na metodickou chybu než skvělý model. Například pokud se neuhrazené pohledávky kumulují několik měsíců, bude regresní model vysvětlovat spíš autokorelační vztah mezi tržbami (říkám to blbě, ale podobný efekt se tam objeví).

Ak by výsledok vyšiel y = 1,30x + 2500,tak dá sa to interpretovať tak, že ak je mes trzba nulová, tak vzniknú pohľadávky aj tak v objeme 2500 tis eur a to sú práve tie neuhradené?

Spíš ne, interpretace \(x=0\) je, že lineární funkce protíná osu y v hodnotě 2500. Dávat tomu jiný význam většinou vyžaduje jistotu, že je model opravdu správně a existují další podklady nebo data, která takové tvrzení podpoří.

MILAN K.
MILAN K.
29.04.2023 01:59:12

Ten pojem regrese kdysi v roce 1866 vznikl takto: kdy Galton v pojednání "Regrese (Čili návrat) k průměrnosti při zděděné postavě" zjistil, že synové otců, majících odchylku "x" od průměrné výšky, mají v průměru odchylku menší, tj. "vracejí se zpět" k aritmetickému průměru , čili zpět = regress. Tento název se pak ke škodě věci vžil pro vyrovnávací křivky v korelačním grafu, ačkoliv jeho původní význam již dávno tomu neodpovídá a mohl nebo měl by být nahrazen pojmem rovnice, křivka korelační (alias vztahová či závislosti), prostě regrese je neodpovídající pojem, který se udržuje uměle jen ze setrvačnosti a vyjadřoval jen to, co jím bylo v onom 157 let starém článku kdysi míněno. Takže místo lineární regrese by se spíše mělo nazývat lineární korelace či souvztažnost, závislost či vyrovávací přímka. Takže pochopitelně, že co zvolíme za veličiny a vyrovnávací křivku, tak to bude "nějak" vycházet a čím více bude mít neznámých, které tu křivku vyjadřují, tím lépe se bude přimykat, ale to je asi vše. Takže například při zvolení y = A0 + A1 x1 + ... Am x^m, kde m = n - 1 docílíme úplného proložení všemi n body. Zkrátka nejedná se o nic jiného, než že soubor zde n dvojic bodů můžeme proložit jakoukoliv vyrovnávací křivkou a obykle je snaha, aby měla co nejméně neznámých. Pokud v tomto výše uvedeném případě je známo že se hodnoty mění cyklicky, čili že s časem narůstají a po dosažení maxima klesají k minimu a opět totéž znovu, pak je dobré zkusit soubor vyjádřit vyrovnávací sinusoidou, ale musilo by se to vyzkoušet. Ale vždycky to jen řekne, jak se soubor "dobře" nahradí vyrovnávací funkcí, a přesto to nutně nemusí znamenat, že právě taková funkční závislost mezi těmi veličinami existuje, jen přibližně.

Souhlasí: 2    
Tomáš B.
Tomáš B.
29.04.2023 11:30:32

O tomhle původu názvu jsem nevěděl :)

V moderní statistice se obyčejná lineární regrese používá pro vztah mezi náhodnými proměnnými \( Y = a X + b + \epsilon \), kde \( \mathbb{ E} [\epsilon] = 0 \).

Definice přes podmíněnou střední hodnotu dává \( \mathbb{ E} [Y|X] = \mathbb{ E} [a X + b + \epsilon] = a \mathbb{ E} X + b \). V tomhle smyslu pak platí i původní Galtonova myšlenka, kde v datech hledáme regresi k populačnímu modelu.

Hezká myšlenka :)

Alica B.
Alica B.
29.04.2023 22:02:18

Ďakujem veľmi pekne za diskusiu. A v prípade tohto tvrdenia :

Spíš ne, interpretace x = 0

je, že lineární funkce protíná osu y v hodnotě 2500. Dávat tomu jiný význam většinou vyžaduje jistotu, že je model opravdu správně a existují další podklady nebo data, která takové tvrzení podpoří.

Tak, čo by prosím mohlo byť práve tou istotou, že model je opravdu správne?

Mohol by to byt korelačný koef 0,86 potvrdzujúci lineárny vzťah pohľadávok a tržieb alebo mohlo byt to byť to, že sú splnené predpoklady na zostrojenie lin.regresie? Vďaka za váš čas a odpoveď.

Tomáš B.
Tomáš B.
29.04.2023 22:43:12

Korelační koeficient uvádí sílu lineárního vztahu mezi dvěma náhodnými proměnnými. Ale neříká, jestli tam lineární vztah opravdu existuje.

Dám jednoduchý příklad. Pracovník zpracuje jeden výrobek za 3 hodiny, 2 pracovníci ho zpracují za 2 hodiny a 3 pracovníci ho zpracují za hodinu. Lineární model závislosti času na počtu pracovníků bude vypadat \( y = -x + 4 \) a \( R^2 = 1 \) (!)

  • je tam opravdu lineární vztah?

  • protože y(0) = 4, tak platí, že se výrobek sám od sebe zpracuje za 4 hodin?

  • protože y(4) = 0, tak platí, že 4 pracovníci zpracují výrobek okamžitě?

Jedná se o typickou úlohu na nepřímou úměru, takže skutečný model bude spíš \( y = a/x + b \). Protože máme málo dat, tak hodnoty v bodech 0 a 4 musíme extrapolovat, to je o řád složitější úloha.

Když se vrátím k původní funkci \( y = 1.3x + 2500 \), tak bych pro interpretaci chtěl vědět, že odpovídá skutečnému modelu. Neviděl jsem data, ale i z toho krátkého zadání jsem si prakticky jistý, že ten vztah takhle jednoduchý nebude a intercept bude podhodnocený.

Kdybychom měli jistotu, že je model správně, nepotřebovali bychom statistiku :)

Souhlasí: 1    
Alica B.
Alica B.
29.04.2023 22:55:22

Vďaka za vysvetlenie :)

MILAN K.
MILAN K.
30.04.2023 21:40:54

Tak v bodě x = 0 pro model, kde bude ta vyrovnávací lomená funkce nebo jiná podobná, to extrapolovat snad opravdu není třeba, nejsou lidi => nejsou výrobky = > nemá smysl počítat, kolik času trvá vyrobit jeden výrobek který nemůže být vyroben neexistujícím pracovníkem , jinými slovy x musí být přirozená čísla.

Pro napsání komentáře se musíte přihlásit.