Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 15

Problema 1: Regresie

liniară Faci parte dintr-o firmă de investiții și munca ta este să faci cercet ări
despre aceste 759 de firme. Vi se furnizează setul de date care con ține vânz ările
și alte atribute ale acestor 759 de firme. Previzionați vânzările acestor firme pe
baza detaliilor furnizate în setul de date, astfel încât să vă ajuta ți compania s ă
investească conștient. De asemenea, oferiți-le 5 atribute care sunt cele mai
importante.

Primul pas al analizei noastre, trebuie să importăm toate bibliotecile necesare. După încărcarea
bibliotecilor, trebuie să ne încărcăm data_set (Firm_level_data) pentru analiza noastră.

1. În primul rând, am aflat care sunt toate intrările din setul de date verificând primele 5 rânduri.

Din cele de mai sus, acum ne-am făcut o idee despre modul în care au fost introduse datele.

2. Următorul pas este că trebuie să cunoaștem detaliile coloanelor, împreună cu câte intrări și tipul
de date al tuturor variabilelor.

Din cele de mai sus, putem deduce că există 10 coloane cu 759 de intrări, cu excepția sp500,
toate variabilele sunt int și float, unde sp500 este un obiect.
3. Acum, trebuie să știm dacă toate variabilele au valori nule în setul de date dat.

Din ieșirea de mai sus, cu excepția "tobinq", toate variabilele nu au valori nule. Deoarece
numărul de valori nule ale "tobinq" este mai mic, le putem modifica pe cele cu valoarea medie.
După acest proces, am observat că toate valorile nule sunt modificate.

4. Apoi, acum trebuie să știm dacă există valori duplicate sau nu.

Nu există nicio duplicare în setul de date furnizat.

5. Acum, trebuie să descriem setul de date.


6. Analiza univariată:

i) Vânzări:

Nu există nicio excepție prezentă în "Vânzări". Valoarea variază între 0 și 2000.

ii) Capital:

Nu există nicio excepție prezentă în "Capital". Valoarea variază între 0 și 1000.


iii) Brevete:

Din cele de mai sus, se înțelege că nu există valori aberante, iar valorile variază de la 0 la 12.

iv) Randd:

"Randd" nu are valori aberante prezente, iar datele variază între 0 și 150.
v) Angajare:

Variabila "ocuparea forței de muncă" nu are valori aberante, iar datele variază de la 0 t 10.
vi) Tobinq:

Există multe valori aberante prezente în date, care trebuie luate în considerare. Valoarea
variază între 1 și 3.
vii) Valoare:

Nu există valori aberante în setul de date. Valoarea variază între 0 și 2000.


viii) Instituţii:

Nu există valori aberante în setul de date. Valoarea variază de la 20 la 60.


Verificarea corelației dintre variabile:

Vânzările și capitalul sunt din ce în ce mai frecvent legate. Deci, pentru a prezice vânzările , putem lua
"Capital" pentru împărțirea datelor.
Analiza multivariată:
1.2 Imputați valori nule dacă există? Credeți că scalarea este necesară în acest caz? (8
puncte)

Toate valorile nule prezente în baza de date au fost imputate. Scalarea este necesară pentru
a converti variabilele cu măsurători diferite în aceeași măsurătoare.

Scalarea este necesară și în setul nostru de date. Am tratat valorile aberante prezente în
setul de date și apoi am făcut normalizările StandardScaler.

Ans 1.3 Am codificat datele (având valori șir) pentru Model ling și, de asemenea,
am făcut Data Split: Împărțiți datele în test și tren (70:30).

Trebuie să împărțim setul de date dat în instruire și testare prin separarea X și Y, X tren,
X_test,Y_train,Y_test.

Și apoi ne potrivim modelului.

Indicatorii de performanță sunt următorii:

R Square pe datele de antrenament este de 83.15% RMSE pe datele de antrenament este


de 6% RMSE pe datele de testare este de 5.19%

1.4 Inferență:

Înainte de a merge pentru nou, trebuie să verificăm dacă capitalul investit este bun, care se
reflectă în scatterplot.

Variabilele importante sunt valoarea, ocuparea forței de muncă, vânzările și brevetele.


Atributul foarte important este ocuparea forței de muncă și brevetele.

Problema 2: Regresia logistică și LDA


Sunteți angajat de guvern pentru a face analize privind accidentele de mașină. Vi se oferă
detalii despre
accidente de mașină, printre care unii oameni au supraviețuit și alții nu. Trebuie să ajutați
guvernul să prezică dacă o persoană va supraviețui sau nu pe baza informațiilor furnizate în
setul de
date, astfel încât să ofere informații care vor ajuta guvernul să
facă legi mai puternice pentru producătorii de automobile pentru a asigura siguranța meas.
De asemenea, aflați
factorii importanți pe baza cărora ați făcut predicțiile.

2.1 Ingestia de date: Citiți setul de date. Faceți statisticile descriptive și verificați condiția
valorii
nule, scrieți o deducție pe ea. Efectuați analize univariate și bivariate.
Faceți analize de date exploratorii. (8 puncte)

Trebuie să importăm toate fișierele de bibliotecă necesare pentru a procesa analiza datelor.
Trebuie să verificați intrările capului.

Descriere:
Informaţii:

Din cele de mai sus, putem deduce că există în total 15 coloane cu 11217 intrări. Prima coloană este fără
nume . Tipurile de date sunt întregi, float,object.

Pentru a verifica valorile nule din setul de date:


Cu excepția "injSeverity ", toate variabilele nu au valori nule.
Analiza multivariată:

Cele de mai sus arată coliniaritatea dintre variabile.

2.2 Am codificat datele (având valori șir) pentru modelare.


Împărțirea datelor: Am împărțit datele în tren și test (70:30).

Luând "Supraviețuit" ca variabilă țintă, am împărțit datele în tren și test.

Ans 2.3 Valorile de performanță ale regresiei logistice și ale modelului de analiză
discriminantă
liniară sunt prezentate mai jos:

Am împărțit datele în instruire și testare.

Din rezultatele de mai sus, deducem că avem o precizie de 96% pe setul de date de testare.

Pe baza matricei de confuzie, precizia este de 98%.

2.4 Perspective:
 Precizia atât a instruirii, cât și a testării este mai mult sau mai puțin aceeași cu
98%. Matricea confuziei arată, de asemenea, similitudinea. Putem concluziona că
metoda logistică este mai bună pentru a prezice analiza.

You might also like