Data Analiz aşaması için SQL olmazsa olmaz bir araçtır. İyi bir model yapabilmek için datayı iyi analiz etmek gerekmektedir.
Bu yazımda SQL fonksiyonlarının Python kullanılarak nasıl yazılabileceğini göstereceğim. İstenen çıktıyı verecek birden fazla metot olabileceğini unutmadan yazıyı okumanızı tavsiye ederim.
Bu çalışma için dataseti buradan indirebilirsiniz. Dataseti,python dosyanızın olduğu dizine "loan_train" adıyla yükleyin. Birçok fonksiyon olduğu için yazıyı partlara ayırdım. Diğer partlara yazının sonundaki yönlendirmelerle ulaşabilirsiniz.
Part1 de SQL de data analiz aşamasında sıklıkla kullanılan aşağıdaki kodların Python'da nasıl yazılacağını öğreneceğiz. Basitten zora doğru gideceğiz. İncelemek istediğiniz koda tıklayarak kodun yazımına doğrudan ilerleyebilirsiniz. İlerlediğiniz sayfadan tekrar buraya dönmek için kural adına tıklamanız yeterlidir.
- SELECT * FROM X
- SELECT A,B,C FROM X
- SELECT * FROM X ORDER BY A ASC
- SELECT * FROM X ORDER BY A DESC
- SELECT * FROM X ORDER BY A DESC,B DESC
- SELECT * FROM X ORDER BY A DESC, B ASC
- SELECT * FROM X WHERE ....
- SELECT A,B,C FROM X WHERE...
- SELECT * FROM X WHERE .... AND ....
- SELECT * FROM X WHERE .... OR ....
- SELECT * FROM X WHERE .... IN ....
- SELECT * FROM X WHERE .... NOT IN ...
- SELECT * FROM X WHERE .... LIKE ....
- SELECT * FROM X WHERE ... NOT LIKE ....
- SELECT * FROM X WHERE .... IS NULL
import pandas as pd import numpy as np loan_data=pd.read_csv("loan_train.csv",delimiter=",") loan_data.head()
loan_data
loan_data[["Loan_ID","Gender","ApplicantIncome"]] #1.yol
loan_data.loc[:,["Loan_ID","Gender","ApplicantIncome"]] #2.yol
loan_data.iloc[:,[0,1,6]] #3.yol
loan_data.sort_values("ApplicantIncome")
loan_data.sort_values("ApplicantIncome",ascending=False)
loan_data.sort_values(["LoanAmount","ApplicantIncome"],ascending=[False,False])
loan_data.sort_values(["LoanAmount","Loan_Amount_Term"],ascending=[False,True])
loan_data[loan_data.Loan_Amount_Term>180]
loan_data[loan_data.Self_Employed=="Yes"][["Loan_ID","Gender","Education"]] #1.yol
loan_data[["Loan_ID","Gender","Education"]][loan_data.Self_Employed=="Yes"] #2.yol
loan_data[["Loan_ID","Gender","Education"]][(loan_data.Self_Employed=="Yes") & (loan_data.ApplicantIncome>4000)]
loan_data[(loan_data.Gender=="Female") & (loan_data.Education=="Not Graduate")]
11) SELECT * FROM X WHERE .... IN ....
loan_data[loan_data["Property_Area"].isin(["Urban","Rural"])]
loan_data[~loan_data["Property_Area"].isin(["Urban","Rural"])]
loan_data[loan_data["Property_Area"].str.contains("Urban")]
14) SELECT * FROM X WHERE .... NOT LIKE ....
loan_data[~loan_data["Property_Area"].str.contains("Urban")]
loan_data.isnull().sum()
Belirlenen bir değişkendeki boş kayıtları göstermek için;
loan_data[loan_data.Credit_History.isna()] #1.yol
loan_data[loan_data.Credit_History.isnull()] #2.yol
Yazı çok uzun olduğu için burada kesiyorum. Okuduğunuz için teşekkürler.
Yorumlar
Yorum Gönder