파이썬 데이터 분할

1 개요[ | ]

파이썬 데이터 분할

2 np.arange()[ | ]

np.arange() 문서를 참고하십시오.

# 데이터 준비
from sklearn import datasets
iris = datasets.load_iris()
df_x = iris.data
df_y = iris.target
print( len(df_x), len(df_y) ) # 150 150

# 훈련셋/테스트셋 분리
import numpy as np
train_x = df_x[np.arange(len(df_x)) % 5 != 4] # 매 5번째만 제외
train_y = df_y[np.arange(len(df_y)) % 5 != 4] # 매 5번째만 제외
test_x  = df_x[np.arange(len(df_x)) % 5 == 4] # 매 5번째만 포함
test_y  = df_y[np.arange(len(df_y)) % 5 == 4] # 매 5번째만 포함
print( len(train_x), len(train_y) ) # 120 120
print( len(test_x), len(test_y) )   # 30 30

3 train_test_split()[ | ]

Sklearn train_test_split() 문서를 참고하십시오.

import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
print( "X=\n", X )
print( "y=", list(y) )
print( "--------------------" )
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
print( "X_train=\n", X_train )
print( "y_train=", y_train )
print( "--------------------" )
print( "X_test=\n", X_test)
print( "y_test=", y_test)

4 같이 보기[ | ]