sklearnのx_test、x_train、y_test、y_trainの違いは何ですか?

-1
Jancer Lima 2020-03-12 02:49.

私はsklearnを学んでいますが、その違いと、関数train_test_splitで4つの出力を使用する理由をよく理解していませんでした。

ドキュメントでいくつかの例を見つけましたが、疑問を終わらせるには十分ではありませんでした。

コードはx_trainを使用してx_testを予測しますか、それともx_trainを使用してy_testを予測しますか?

電車とテストの違いは何ですか?電車を使ってテストなどを予測しますか?

私はそれについて非常に混乱しています。以下に、ドキュメントに記載されている例を示します。

>>> import numpy as np  
>>> from sklearn.model_selection import train_test_split  
>>> X, y = np.arange(10).reshape((5, 2)), range(5)  
>>> X
array([[0, 1], 
       [2, 3],  
       [4, 5],  
       [6, 7],  
       [8, 9]])  
>>> list(y)  
[0, 1, 2, 3, 4] 
>>> X_train, X_test, y_train, y_test = train_test_split(  
...     X, y, test_size=0.33, random_state=42)  
...  
>>> X_train  
array([[4, 5], 
       [0, 1],  
       [6, 7]])  
>>> y_train  
[2, 0, 3]  
>>> X_test  
array([[2, 3], 
       [8, 9]])  
>>> y_test  
[1, 4]  
>>> train_test_split(y, shuffle=False)  
[[0, 1, 2], [3, 4]]

3 answers

5
ManojK 2020-03-12 04:05.

以下は、pandas.DataFrameたとえばダミーです。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

df = pd.DataFrame({'X1':[100,120,140,200,230,400,500,540,600,625],
                       'X2':[14,15,22,24,23,31,33,35,40,40],
                       'Y':[0,0,0,0,1,1,1,1,1,1]})

ここでは、3列を持っているX1,X2,Yと仮定しX1 & X2、あなたの独立変数であり、'Y'カラムは、あなたの従属変数です。

X = df[['X1','X2']]
y = df['Y']

sklearn.model_selection.train_test_splitあなたがフィット値を予測するために使用されるデータの4つの部分を作成しています。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4,random_state=42) 

X_train, X_test, y_train, y_test

1)。X_train-これにはすべての独立変数が含まれます。これらはモデルのトレーニングに使用されます。またtest_size = 0.4、指定したとおり60%、完全なデータからの観測のこの手段はモデルのトレーニング/適合に使用され、残り40%はテストに使用されます。モデル。

2)。X_test-これは40%、トレーニングフェーズでは使用されず、モデルの精度をテストするための予測を行うために使用される、データからの独立変数の残りの部分です。

3)。y_train-これは、このモデルで予測する必要がある従属変数です。これには、独立変数に対するカテゴリラベルが含まれます。モデルのトレーニング/フィッティング中に、従属変数を指定する必要があります。

4)。y_test-このデータには、テストデータのカテゴリラベルがあります。これらのラベルは、実際のカテゴリと予測されたカテゴリの間の精度をテストするために使用されます。

これで、このデータにモデルを適合させることができます。適合させましょう sklearn.linear_model.LogisticRegression

logreg = LogisticRegression()
logreg.fit(X_train, y_train) #This is where the training is taking place
y_pred_logreg = logreg.predict(X_test) #Making predictions to test the model on test data
print('Logistic Regression Train accuracy %s' % logreg.score(X_train, y_train)) #Train accuracy
#Logistic Regression Train accuracy 0.8333333333333334
print('Logistic Regression Test accuracy %s' % accuracy_score(y_pred_logreg, y_test)) #Test accuracy
#Logistic Regression Test accuracy 0.5
print(confusion_matrix(y_test, y_pred_logreg)) #Confusion matrix
print(classification_report(y_test, y_pred_logreg)) #Classification Report

メトリックについて詳しくは、こちらをご覧ください

データ分割の詳細については、こちらをご覧ください

お役に立てれば:)

0
Thomas Schillaci 2020-03-12 02:52.

トレーニングセットを使用して分類器/リグレッサーをトレーニングし、テストセットを使用してテスト/評価することになっています。

あなたの分類器/回帰の用途x_trainに予測するy_predと違い使用y_predしてy_train学ぶために(損失関数スルー)。次に、x_test(の名前も付けられますy_pred)との予測間の損失を計算することによってそれを評価しますy_test

0
Ramkumar Thayumanavan 2020-11-22 02:07.

Xを1000データポイント、Yを整数クラスラベル(各データポイントが属するクラス)と見なします。

例:
X = [1.24 2.36 3.24 ...(1000項)
Y = [1,0,0,1 .....(1000項)]

600:400の比率で分割しています

X_train =>には600個のデータポイントがあります

Y_train =>には400個のデータポイントがあります

X_test =>には、600個のデータポイントに対応するクラスラベルがあります

Y_test =>には、400個のデータポイントに対応するクラスラベルがあります

Related questions

MORE COOL STUFF

Reba McEntire は、彼女が息子の Shelby Blackstock と共有する「楽しい」クリスマスの伝統を明らかにしました:「私たちはたくさん笑います」

Reba McEntire は、彼女が息子の Shelby Blackstock と共有する「楽しい」クリスマスの伝統を明らかにしました:「私たちはたくさん笑います」

Reba McEntire が息子の Shelby Blackstock と共有しているクリスマスの伝統について学びましょう。

メーガン・マークルは、自然な髪のスタイリングをめぐってマライア・キャリーと結ばれました

メーガン・マークルは、自然な髪のスタイリングをめぐってマライア・キャリーと結ばれました

メーガン・マークルとマライア・キャリーが自然な髪の上でどのように結合したかについて、メーガンの「アーキタイプ」ポッドキャストのエピソードで学びましょう.

ハリー王子は家族との関係を修復できるという「希望を持っている」:「彼は父親と兄弟を愛している」

ハリー王子は家族との関係を修復できるという「希望を持っている」:「彼は父親と兄弟を愛している」

ハリー王子が家族、特にチャールズ王とウィリアム王子との関係について望んでいると主張したある情報源を発見してください。

ワイノナ・ジャッドは、パニックに陥った休暇の瞬間に、彼女がジャッド家の家長であることを認識しました

ワイノナ・ジャッドは、パニックに陥った休暇の瞬間に、彼女がジャッド家の家長であることを認識しました

ワイノナ・ジャッドが、母親のナオミ・ジャッドが亡くなってから初めての感謝祭のお祝いを主催しているときに、彼女が今では家長であることをどのように認識したかを学びましょう.

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セント ヘレナ島のジェイコブズ ラダーは 699 段の真っ直ぐ上る階段で、頂上に到達すると証明書が発行されるほどの難易度です。

The Secrets of Airline Travel Quiz

The Secrets of Airline Travel Quiz

Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?

Where in the World Are You? Take our GeoGuesser Quiz

Where in the World Are You? Take our GeoGuesser Quiz

The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!

バイオニック読書はあなたをより速く読むことができますか?

バイオニック読書はあなたをより速く読むことができますか?

BionicReadingアプリの人気が爆発的に高まっています。しかし、それは本当にあなたを速読術にすることができますか?

SlingTVのGivingAwayRokuとAmazonStreaming Sticks

SlingTVのGivingAwayRokuとAmazonStreaming Sticks

Sling TVは、私たちが待ち望んでいたオーバーザトップTVサービスであり(少なくとも、AMCを取得すると、それが実現します)、現在、サインアップするためだけに人気のストリーミングデバイスを提供しています。ここにはいくつかのオプションがありますが、それらはすべて、3か月のサービスに対して60ドルを前払いする必要があります。

それにふたを置きます。実際、すべてに蓋をしてください。14ドルで12個のシリコンストレッチキッチン蓋を手に入れよう. [エクスクルーシブ]

それにふたを置きます。実際、すべてに蓋をしてください。14ドルで12個のシリコンストレッチキッチン蓋を手に入れよう. [エクスクルーシブ]

Tomorrow's Kitchen シリコンストレッチ蓋 12個パック | $14 | アマゾン | プロモーション コード 20OFFKINJALids は基本的にキッチンの靴下です。常に迷子になり、二度と閉じられない孤立したコンテナーが残ります。しかし、蓋が伸びて、残った容器、鍋、フライパン、さらには大きなスライスされた果物のすべてに適合するとしたらどうでしょうか? その非常に特殊な蓋を失うことを二度と心配する必要はありません。

あなたの最高のワシントン DC ハックを教えてください

あなたの最高のワシントン DC ハックを教えてください

このコラムでは、ロサンゼルスやラスベガスなど、いくつかの産業都市をハッキングしました。今こそ、軍産複合都市の時代です。

ある小売業者は、プラスサイズのセクションを廃止し、より大きなサイズを他のすべてのものと混ぜ合わせています

ある小売業者は、プラスサイズのセクションを廃止し、より大きなサイズを他のすべてのものと混ぜ合わせています

ある小売業者は、プラスサイズのセクションを缶詰にしています。しかし、彼らはこのカテゴリーをオンラインのみにとどめたり、完全に廃止したりしているわけではありません。

米国のフィギュア スケートは、チーム イベントでの最終決定の欠如に「苛立ち」、公正な裁定を求める

米国のフィギュア スケートは、チーム イベントでの最終決定の欠如に「苛立ち」、公正な裁定を求める

ロシアのフィギュアスケーター、カミラ・バリエバが関与したドーピング事件が整理されているため、チームは2022年北京冬季オリンピックで獲得したメダルを待っています。

Amazonの買い物客は、わずか10ドルのシルクの枕カバーのおかげで、「甘やかされた赤ちゃんのように」眠れると言っています

Amazonの買い物客は、わずか10ドルのシルクの枕カバーのおかげで、「甘やかされた赤ちゃんのように」眠れると言っています

何千人ものAmazonの買い物客がMulberry Silk Pillowcaseを推奨しており、現在販売中. シルクの枕カバーにはいくつかの色があり、髪を柔らかく肌を透明に保ちます。Amazonで最大46%オフになっている間にシルクの枕カバーを購入してください

パデュー大学の教授が覚醒剤を扱った疑いで逮捕され、女性に性的好意を抱かせる

パデュー大学の教授が覚醒剤を扱った疑いで逮捕され、女性に性的好意を抱かせる

ラファイエット警察署は、「不審な男性が女性に近づいた」という複数の苦情を受けて、12 月にパデュー大学の教授の捜査を開始しました。

コンセプト ドリフト: AI にとって世界の変化は速すぎる

コンセプト ドリフト: AI にとって世界の変化は速すぎる

私たちの周りの世界と同じように、言語は常に変化しています。以前の時代では、言語の変化は数年または数十年にわたって発生していましたが、現在では数日または数時間で変化する可能性があります。

SF攻撃で91歳のアジア人女性が殴られ、コンクリートに叩きつけられた

犯罪擁護派のオークランドが暴力犯罪者のロミオ・ロレンゾ・パーハムを釈放

SF攻撃で91歳のアジア人女性が殴られ、コンクリートに叩きつけられた

認知症を患っている 91 歳のアジア人女性が最近、47 番街のアウター サンセット地区でロメオ ロレンゾ パーハムに襲われました。伝えられるところによると、被害者はサンフランシスコの通りを歩いていたところ、容疑者に近づき、攻撃を受け、暴行を受けました。

ℝ

“And a river went out of Eden to water the garden, and from thence it was parted and became into four heads” Genesis 2:10. ? The heart is located in the middle of the thoracic cavity, pointing eastward.

メリック・ガーランドはアメリカに失敗しましたか?

バイデン大統領の任期の半分以上です。メリック・ガーランドは何を待っていますか?

メリック・ガーランドはアメリカに失敗しましたか?

人々にチャンスを与えることは、人生で少し遅すぎると私は信じています。寛大に。

Language