主にカテゴリ/名義であるx変数のトンを含むデータがあり、ターゲット変数はマルチクラスラベルです。マルチクラス変数を予測し、それぞれのパフォーマンスを比較するために、いくつかのモデルを構築することができます。トレーニングとテストのデータがあります。トレーニングデータとテストデータの両方で、良い結果が得られました。
今、私はモデルが特定のY変数を予測した「理由」を見つけようとしていますか?気象データがある場合の意味:X変数:都市、州、郵便番号、気温、年。Y変数:雨、太陽、曇り、雪。モデルが「なぜ」予測したのか、雨、太陽、曇り、雪などを丁寧に調べたいと思います。マルチノミナル、ディシジョンツリーなどの分類アルゴリズムを使用しました
これは幅広い質問かもしれませんが、私はどこかで研究を始めることができる必要があります。「何」を予測することはできますが、「なぜ」が雨、太陽、曇り、または雪のラベルとして予測されたのかわかりません。基本的に、私は変数を予測する原因となった変数間のリンクを見つけようとしています。
これまでのところ、相関行列、主成分分析(モデル構築プロセス中に発生)を使用することを考えていました...少なくとも、どれが優れた予測子で、どれがそうでないかを確認するためです。「なぜ」の要因を理解する方法はありますか?