Data leakageについて

テストデータに余計な情報が含まれてしまうと精度が信頼できなくなる。

例えば、データアーギュメンテーションしてからトレーニングデータとテストデータを分けるとどうなるか?

こうすると同じデータを平行移動しただけのデータでテストするようなことが起きる。

過学習していたとしてもテストデータの精度も高くなるので気づかない。

全く新しいデータでテストして精度が出ずに悩むことになる。

トレーニングデータとテストデータを分けてからトレーニングデータだけデータアーギュメンテーションするのが良い方法だと思う。

Leakage | Kaggle

machine learning - How to do data augmentation and train-validate split? - Cross Validated