การปฏิบัติทั่วไป
a) ข้อมูลการฝึกอบรม - ใช้สำหรับเลือกพารามิเตอร์รุ่น
i) E.g., finding intercept and slope parameters for an ordinary linear
regression model.
ii) The noise in the training data-set is used in some extent
in over-fitting model parameters.
b) ข้อมูลการตรวจสอบความถูกต้อง - ใช้สำหรับการเลือกพารามิเตอร์ไฮเปอร์
i) E.g., we may want to test three different models at step 1.a, say
linear model with one, two or three variables.
ii) The validation data-set is independent from training data, and thus, they provide
'unbiased' evaluation to the models, which help to decide which
hyper-parameter to use.
iii) We note that, a model trained in 1.a, say y = b_0+b_1*x_1, does
not learn anything from this data-set. So, the noise in this data-
set is not used to over-fit the parameters (b_0, b_1), but, over-
fit exists in choosing which linear model to use (in terms of
number of variables).
c) ข้อมูลทดสอบ - ใช้เพื่อสร้างความมั่นใจในผลลัพธ์จากสองขั้นตอนข้างต้น
i) Used once a model is completely trained
อีกวิธีในการดูตอนที่ 1
a) โมเดลผู้สมัครของเราเป็นชุด 5-dimenson กล่าวคือ
i) Dimension 1: number of variables to keep in the regression model,
e.g., [1, 2, 3].
ii) Dimension 2-5: (b_0, b_1, b_2, b_3).
b) ขั้นตอนที่ 1a ลดผู้สมัครรุ่นจาก 5 มิติเป็น 1 มิติ
c) ขั้นตอนที่ 1b ลดผู้สมัครรุ่นจาก 1 มิติเป็น 0 มิติซึ่งเป็นรุ่นเดียว
d) อย่างไรก็ตาม OP อาจคิดว่าผลลัพธ์ 'สุดท้าย' ด้านบนนั้นทำงานได้ไม่ดีพอในชุดข้อมูลการทดสอบและทำซ้ำกระบวนการทั้งหมดอีกครั้งโดยใช้การถดถอยแบบสันแทนการถดถอยเชิงเส้นปกติ จากนั้นชุดข้อมูลทดสอบจะถูกใช้หลายครั้งและอาจทำให้เกิดเสียงรบกวนในข้อมูลนี้อาจทำให้เกิดการ overfitting ในการตัดสินใจว่าจะใช้การถดถอยเชิงเส้นหรือการถดถอยแนวสัน
e) เพื่อจัดการกับพูลโมเดลมิติสูงที่มีพารามิเตอร์พารามิเตอร์ไฮเปอร์พารามิเตอร์ประเภทโมเดลและวิธีการประมวลผลล่วงหน้าการแยกใด ๆ กับข้อมูลที่มีให้เรานั้นสำคัญคือการกำหนดกระบวนการตัดสินใจ
i) Sequentially reducing the model pool to zero-dimension.
ii) Allocating data noise overfitting to different steps of dimension
reductions (overfitting the noise in the data is not avoidable but
could be allocated smartly).
สรุปและตอบคำถามของ OP
a) Two-split (การฝึกอบรมและการทดสอบ), Three-Split (การฝึกอบรม, การตรวจสอบและการทดสอบ) หรือจำนวนที่สูงขึ้นของการแบ่งเป็นหลักเกี่ยวกับการลดขนาดและการจัดสรรข้อมูล (โดยเฉพาะเสียงรบกวนและความเสี่ยง
b) ในบางขั้นตอนคุณอาจพบกลุ่มผู้สมัครสุดท้ายและจากนั้นคุณสามารถคิดถึงวิธีการออกแบบกระบวนการลดมิติตามลำดับเช่น
i) At each step of reducing the dimensions, the output is satisfactory,
e.g., not using just 10 data points with large noise to estimate a
six-parameter liner model.
ii) There are enough data for you to reduce the dimension to zero
finally.
c) ถ้าคุณไม่สามารถบรรลุข
i) Use model and data insight to reduce the overall dimensionality of
your model pool. E.g., liner regression is sensitive to outliers thus
not good for data with many large outliers.
ii) Choose robust non-parametric models or models with less number of
parameter if possible.
iii) Smartly allocating the data available at each step of reducing the
dimensionality. There is some goodness of fit tests to help us decide
whether the data we use to train the model is enough or not.