คำถามติดแท็ก standardization

มักจะหมายถึง "มาตรฐาน z" ซึ่งเป็นข้อมูลที่ขยับและ rescaling เพื่อให้มั่นใจว่าพวกเขามีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนของหน่วย "มาตรฐาน" อื่น ๆ ก็เป็นไปได้เช่นกัน

7
เมื่อทำการถดถอยหลายครั้งคุณควรจัดตำแหน่งตัวแปรตัวทำนายของคุณไว้ที่ใดและเมื่อใดที่คุณควรทำให้เป็นมาตรฐาน
ในวรรณกรรมบางเล่มฉันได้อ่านว่าการถดถอยที่มีตัวแปรอธิบายหลายอย่างหากในหน่วยต่าง ๆ จำเป็นต้องได้มาตรฐาน (การกำหนดมาตรฐานประกอบด้วยการลบค่าเฉลี่ยและการหารด้วยส่วนเบี่ยงเบนมาตรฐาน) ในกรณีอื่นใดที่ฉันต้องทำให้เป็นมาตรฐานข้อมูลของฉัน มีกรณีใดบ้างที่ฉันควรจัดกึ่งกลางข้อมูลของฉัน (เช่นโดยไม่ต้องหารด้วยค่าเบี่ยงเบนมาตรฐาน)

5
การทำให้เป็นมาตรฐานและความแตกต่างคืออะไร
ที่ทำงานเราคุยกันเรื่องนี้ในขณะที่หัวหน้าของฉันไม่เคยได้ยินเกี่ยวกับการทำให้เป็นมาตรฐาน ในพีชคณิตเชิงเส้นดูเหมือนว่าการทำให้เป็นมาตรฐานจะหมายถึงการหารเวกเตอร์ด้วยความยาว และในสถิติมาตรฐานดูเหมือนว่าจะหมายถึงการลบค่าเฉลี่ยแล้วหารด้วย SD แต่พวกเขาดูเหมือนจะเปลี่ยนได้กับความเป็นไปได้อื่น ๆ เช่นกัน เมื่อสร้างคะแนนสากลบางประเภทซึ่งประกอบด้วยตัวชี้วัดที่แตกต่างกันแบบซึ่งมีวิธีการต่างกันและ SD ที่แตกต่างกันคุณจะทำให้ปกติเป็นมาตรฐานหรืออย่างอื่นหรือไม่ คนคนหนึ่งบอกฉันว่ามันเป็นแค่เรื่องของการวัดแต่ละครั้งและหารด้วย SD ของพวกเขาทีละคน จากนั้นรวมทั้งสอง และนั่นจะส่งผลคะแนนสากลที่สามารถใช้ตัดสินทั้งสองเมทริกได้222 ตัวอย่างเช่นสมมติว่าคุณมีจำนวนคนที่ขึ้นรถไฟใต้ดินไปทำงาน (ในนิวยอร์ค) และจำนวนคนที่ขับรถไปทำงาน (ในนิวยอร์ค) รถยนต์⟶ yTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y หากคุณต้องการสร้างคะแนนสากลเพื่อรายงานความผันผวนของการจราจรอย่างรวดเร็วคุณไม่สามารถเพิ่มและค่าเฉลี่ย( y )เพราะจะมีผู้คนจำนวนมากที่ขี่รถไฟ มีคน 8 ล้านคนอาศัยอยู่ในนิวยอร์ครวมถึงนักท่องเที่ยว นั่นคือผู้คนนับล้านที่ขึ้นรถไฟทุกวันข้อร้อยคนในรถยนต์ ดังนั้นพวกเขาจะต้องถูกแปลงให้มีขนาดใกล้เคียงกันเพื่อที่จะเปรียบเทียบmean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) ถ้าmean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 และmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 คุณจะทำให้ & yเป็นปกติแล้วรวม? คุณจะทำให้x & y เป็นมาตรฐานแล้วรวม? หรือคุณจะแบ่งแต่ละส่วนด้วย SD ของพวกเขาแล้วรวม? …

3
ตัวแปรมักจะถูกปรับ (เช่นมาตรฐาน) ก่อนที่จะสร้างแบบจำลอง - นี่เป็นความคิดที่ดีเมื่อใดและเมื่อใดจึงเป็นสิ่งที่ไม่ดี
ในสถานการณ์ใดที่คุณต้องการหรือไม่ต้องการปรับขนาดหรือทำให้มาตรฐานเป็นตัวแปรก่อนที่จะทำการปรับแบบจำลอง ข้อดีและข้อเสียของการปรับขนาดตัวแปรคืออะไร?

3
ทำการปรับสภาพคุณลักษณะก่อนหรือภายในการตรวจสอบรุ่นหรือไม่
แนวปฏิบัติที่ดีทั่วไปในการเรียนรู้ของเครื่องคือการทำคุณลักษณะการทำให้เป็นมาตรฐานหรือมาตรฐานข้อมูลของตัวแปรตัวทำนายนั่นคือทำให้ข้อมูลอยู่กึ่งกลางการแทนที่ค่าเฉลี่ยและทำให้มันเป็นมาตรฐานโดยการหารด้วยความแปรปรวน สำหรับการควบคุมตนเองและเพื่อความเข้าใจของฉันเราทำสิ่งนี้เพื่อให้บรรลุสองสิ่งสำคัญ: หลีกเลี่ยงน้ำหนักรุ่นเล็กพิเศษเพื่อจุดประสงค์ในการรักษาเสถียรภาพของตัวเลข ตรวจสอบให้แน่ใจว่าการรวมกันของอัลกอริธึมการปรับให้เหมาะสมอย่างรวดเร็วเช่น Conjugate Gradient เพื่อให้ขนาดอันใหญ่ของมิติตัวทำนายหนึ่งมิติที่อื่นไม่นำไปสู่การลู่เข้าที่ช้า เรามักจะแบ่งข้อมูลออกเป็นชุดฝึกอบรมตรวจสอบและทดสอบ ในวรรณกรรมเรามักจะเห็นว่าการทำคุณลักษณะให้เป็นมาตรฐานพวกมันใช้ค่าเฉลี่ยและความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน) เหนือชุดตัวแปรทำนายทั้งชุด ข้อบกพร่องใหญ่ ๆ ที่ฉันเห็นที่นี่คือถ้าคุณทำเช่นนั้นคุณกำลังแนะนำข้อมูลในอนาคตให้กับตัวแปรทำนายการฝึกอบรมซึ่งเป็นข้อมูลในอนาคตที่มีอยู่ในค่าเฉลี่ยและความแปรปรวน ดังนั้นฉันจึงทำการปรับสภาพให้เป็นมาตรฐานบนข้อมูลการฝึกอบรมและบันทึกค่าเฉลี่ยและความแปรปรวน จากนั้นฉันจะนำคุณสมบัติการทำให้เป็นมาตรฐานมาใช้กับตัวแปรทำนายของชุดข้อมูลการตรวจสอบความถูกต้องและการทดสอบโดยใช้ค่าเฉลี่ยการฝึกอบรมและผลต่าง มีข้อบกพร่องพื้นฐานกับสิ่งนี้หรือไม่? ใครสามารถแนะนำทางเลือกที่ดีกว่าได้ไหม

1
วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?
ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

3
จำเป็นต้องมีมาตรฐานก่อนการถดถอยโลจิสติกที่เหมาะสมหรือไม่
คำถามของฉันคือเราจำเป็นต้องสร้างมาตรฐานให้กับชุดข้อมูลเพื่อให้แน่ใจว่าตัวแปรทั้งหมดมีขนาดเท่ากันระหว่าง [0,1] ก่อนการถดถอยโลจิสติกที่เหมาะสม สูตรคือ: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} ชุดข้อมูลของฉันมี 2 ตัวแปรพวกเขาอธิบายสิ่งเดียวกันสำหรับสองช่องทาง แต่ปริมาณนั้นแตกต่างกัน สมมติว่าเป็นจำนวนการเข้าชมของลูกค้าในร้านค้าสองแห่งและที่นี่คือว่าลูกค้าซื้อหรือไม่ เพราะลูกค้าสามารถเยี่ยมชมร้านค้าทั้งสองหรือร้านค้าครั้งแรกสองครั้งร้านค้าที่สองก่อนที่เขาจะทำการซื้อ แต่จำนวนการเข้าชมของลูกค้าทั้งหมดสำหรับร้านค้าที่ 1 นั้นใหญ่กว่าร้านที่สองถึง 10 เท่า เมื่อฉันเหมาะสมกับการถดถอยโลจิสติกนี้โดยไม่มีมาตรฐาน, coef(store1)=37, coef(store2)=13; coef(store1)=133, coef(store2)=11ถ้าฉันมาตรฐานข้อมูลแล้ว บางสิ่งเช่นนี้ วิธีใดที่เหมาะสมกว่า ถ้าฉันทำโมเดลต้นไม้ตัดสินใจให้เหมาะสมล่ะ ฉันรู้ว่าโมเดลโครงสร้างแบบต้นไม้ไม่จำเป็นต้องมีมาตรฐานเพราะตัวแบบเองจะปรับมันอย่างใด แต่การตรวจสอบกับคุณทุกคน

2
เมื่อใดและอย่างไรที่จะใช้ตัวแปรอธิบายที่เป็นมาตรฐานในการถดถอยเชิงเส้น
ฉันมีคำถามง่ายๆ 2 ข้อเกี่ยวกับการถดถอยเชิงเส้น: เมื่อใดควรที่จะสร้างมาตรฐานของตัวแปรอธิบาย? เมื่อการประมาณค่าดำเนินการด้วยค่ามาตรฐานแล้วหนึ่งคนจะคาดการณ์ด้วยค่าใหม่ได้อย่างไร (ควรประเมินค่ามาตรฐานใหม่อย่างไร) การอ้างอิงบางอย่างจะเป็นประโยชน์

3
ไม่ว่าจะ rescale ตัวบ่งชี้ / ไบนารี / ตัวจำลองการคาดการณ์สำหรับ LASSO
สำหรับ LASSO (และขั้นตอนการเลือกรุ่นอื่น ๆ ) มันเป็นสิ่งสำคัญที่จะช่วยลดการคาดการณ์ ทั่วไป คำแนะนำของ ผมต่อไปนี้เป็นเพียงการใช้ 0 เฉลี่ย 1 การฟื้นฟูส่วนเบี่ยงเบนมาตรฐานของตัวแปรอย่างต่อเนื่อง แต่จะทำอย่างไรกับหุ่น? เช่นบางตัวอย่างที่นำมาใช้จากโรงเรียนภาคฤดูร้อน (ยอดเยี่ยม) เดียวกันฉันเชื่อมโยงกับ rescales ตัวแปรต่อเนื่องให้อยู่ระหว่าง 0 และ 1 (ไม่ดีกับค่าผิดปกติแม้ว่า) อาจเทียบได้กับหุ่น แต่ถึงอย่างนั้นก็ไม่ได้รับประกันว่าสัมประสิทธิ์ควรจะมีขนาดเท่ากันและทำให้ถูกลงโทษในทำนองเดียวกันเหตุผลสำคัญสำหรับการช่วยชีวิตไม่ใช่?

2
มาตรฐานก่อน Lasso จำเป็นจริงๆหรือ?
ฉันได้อ่านเหตุผลหลักสามข้อสำหรับการกำหนดค่ามาตรฐานให้กับตัวแปรก่อนหน้าบางอย่างเช่นLassoการถดถอย: 1) การตีความค่าสัมประสิทธิ์ 2) ความสามารถในการจัดอันดับความสำคัญของค่าสัมประสิทธิ์โดยขนาดสัมพัทธ์ของการประมาณค่าสัมประสิทธิ์หลังการหดตัว 3) ไม่ต้องมีการสกัดกั้น แต่ฉันสงสัยเกี่ยวกับจุดที่สำคัญที่สุด เรามีเหตุผลหรือไม่ที่จะคิดว่าการสร้างมาตรฐานจะช่วยปรับปรุงการวางนัยทั่วไปของตัวอย่าง? นอกจากนี้ฉันไม่สนใจว่าฉันไม่ต้องการการสกัดกั้นในแบบจำลองของฉันหรือไม่ เพิ่มหนึ่งไม่เจ็บฉัน

4
ความแตกต่างระหว่างการสร้างมาตรฐานและการเป็นนักเรียนเป็นอย่างไร
เป็นที่ทราบหรือไม่ว่าในความแปรปรวนของมาตรฐานในขณะที่อยู่ในการทำให้เป็นนักเรียนมันไม่เป็นที่รู้จัก ขอขอบคุณ.

3
“ การทำให้เป็นมาตรฐาน” หมายถึงอะไรและวิธีการตรวจสอบว่าตัวอย่างหรือการกระจายได้รับการทำให้เป็นมาตรฐาน
ฉันมีคำถามที่ขอให้ตรวจสอบว่าการแจกแจงแบบฟอร์ม ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) เป็นมาตรฐานหรือไม่ สำหรับหนึ่งแล้วการกระจายแบบใดที่จะทำให้เป็นมาตรฐาน และสองเราจะตรวจสอบได้อย่างไรว่าการแจกแจงเป็นแบบปกติหรือไม่? ฉันเข้าใจโดยการคำนวณ X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} เราได้รับข้อมูลที่ทำให้เป็นมาตรฐานแต่ที่นี่มันจะขอให้ตรวจสอบว่าการกระจายเป็นปกติหรือไม่

2
คำถามเกี่ยวกับการสร้างมาตรฐานในการถดถอยแบบสัน
เฮ้พวกฉันพบเอกสารหนึ่งหรือสองฉบับที่ใช้การถดถอยแบบสัน (สำหรับข้อมูลบาสเก็ตบอล) ฉันได้รับคำสั่งให้ปรับมาตรฐานตัวแปรของฉันเสมอถ้าฉันวิ่งสันเขาถดถอย แต่ฉันก็แค่บอกให้ทำอย่างนี้เพราะสันเขาเป็นตัวแปรขนาด (การถดถอยสันไม่ได้เป็นส่วนหนึ่งของหลักสูตรของเรา เอกสารเหล่านี้ที่ฉันอ่านไม่ได้ทำให้ตัวแปรของพวกเขาเป็นมาตรฐานซึ่งฉันพบว่าน่าแปลกใจเล็กน้อย พวกเขายังจบลงด้วยค่าแลมบ์ดาขนาดใหญ่ (ประมาณระดับ 2,000-4,000) ผ่านการตรวจสอบความถูกต้องของข้อมูลและฉันได้รับการบอกว่าสิ่งนี้เกิดจากการไม่ปรับมาตรฐานของตัวแปร การปล่อยให้ตัวแปรนำไปสู่ค่าแลมบ์ดาที่ไม่ได้มาตรฐานนั้นมีความแม่นยำเพียงใดและผลที่ตามมาของการไม่ทำให้ตัวแปรโดยทั่วไปเป็นมาตรฐานคืออะไร มันเป็นเรื่องใหญ่จริงเหรอ? ความช่วยเหลือใด ๆ ที่ชื่นชมมาก

2
เป็นการดีที่จะสร้างมาตรฐานข้อมูลของคุณในการถดถอยด้วยข้อมูลแบบพาเนล / ยาว
โดยทั่วไปฉันสร้างมาตรฐานตัวแปรอิสระของฉันในการถดถอยเพื่อเปรียบเทียบสัมประสิทธิ์อย่างถูกต้อง (ด้วยวิธีนี้พวกเขามีหน่วยเดียวกัน: ส่วนเบี่ยงเบนมาตรฐาน) อย่างไรก็ตามด้วยข้อมูลแบบพาเนล / ยาวฉันไม่แน่ใจว่าฉันควรทำให้ข้อมูลของฉันเป็นมาตรฐานโดยเฉพาะอย่างยิ่งถ้าฉันประเมินโมเดลแบบลำดับชั้น หากต้องการดูสาเหตุที่อาจเป็นปัญหาที่อาจเกิดขึ้นสมมติว่าคุณมีi=1,…,ni=1,…,ni = 1, \ldots, nบุคคลที่วัดตามช่วงเวลาและคุณวัดตัวแปรตาม,และตัวแปรอิสระหนึ่งตัวt} หากคุณใช้การรวมการถดถอยแบบสมบูรณ์คุณสามารถสร้างมาตรฐานของข้อมูลด้วยวิธีนี้:เนื่องจากจะไม่เปลี่ยน t- สถิติ. ในทางกลับกันถ้าคุณพอดีกับการถดถอยที่ไม่รวมคือการถดถอยหนึ่งครั้งสำหรับแต่ละคนคุณควรสร้างมาตรฐานให้กับข้อมูลของคุณเป็นรายบุคคลเท่านั้นไม่ใช่ชุดข้อมูลทั้งหมด (ในรหัส R):Y ผม, เสื้อ x ฉัน, เสื้อ x z = ( x - หมายถึง( x ) ) / sd ( x )t=1,…,Tt=1,…,Tt=1,\ldots, Tyi,tyi,ty_{i,t}xi,txi,tx_{i,t}x.z=(x−mean(x))/sd(x)x.z=(x−mean(x))/sd(x)x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in …

1
ความต้องการสำหรับการจัดศูนย์กลางและข้อมูลที่เป็นมาตรฐานในการถดถอย
พิจารณาการถดถอยเชิงเส้นด้วยการทำให้เป็นมาตรฐาน: เช่นค้นหาที่ย่อเล็กสุด| | A x - b | | 2 + λ | | x | |xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 โดยปกติคอลัมน์ของ A จะเป็นมาตรฐานที่จะมีค่าเฉลี่ยศูนย์และบรรทัดฐานของหน่วยในขณะที่ bbbอยู่ตรงกลางให้มีค่าเฉลี่ยเป็นศูนย์ ฉันต้องการตรวจสอบให้แน่ใจว่าการทำความเข้าใจเกี่ยวกับเหตุผลในการกำหนดมาตรฐานและการจัดกึ่งกลางถูกต้องหรือไม่ ด้วยการทำให้คอลัมน์และbเป็นศูนย์ทำให้เราไม่จำเป็นต้องมีคำดักจับอีกต่อไป มิฉะนั้นวัตถุประสงค์จะเป็น| | A x - x 0 1 - b | | 2 + λ | | x | | 1 . ด้วยการสร้างบรรทัดฐานของคอลัมน์ A เท่ากับ …

2
ฟอเรสต์แบบสุ่มจำเป็นต้องปรับขนาดตัวแปรอินพุตหรือให้อยู่กึ่งกลางหรือไม่
ตัวแปรอินพุตของฉันมีมิติที่แตกต่างกัน ตัวแปรบางตัวเป็นทศนิยมในขณะที่บางส่วนมีหลายร้อย จำเป็นหรือไม่ที่จะจัดกึ่งกลาง (ลบค่าเฉลี่ย) หรือมาตราส่วน (หารด้วยส่วนเบี่ยงเบนมาตรฐาน) ตัวแปรอินพุตเหล่านี้เพื่อทำให้ข้อมูลไม่มีมิติเมื่อใช้ฟอเรสต์แบบสุ่ม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.