คำถามติดแท็ก normalization

โดยปกติ "การทำให้เป็นมาตรฐาน" หมายถึงการแสดงข้อมูลอีกครั้งเพื่อให้ค่าอยู่ในช่วงที่ระบุ

6
วิธีการทำให้ข้อมูลกลับสู่ช่วง 0-1 เป็นปกติ
ฉันหลงทางในการทำให้ปกติ ฉันมีค่าต่ำสุดและค่าสูงสุดคือ -23.89 และ 7.54990767 ตามลำดับ หากฉันได้รับค่า 5.6878 ฉันจะขยายมูลค่านี้เป็นระดับ 0 ถึง 1 ได้อย่างไร

5
การทำให้เป็นมาตรฐานและความแตกต่างคืออะไร
ที่ทำงานเราคุยกันเรื่องนี้ในขณะที่หัวหน้าของฉันไม่เคยได้ยินเกี่ยวกับการทำให้เป็นมาตรฐาน ในพีชคณิตเชิงเส้นดูเหมือนว่าการทำให้เป็นมาตรฐานจะหมายถึงการหารเวกเตอร์ด้วยความยาว และในสถิติมาตรฐานดูเหมือนว่าจะหมายถึงการลบค่าเฉลี่ยแล้วหารด้วย SD แต่พวกเขาดูเหมือนจะเปลี่ยนได้กับความเป็นไปได้อื่น ๆ เช่นกัน เมื่อสร้างคะแนนสากลบางประเภทซึ่งประกอบด้วยตัวชี้วัดที่แตกต่างกันแบบซึ่งมีวิธีการต่างกันและ SD ที่แตกต่างกันคุณจะทำให้ปกติเป็นมาตรฐานหรืออย่างอื่นหรือไม่ คนคนหนึ่งบอกฉันว่ามันเป็นแค่เรื่องของการวัดแต่ละครั้งและหารด้วย SD ของพวกเขาทีละคน จากนั้นรวมทั้งสอง และนั่นจะส่งผลคะแนนสากลที่สามารถใช้ตัดสินทั้งสองเมทริกได้222 ตัวอย่างเช่นสมมติว่าคุณมีจำนวนคนที่ขึ้นรถไฟใต้ดินไปทำงาน (ในนิวยอร์ค) และจำนวนคนที่ขับรถไปทำงาน (ในนิวยอร์ค) รถยนต์⟶ yTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y หากคุณต้องการสร้างคะแนนสากลเพื่อรายงานความผันผวนของการจราจรอย่างรวดเร็วคุณไม่สามารถเพิ่มและค่าเฉลี่ย( y )เพราะจะมีผู้คนจำนวนมากที่ขี่รถไฟ มีคน 8 ล้านคนอาศัยอยู่ในนิวยอร์ครวมถึงนักท่องเที่ยว นั่นคือผู้คนนับล้านที่ขึ้นรถไฟทุกวันข้อร้อยคนในรถยนต์ ดังนั้นพวกเขาจะต้องถูกแปลงให้มีขนาดใกล้เคียงกันเพื่อที่จะเปรียบเทียบmean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) ถ้าmean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 และmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 คุณจะทำให้ & yเป็นปกติแล้วรวม? คุณจะทำให้x & y เป็นมาตรฐานแล้วรวม? หรือคุณจะแบ่งแต่ละส่วนด้วย SD ของพวกเขาแล้วรวม? …

6
น้ำหนักเริ่มต้นที่ดีในเครือข่ายประสาทคืออะไร
ฉันเพิ่งได้ยินมาว่าเป็นความคิดที่ดีที่จะเลือกน้ำหนักเริ่มต้นของโครงข่ายประสาทจากช่วงโดยที่คือ จำนวนอินพุตไปยังเซลล์ประสาทที่กำหนด สันนิษฐานว่าเซตเหล่านั้นได้รับการทำให้เป็นมาตรฐาน - หมายถึง 0, ความแปรปรวน 1 (ไม่ทราบว่ามีความสำคัญหรือไม่)d( - 1d√, 1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd ทำไมนี่เป็นความคิดที่ดี?

9
การปรับมาตรฐานและการปรับขนาดคุณสมบัติทำงานอย่างไรและทำไม
ฉันเห็นว่าอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากทำงานได้ดีขึ้นด้วยการยกเลิกค่าเฉลี่ยและการทำให้เท่ากันความแปรปรวนร่วม ตัวอย่างเช่นโครงข่ายประสาทมีแนวโน้มที่จะมาบรรจบกันเร็วขึ้นและโดยทั่วไป K-Means จะให้การจัดกลุ่มที่ดีขึ้นด้วยคุณสมบัติที่ประมวลผลล่วงหน้า ฉันไม่เห็นปรีชาที่อยู่เบื้องหลังขั้นตอนการประมวลผลล่วงหน้าเหล่านี้นำไปสู่การปรับปรุงประสิทธิภาพ มีคนอธิบายเรื่องนี้กับฉันได้ไหม

3
ทำการปรับสภาพคุณลักษณะก่อนหรือภายในการตรวจสอบรุ่นหรือไม่
แนวปฏิบัติที่ดีทั่วไปในการเรียนรู้ของเครื่องคือการทำคุณลักษณะการทำให้เป็นมาตรฐานหรือมาตรฐานข้อมูลของตัวแปรตัวทำนายนั่นคือทำให้ข้อมูลอยู่กึ่งกลางการแทนที่ค่าเฉลี่ยและทำให้มันเป็นมาตรฐานโดยการหารด้วยความแปรปรวน สำหรับการควบคุมตนเองและเพื่อความเข้าใจของฉันเราทำสิ่งนี้เพื่อให้บรรลุสองสิ่งสำคัญ: หลีกเลี่ยงน้ำหนักรุ่นเล็กพิเศษเพื่อจุดประสงค์ในการรักษาเสถียรภาพของตัวเลข ตรวจสอบให้แน่ใจว่าการรวมกันของอัลกอริธึมการปรับให้เหมาะสมอย่างรวดเร็วเช่น Conjugate Gradient เพื่อให้ขนาดอันใหญ่ของมิติตัวทำนายหนึ่งมิติที่อื่นไม่นำไปสู่การลู่เข้าที่ช้า เรามักจะแบ่งข้อมูลออกเป็นชุดฝึกอบรมตรวจสอบและทดสอบ ในวรรณกรรมเรามักจะเห็นว่าการทำคุณลักษณะให้เป็นมาตรฐานพวกมันใช้ค่าเฉลี่ยและความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน) เหนือชุดตัวแปรทำนายทั้งชุด ข้อบกพร่องใหญ่ ๆ ที่ฉันเห็นที่นี่คือถ้าคุณทำเช่นนั้นคุณกำลังแนะนำข้อมูลในอนาคตให้กับตัวแปรทำนายการฝึกอบรมซึ่งเป็นข้อมูลในอนาคตที่มีอยู่ในค่าเฉลี่ยและความแปรปรวน ดังนั้นฉันจึงทำการปรับสภาพให้เป็นมาตรฐานบนข้อมูลการฝึกอบรมและบันทึกค่าเฉลี่ยและความแปรปรวน จากนั้นฉันจะนำคุณสมบัติการทำให้เป็นมาตรฐานมาใช้กับตัวแปรทำนายของชุดข้อมูลการตรวจสอบความถูกต้องและการทดสอบโดยใช้ค่าเฉลี่ยการฝึกอบรมและผลต่าง มีข้อบกพร่องพื้นฐานกับสิ่งนี้หรือไม่? ใครสามารถแนะนำทางเลือกที่ดีกว่าได้ไหม

1
วิธีการใช้มาตรฐาน / การทำให้เป็นมาตรฐานในการฝึกอบรมและชุดทดสอบหากการทำนายเป็นเป้าหมาย?
ฉันจะแปลงข้อมูลทั้งหมดหรือเท่าของฉัน (ถ้าใช้ CV) ในเวลาเดียวกันได้หรือไม่? เช่น (allData - mean(allData)) / sd(allData) ฉันจะแปลงชุดรถไฟและชุดทดสอบแยกกันได้หรือไม่? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) หรือว่าฉันจะแปลงชุดรถไฟและใช้การคำนวณกับชุดทดสอบ? เช่น (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) ฉันเชื่อว่า 3 เป็นวิธีที่ถูกต้อง ถ้า 3 ถูกต้องฉันต้องกังวลเกี่ยวกับค่าเฉลี่ยไม่ใช่ 0 หรือช่วงที่ไม่อยู่ระหว่าง [0; 1] หรือ [-1; 1] (การทำให้เป็นมาตรฐาน) ของชุดทดสอบหรือไม่

4
การทำให้เป็นมาตรฐานและการปรับขนาด
อะไรคือความแตกต่างระหว่างข้อมูล 'การทำให้เป็นมาตรฐาน' และ 'มาตราส่วน' ของข้อมูล? จนถึงตอนนี้ฉันคิดว่าทั้งสองคำอ้างถึงกระบวนการเดียวกัน แต่ตอนนี้ฉันรู้แล้วว่ามีบางอย่างที่ฉันไม่รู้ / เข้าใจ นอกจากนี้หากมีความแตกต่างระหว่างการปรับสภาพและการปรับขนาดเมื่อใดที่เราควรใช้การปรับสภาพ แต่ไม่ปรับขนาดและในทางกลับกัน โปรดอธิบายอย่างละเอียดด้วยตัวอย่าง


2
จะทำให้ข้อมูลเป็นมาตรฐานระหว่าง -1 ถึง 1 ได้อย่างไร
ฉันเคยเห็นสูตรการปรับสภาพ min-max แล้ว แต่นั่นทำให้ค่าปกติอยู่ระหว่าง 0 ถึง 1 ฉันจะทำให้ข้อมูลของฉันเป็นมาตรฐานระหว่าง -1 ถึง 1 ได้อย่างไร ฉันมีทั้งค่าลบและค่าบวกในเมทริกซ์ข้อมูลของฉัน

2
จำเป็นหรือไม่ที่จะต้องทำการฟื้นฟูสำหรับ SVM และ Random Forest?
คุณลักษณะของฉัน 'ทุกมิติมีช่วงของค่าที่แตกต่างกัน ฉันต้องการทราบว่าจำเป็นหรือไม่ที่จะทำให้ชุดข้อมูลนี้เป็นมาตรฐาน

8
วิธีแสดงตัวแปรที่ไม่ได้ จำกัด เป็นตัวเลขระหว่าง 0 ถึง 1
ฉันต้องการที่จะเป็นตัวแทนของตัวแปรเป็นตัวเลขระหว่าง 0 และ 1 ตัวแปรที่เป็นจำนวนเต็มไม่เป็นลบที่ไม่มีข้อผูกมัดโดยธรรมชาติ ฉันแมป 0 ถึง 0 แต่ฉันสามารถแมปอะไรกับ 1 หรือตัวเลขระหว่าง 0 ถึง 1 ได้บ้าง ฉันสามารถใช้ประวัติของตัวแปรนั้นเพื่อกำหนดขีด จำกัด นี่หมายความว่าฉันต้องย้ำสถิติเก่าถ้าการเพิ่มสูงสุด ฉันต้องทำสิ่งนี้หรือมีกลอุบายอื่น ๆ ที่ฉันควรรู้หรือไม่?

2
มาตรฐานก่อน Lasso จำเป็นจริงๆหรือ?
ฉันได้อ่านเหตุผลหลักสามข้อสำหรับการกำหนดค่ามาตรฐานให้กับตัวแปรก่อนหน้าบางอย่างเช่นLassoการถดถอย: 1) การตีความค่าสัมประสิทธิ์ 2) ความสามารถในการจัดอันดับความสำคัญของค่าสัมประสิทธิ์โดยขนาดสัมพัทธ์ของการประมาณค่าสัมประสิทธิ์หลังการหดตัว 3) ไม่ต้องมีการสกัดกั้น แต่ฉันสงสัยเกี่ยวกับจุดที่สำคัญที่สุด เรามีเหตุผลหรือไม่ที่จะคิดว่าการสร้างมาตรฐานจะช่วยปรับปรุงการวางนัยทั่วไปของตัวอย่าง? นอกจากนี้ฉันไม่สนใจว่าฉันไม่ต้องการการสกัดกั้นในแบบจำลองของฉันหรือไม่ เพิ่มหนึ่งไม่เจ็บฉัน

2
ความคล้ายคลึงกันของโคไซน์นั้นเหมือนกับระยะทางแบบยุคลิดแบบยุค l2 หรือไม่?
เหมือนความหมายว่ามันจะให้ผลลัพธ์ที่เหมือนกันสำหรับการจัดอันดับระหว่างเวกเตอร์คล้ายคลึงกันยูและชุดของเวกเตอร์V ฉันมีแบบจำลองเวกเตอร์สเปซซึ่งมีการวัดระยะทาง (ระยะทางแบบยุคลิด, ความเหมือนโคไซน์) และเทคนิคการทำให้เป็นมาตรฐาน (ไม่มี, l1, l2) เป็นพารามิเตอร์ จากความเข้าใจของฉันผลลัพธ์จากการตั้งค่า [โคไซน์ไม่มี] ควรจะเหมือนกันหรืออย่างน้อยก็คล้ายกับ [euclidean, l2] จริง ๆ แต่ก็ไม่เหมือนกัน มีโอกาสที่ดีจริง ๆ ที่ระบบยังมีข้อผิดพลาด - หรือฉันมีบางสิ่งบางอย่างผิดปกติเกี่ยวกับเวกเตอร์? แก้ไข: ฉันลืมที่จะพูดถึงว่าเวกเตอร์จะขึ้นอยู่กับจำนวนคำจากเอกสารในคลังข้อมูล รับเอกสารแบบสอบถาม (ซึ่งฉันยังแปลงในเวกเตอร์นับจำนวนคำ) ฉันต้องการค้นหาเอกสารจากคลังข้อมูลของฉันซึ่งคล้ายกับมันมากที่สุด การคำนวณระยะทางแบบยุคลิดของพวกเขานั้นเป็นเพียงการวัดแบบตรงไปข้างหน้า แต่ในงานประเภทที่ฉันทำงานความคล้ายคลึงของโคไซน์มักเป็นที่ต้องการในฐานะตัวบ่งชี้ความคล้ายคลึงกันเพราะเวกเตอร์ที่มีความยาวต่างกันเท่านั้น เอกสารที่มีความคล้ายคลึงกันของระยะทาง / โคไซน์น้อยที่สุดถือว่าคล้ายกันมากที่สุด

5
คุณควรสร้างมาตรฐานให้กับตัวแปรไบนารีหรือไม่?
ฉันมีชุดข้อมูลที่มีชุดคุณสมบัติ บางคนก็มีไบนารีใช้งานหรือไล่ออกใช้งานหรืออยู่เฉยๆ) และส่วนที่เหลือจะมีมูลค่าที่แท้จริงเช่น4564.342( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 ฉันต้องการที่จะเลี้ยงข้อมูลนี้ไปยังขั้นตอนวิธีการเรียนรู้ของเครื่องดังนั้นฉัน -score คุณสมบัติมูลค่าจริงทั้งหมด ฉันได้พวกมันมาระหว่างช่วงและโดยประมาณ ตอนนี้ค่าไบนารีนอกจากนี้ยังมี -scored ดังนั้นศูนย์กลายเป็นและคนที่กลายเป็น0.5555ZZz333- 2-2-2ZZz- 0.222-0.222-0.2220.55550.55550.5555 การทำให้เป็นมาตรฐานตัวแปรไบนารีเช่นนี้เหมาะสมหรือไม่

1
เมทริกซ์สุ่มที่มีข้อ จำกัด ด้านความยาวของแถวและคอลัมน์
ฉันต้องการสร้างเมทริกซ์ที่ไม่เป็นสแควร์แบบสุ่มด้วยแถวและคอลัมน์องค์ประกอบที่กระจายแบบสุ่มด้วยค่าเฉลี่ย = 0 และถูก จำกัด เช่นนั้นความยาว (บรรทัดฐาน L2) ของแต่ละแถวคือและความยาวของแต่ละคอลัมน์คือ{C}} ผลรวมของค่าสแควร์คือ 1 สำหรับแต่ละแถวและสำหรับแต่ละคอลัมน์RRRCCC111RC−−√RC\sqrt{\frac{R}{C}}RCRC\frac{R}{C} จนถึงขณะนี้ผมได้พบวิธีการอย่างใดอย่างหนึ่งเพื่อให้บรรลุนี้: เพียงแค่เริ่มต้นเมทริกซ์แบบสุ่ม (เช่นจากเครื่องแบบปกติหรือการกระจาย Laplace กับศูนย์ความแปรปรวนค่าเฉลี่ยและพล) แล้วแถวปกติสลับกันและคอลัมน์ที่จะสิ้นสุดด้วยการนอร์มัลไลซ์แถว สิ่งนี้ดูเหมือนว่าจะมาบรรจบกับผลลัพธ์ที่ต้องการอย่างรวดเร็ว (เช่นสำหรับและความแปรปรวนของความยาวคอลัมน์มักเป็น ~หลังจากการทำซ้ำครั้ง) แต่ฉันไม่แน่ใจว่าฉันจะขึ้นอยู่กับอัตราการบรรจบกันอย่างรวดเร็วนี้หรือไม่ โดยทั่วไป (สำหรับขนาดเมทริกซ์ต่างๆและการแจกแจงองค์ประกอบเริ่มต้น)length=1length=1{\rm length} = 1R=40R=40R=40C=80C=80C=80 0.00001 0.00001~0.00001222 คำถามของฉันคือ: มีวิธีที่จะบรรลุผลลัพธ์ที่ต้องการ ( , ) โดยตรงโดยไม่ต้องวนซ้ำ การนอร์มัลไลซ์แถว / คอลัมน์? เช่นบางอย่างเช่นอัลกอริทึมสำหรับการทำให้เวกเตอร์สุ่มเป็นปกติ (เริ่มต้นองค์ประกอบแบบสุ่ม, วัดผลรวมของค่าสแควร์, จากนั้นขยายสเกลแต่ละองค์ประกอบด้วยสเกลาร์ทั่วไป) ถ้าไม่มีมีการจำแนกลักษณะอย่างง่ายสำหรับอัตราการรวมกัน (เช่นการวนซ้ำจนเกิดข้อผิดพลาด ) ของวิธีการวนซ้ำที่อธิบายไว้ข้างต้นหรือไม่row lengths=1row lengths=1{\rm row \ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.