คำถามติดแท็ก normalization

โดยปกติ "การทำให้เป็นมาตรฐาน" หมายถึงการแสดงข้อมูลอีกครั้งเพื่อให้ค่าอยู่ในช่วงที่ระบุ

3
การปรับเมทริกซ์คอลัมน์แบบชาญฉลาดใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันต้องการดำเนินการ normalization คอลัมน์ที่ชาญฉลาดของเมทริกซ์ในอาร์รับเมทริกซ์mฉันต้องการที่จะทำให้ปกติคอลัมน์แต่ละคอลัมน์โดยการหารแต่ละองค์ประกอบด้วยผลรวมของคอลัมน์ วิธีหนึ่ง (แฮ็ค) ที่ทำเช่นนี้มีดังนี้ m / t(replicate(nrow(m), colSums(m))) มีวิธีสังเขป / ฉลาด / มีประสิทธิภาพมากขึ้นในการบรรลุภารกิจเดียวกันหรือไม่?

1
การแปลง (การทำให้เป็นปกติ) ค่าความน่าจะเป็นที่น้อยมากเป็นความน่าจะเป็น
ฉันกำลังเขียนอัลกอริทึมที่ได้รับแบบจำลองฉันคำนวณความน่าจะเป็นของรายการชุดข้อมูลจากนั้นจำเป็นต้องทำให้เป็นปกติ (เป็นความน่าจะเป็น) แต่ละโอกาส ดังนั้นบางอย่างเช่น [0.00043, 0.00004, 0.00321] อาจถูกแปลงเป็นอาจจะเป็น [0.2, 0.03, 0.77] ปัญหาของฉันคือความน่าจะเป็นของบันทึกที่ฉันกำลังทำงานอยู่มีขนาดค่อนข้างเล็ก (ตัวอย่างเช่นในพื้นที่บันทึกค่ามีค่าเช่น -269647.432, -231444.981 เป็นต้น) ในรหัส C ++ ของฉันเมื่อฉันพยายามเพิ่มพวกเขาสองคน (โดยการยกกำลังของพวกเขา) ฉันได้รับคำตอบของ "Inf" ฉันพยายามเพิ่มพวกเขาใน log-space (Summation / Subtraction of log)แต่ก็พบปัญหาเดียวกันอีกครั้ง ใครสามารถแบ่งปันความเห็นของผู้เชี่ยวชาญเกี่ยวกับเรื่องนี้?

3
เหตุผลที่ทำให้เป็นมาตรฐานในการวัดระยะทางแบบยุคลิดในการจัดกลุ่มแบบลำดับชั้น
เห็นได้ชัดว่าในการจัดกลุ่มแบบลำดับชั้นซึ่งการวัดระยะทางเป็นระยะทางแบบยุคลิดข้อมูลจะต้องเป็นมาตรฐานหรือมาตรฐานแรกเพื่อป้องกันการแปรปรวนร่วมกับความแปรปรวนสูงสุดจากการขับรถการจัดกลุ่ม ทำไมนี้ ความจริงข้อนี้ไม่เป็นที่ต้องการใช่หรือไม่

1
ข้อมูลควรอยู่กึ่งกลาง + สเกลก่อนใช้ t-SNE หรือไม่
คุณสมบัติของข้อมูลบางอย่างของฉันมีค่ามากในขณะที่คุณสมบัติอื่นมีค่าน้อยกว่ามาก จำเป็นหรือไม่ที่จะรวมศูนย์ + ข้อมูลสเกลก่อนใช้ t-SNE เพื่อป้องกันอคติต่อค่าที่มากขึ้น ฉันใช้การปฏิบัติ sklearn.manifold.TSNE ของ Python กับการวัดระยะทางแบบปริภูมิแบบปริยาย

3
“ การทำให้เป็นมาตรฐาน” หมายถึงอะไรและวิธีการตรวจสอบว่าตัวอย่างหรือการกระจายได้รับการทำให้เป็นมาตรฐาน
ฉันมีคำถามที่ขอให้ตรวจสอบว่าการแจกแจงแบบฟอร์ม ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ) เป็นมาตรฐานหรือไม่ สำหรับหนึ่งแล้วการกระจายแบบใดที่จะทำให้เป็นมาตรฐาน และสองเราจะตรวจสอบได้อย่างไรว่าการแจกแจงเป็นแบบปกติหรือไม่? ฉันเข้าใจโดยการคำนวณ X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} เราได้รับข้อมูลที่ทำให้เป็นมาตรฐานแต่ที่นี่มันจะขอให้ตรวจสอบว่าการกระจายเป็นปกติหรือไม่

4
ตัวแปร“ Normalizing” สำหรับ SVD / PCA
สมมติว่าเรามีตัวแปรNNNวัดได้(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N)เราทำการวัดจำนวนM>NM>NM > Nของการวัดแล้วต้องการทำการแยกสลายค่าเอกพจน์บนผลลัพธ์เพื่อค้นหาแกนของความแปรปรวนสูงสุดสำหรับMMM points ในช่องว่างมิติNNN( หมายเหตุ:คิดว่าวิธีการของฉันได้รับการหักออกเพื่อ⟨ ฉัน ⟩ = 0สำหรับทุกฉัน .)aiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii ทีนี้สมมติว่าตัวแปรหนึ่งตัว (หรือมากกว่า) มีขนาดลักษณะแตกต่างกันอย่างมีนัยสำคัญมากกว่าส่วนที่เหลือ เช่น1อาจมีค่าอยู่ในช่วง10 - 100ในขณะที่ส่วนที่เหลืออาจจะอยู่ที่ประมาณ0.1 - 1 นี้จะเอียงแกนของความแปรปรวนสูงสุดต่อ1ของแกนมากa1a1a_110−10010−10010-1000.1−10.1−10.1-1a1a1a_1 ความแตกต่างของขนาดอาจเป็นเพราะตัวเลือกการวัดที่โชคร้าย (ถ้าเรากำลังพูดถึงข้อมูลทางกายภาพเช่นกิโลเมตรเทียบกับเมตร) แต่ที่จริงแล้วตัวแปรที่แตกต่างกันอาจมีมิติที่แตกต่างกันโดยสิ้นเชิง (เช่นน้ำหนักเทียบกับปริมาตร) อาจไม่มีวิธีที่ชัดเจนในการเลือกหน่วย "เปรียบได้" สำหรับพวกเขา คำถาม: ฉันต้องการทราบว่ามีวิธีการมาตรฐาน / ทั่วไปในการทำให้ข้อมูลเป็นมาตรฐานเพื่อหลีกเลี่ยงปัญหานี้หรือไม่ ผมสนใจในเทคนิคมาตรฐานที่ผลิตขนาดเทียบเคียง1 - Nเพื่อจุดประสงค์นี้มากกว่าขึ้นมาพร้อมกับสิ่งใหม่ ๆa1−aNa1−aNa_1 - a_N แก้ไข: ความเป็นไปได้อย่างหนึ่งคือทำให้ตัวแปรแต่ละตัวเป็นปกติโดยค่าเบี่ยงเบนมาตรฐานหรือสิ่งที่คล้ายกัน อย่างไรก็ตามปัญหาต่อไปนี้จะปรากฏขึ้น: ลองตีความข้อมูลเป็น cloud point …

4
การทำให้เป็นมาตรฐานก่อนการตรวจสอบความถูกต้องข้าม
การทำให้ข้อมูลเป็นมาตรฐาน (มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานที่เป็นเอกภาพ) ก่อนดำเนินการตรวจสอบความถูกต้องข้าม k-fold ซ้ำแล้วซ้ำอีกจะมีผลเสียเชิงลบใด ๆ เช่น overfitting หรือไม่? หมายเหตุ: นี่เป็นสถานการณ์ที่ #case> ยอดรวม #features ฉันกำลังแปลงข้อมูลบางส่วนของฉันโดยใช้การแปลงบันทึกจากนั้นปรับข้อมูลทั้งหมดให้เป็นปกติ ฉันกำลังทำการเลือกคุณสมบัติ ต่อไปฉันใช้คุณสมบัติที่เลือกและข้อมูลที่ได้มาตรฐานกับการตรวจสอบความถูกต้องข้าม 10 เท่าเพื่อลองและประเมินประสิทธิภาพของตัวจําแนกทั่วไปและฉันกังวลว่าการใช้ข้อมูลทั้งหมดเพื่อปรับมาตรฐานอาจไม่เหมาะสม ฉันควรทำให้ข้อมูลการทดสอบเป็นปกติสำหรับแต่ละเท่าโดยใช้ข้อมูลการทำให้เป็นปกติที่ได้จากข้อมูลการฝึกอบรมสำหรับการพับนั้นหรือไม่ ความคิดเห็นใด ๆ ที่ได้รับสุดซึ้ง! ขอโทษถ้าคำถามนี้ดูเหมือนชัดเจน แก้ไข: จาก การทดสอบนี้ (ตามคำแนะนำด้านล่าง) ฉันพบว่าการทำให้เป็นมาตรฐานก่อน CV ไม่ได้ทำให้ประสิทธิภาพแตกต่างกันมากนักเมื่อเทียบกับการทำให้ปกติใน CV

1
การทำให้เป็นมาตรฐานของ Quantile ทำงานอย่างไร?
ในการศึกษาการแสดงออกของยีนโดยใช้ microarrays ข้อมูลความเข้มจะต้องเป็นมาตรฐานเพื่อให้ความเข้มสามารถเปรียบเทียบระหว่างบุคคลระหว่างยีน แนวคิดและอัลกอริทึมทำงาน "การทำให้เป็นมาตรฐานของควอไทล์" ได้อย่างไรและคุณจะอธิบายสิ่งนี้กับนักสถิติได้อย่างไร

3
การทำให้เป็นมาตรฐานและการปรับขนาดในการเรียนรู้ออนไลน์?
สมมติว่าฉันมีลักษณนามการถดถอยโลจิสติก ในการเรียนรู้แบบกลุ่มตามปกติฉันมีคำศัพท์ปกติเพื่อป้องกันไม่ให้เกิดการ overfitting และทำให้น้ำหนักของฉันเล็ก ฉันจะทำให้ปกติและปรับขนาดคุณสมบัติของฉัน ในการเรียนรู้ออนไลน์ฉันได้รับกระแสข้อมูลอย่างต่อเนื่อง ฉันทำการอัพเดทโคตรลาดตามแต่ละตัวอย่างแล้วละทิ้งมัน ฉันควรจะใช้การปรับขนาดและคำศัพท์ในการเรียนรู้ออนไลน์หรือไม่ ถ้าใช่ฉันจะทำอย่างไร ตัวอย่างเช่นฉันไม่มีชุดข้อมูลการฝึกอบรมที่จะเทียบเคียง ฉันยังไม่มีชุดการตรวจสอบเพื่อปรับพารามิเตอร์การทำให้เป็นมาตรฐานของฉัน ถ้าไม่ทำไมล่ะ ในการเรียนรู้ออนไลน์ของฉันฉันได้รับตัวอย่างมากมายอย่างต่อเนื่อง สำหรับตัวอย่างใหม่แต่ละครั้งฉันทำนายผล จากนั้นในขั้นตอนต่อไปฉันจะได้รับเป้าหมายที่แท้จริงและทำการอัพเดทลาดลง

4
การปรับขนาดและการปรับมาตรฐาน
ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng และไม่สามารถรับคำตอบสำหรับคำถามนี้ได้หลังจากพยายามหลายครั้ง กรุณาช่วยแก้ปัญหานี้แม้ว่าฉันจะผ่านระดับ สมมติว่านักเรียนเข้าเรียนในชั้นเรียนและชั้นเรียนมีการสอบกลางภาคและการสอบปลายภาค คุณได้รวบรวมชุดข้อมูลของคะแนนของพวกเขาในการสอบทั้งสองซึ่งเป็นดังนี้:m = 4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 คุณต้องการใช้การถดถอยพหุนามเพื่อทำนายคะแนนสอบขั้นสุดท้ายของนักเรียนจากคะแนนสอบกลางภาค หากคุณต้องการให้พอดีกับแบบจำลองของรูปแบบโดยที่คือคะแนนกลางภาคและคือ (คะแนนกลางภาค) ^ 2 นอกจากนี้คุณวางแผนที่จะใช้การปรับทั้งฟีเจอร์ (หารด้วย "max-min" หรือช่วงของฟีเจอร์) และหมายถึงการทำให้เป็นมาตรฐานx 1 x 2ชั่วโมงθ( x ) = θ0+ θ1x1+ θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 …

2
ฉันสามารถใช้ CLR (การแปลงอัตราส่วนบันทึกเป็นศูนย์กลาง) เพื่อเตรียมข้อมูลสำหรับ PCA ได้หรือไม่
ฉันกำลังใช้สคริปต์ มันเป็นบันทึกหลัก ฉันมี dataframe ซึ่งแสดงองค์ประกอบต่าง ๆ ในคอลัมน์ที่มีความลึกที่กำหนด (ในคอลัมน์แรก) ฉันต้องการทำ PCA ด้วยและสับสนเกี่ยวกับวิธีการมาตรฐานที่ฉันต้องเลือก มีคนของคุณใช้clr()ในการเตรียมข้อมูลของคุณสำหรับprcomp()? หรือว่ามันเป็นการปลอมปนวิธีแก้ปัญหาของฉัน ฉันได้พยายามใช้clr()กับข้อมูลก่อนที่จะใช้ฟังก์ชั่นนอกเหนือจากการใช้ขนาดแอตทริบิวต์ในprcomp()prcomp() data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html สเกลอธิบายเพื่อปรับสเกลข้อมูลดังนั้นจึงมีความแปรปรวนของหน่วย เนื่องจากข้อมูลของฉันมีขนาดแตกต่างกันมากนั่นคือสิ่งที่ฉันต้องการฉันจึงคิด ปัญหาคือว่าฉันได้รับการแก้ไขที่แตกต่างกันเมื่อฉันใช้รหัสด้านบนหรือเมื่อฉันข้ามclr()(ซึ่งทำให้ผลลัพธ์ที่ต้องการมากขึ้น) แต่ฉันต้องการที่จะรู้ว่าทำไมการclr()รบกวนในกรณีนี้คืออะไร?

4
วัตถุประสงค์ของการฟื้นฟูแถวคืออะไร
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการทำให้คอลัมน์เป็นมาตรฐานเนื่องจากทำให้คุณสมบัตินั้นมีน้ำหนักเท่ากันแม้ว่าจะไม่ได้วัดในระดับเดียวกัน - อย่างไรก็ตามบ่อยครั้งในวรรณกรรมเพื่อนบ้านที่ใกล้ที่สุดทั้งคอลัมน์และแถวจะถูกทำให้เป็นมาตรฐาน การนอร์มัลไลซ์แถวสำหรับ / ทำไมทำให้แถวเป็นมาตรฐาน โดยเฉพาะผลลัพธ์ของการปรับสภาพแถวมีผลต่อความเหมือน / ระยะห่างระหว่างเวกเตอร์แถวอย่างไร

3
วิธีทำให้ข้อมูลของการแจกจ่ายที่ไม่รู้จักเป็นมาตรฐาน
ฉันพยายามค้นหาการกระจายลักษณะเฉพาะที่เหมาะสมที่สุดของข้อมูลการวัดซ้ำประเภทหนึ่ง โดยพื้นฐานแล้วในสาขาธรณีวิทยาของฉันเรามักจะใช้การตรวจสอบด้วยรังสีของแร่ธาตุจากตัวอย่าง (ก้อนหิน) เพื่อหาว่านานแค่ไหนที่มีเหตุการณ์เกิดขึ้น (หินเย็นลงต่ำกว่าอุณหภูมิที่กำหนด) โดยทั่วไปการวัดหลาย ๆ (3-10) จะทำจากตัวอย่างแต่ละตัวอย่าง จากนั้นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานσจะถูกนำ นี่คือธรณีวิทยาดังนั้นอายุการระบายความร้อนของตัวอย่างสามารถปรับได้ตั้งแต่10 5ถึง10 9ปีขึ้นอยู่กับสถานการณ์μμ\muσσ\sigma10510510^510910910^9 อย่างไรก็ตามฉันมีเหตุผลที่เชื่อได้ว่าการวัดไม่ใช่ Gaussian: 'Outliers' ไม่ว่าจะเป็นการประกาศโดยพลการหรือผ่านเกณฑ์บางอย่างเช่นเกณฑ์ของ Peirce [Ross, 2003]หรือการทดสอบ Q ของ Dixon [Dean and Dixon, 1951]นั้นค่อนข้างยุติธรรม ทั่วไป (พูด 1 ใน 30) และสิ่งเหล่านี้เกือบจะเก่ากว่าทุกครั้งซึ่งบ่งชี้ว่าการวัดเหล่านี้มีลักษณะเอียงไปทางขวา มีเหตุผลที่เข้าใจกันดีเกี่ยวกับสิ่งสกปรกที่เกี่ยวกับแร่วิทยา μμ\muσσ\sigma ฉันสงสัยว่าวิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร ถึงตอนนี้ฉันมีฐานข้อมูลประมาณ 600 ตัวอย่างและ 2-10 (หรือมากกว่านั้น) ทำซ้ำการวัดต่อตัวอย่าง ฉันได้ลองทำตัวอย่างให้เป็นมาตรฐานโดยการหารค่าเฉลี่ยหรือค่ามัธยฐานแล้วดูที่ฮิสโตแกรมของข้อมูลที่ทำให้เป็นมาตรฐาน สิ่งนี้สร้างผลลัพธ์ที่สมเหตุสมผลและดูเหมือนว่าบ่งชี้ว่าข้อมูลนั้นเป็นลักษณะเฉพาะของ Laplacian: อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีการที่เหมาะสมหรือไม่หรือมีข้อแม้ที่ฉันไม่ทราบว่าอาจทำให้เกิดผลลัพธ์ของฉันดังนั้นพวกเขาจึงมีลักษณะเช่นนี้ ใครบ้างมีประสบการณ์กับสิ่งนี้และรู้วิธีปฏิบัติที่ดีที่สุด?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
อัลกอริทึมสำหรับการฟื้นฟูข้อมูลตามเวลาจริงตามเวลาจริงหรือไม่
ฉันกำลังทำงานกับอัลกอริทึมที่ใช้ในเวกเตอร์ของจุดข้อมูลล่าสุดจากลำธารเซ็นเซอร์จำนวนหนึ่งและเปรียบเทียบระยะทางแบบยุคลิดกับเวกเตอร์ก่อนหน้านี้ ปัญหาคือกระแสข้อมูลที่แตกต่างกันมาจากเซ็นเซอร์ที่แตกต่างกันอย่างสิ้นเชิงดังนั้นการใช้ระยะทางแบบยุคลิดแบบเรียบง่ายจะทำให้ค่าบางค่าสูงขึ้นอย่างมาก เห็นได้ชัดว่าฉันต้องการวิธีที่จะทำให้ข้อมูลเป็นมาตรฐาน อย่างไรก็ตามเนื่องจากอัลกอริทึมได้รับการออกแบบให้ทำงานแบบเรียลไทม์ฉันไม่สามารถใช้ข้อมูลใด ๆ เกี่ยวกับสตรีมข้อมูลใด ๆ โดยรวมในการทำให้เป็นมาตรฐานได้ จนถึงตอนนี้ฉันเพิ่งจะติดตามค่าที่ใหญ่ที่สุดที่มองเห็นได้สำหรับเซ็นเซอร์แต่ละตัวในระยะเริ่มต้น (เวกเตอร์ข้อมูล 500 ตัวแรก) จากนั้นหารข้อมูลในอนาคตทั้งหมดจากเซ็นเซอร์นั้นด้วยค่านั้น มันใช้งานได้ดีอย่างน่าประหลาดใจ แต่รู้สึกไม่ค่อยดี ฉันไม่ได้โชคดีที่ได้พบอัลกอริทึมที่มีอยู่แล้วสำหรับสิ่งนี้ แต่บางทีฉันแค่ไม่ได้มองในที่ที่เหมาะสม มีใครรู้บ้างไหม หรือมีความคิดใด ๆ ฉันเห็นคำแนะนำหนึ่งข้อในการใช้ค่าเฉลี่ย (อาจคำนวณโดยอัลกอริธึมของ Wellford) แต่ถ้าฉันทำอย่างนั้นการอ่านค่าเดียวกันหลายครั้งจะไม่ปรากฏว่าเหมือนกันซึ่งดูเหมือนว่าจะเป็นปัญหาใหญ่เว้นแต่ฉัน คิดถึงบางอย่าง ความคิดใด ๆ ที่ชื่นชม! ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.