คำถามติดแท็ก high-dimensional

เกี่ยวข้องกับคุณลักษณะหรือมิติข้อมูล (ตัวแปร) จำนวนมากสำหรับข้อมูล (สำหรับจุดข้อมูลจำนวนมากให้ใช้แท็ก [ข้อมูลขนาดใหญ่] หากปัญหามีจำนวนตัวแปรมากกว่าข้อมูลให้ใช้แท็ก [ไม่ระบุ]

2
การประมาณความไม่แน่นอนในปัญหาการอนุมานมิติสูงโดยไม่มีการสุ่มตัวอย่าง?
ฉันกำลังทำงานกับปัญหาการอนุมานมิติสูง (ประมาณพารามิเตอร์โมเดลปี 2000) ซึ่งเราสามารถทำการประมาณค่า MAP ได้อย่างมีประสิทธิภาพโดยการหาค่าสูงสุดของผู้บันทึกล็อกระดับโลกโดยใช้การเพิ่มประสิทธิภาพการไล่ระดับสีและอัลกอริทึมทางพันธุกรรม ฉันอยากจะประเมินความไม่แน่นอนเกี่ยวกับพารามิเตอร์ของแบบจำลองเพิ่มเติมนอกเหนือจากการค้นหาการประมาณค่า MAP เราสามารถคำนวณการไล่ระดับสีของ log-posterior ได้อย่างมีประสิทธิภาพเกี่ยวกับพารามิเตอร์ดังนั้นในระยะยาวเรามีเป้าหมายที่จะใช้ Hamiltonian MCMC ทำการสุ่มตัวอย่าง แต่ตอนนี้ฉันสนใจการประมาณการแบบไม่สุ่มตัวอย่าง วิธีเดียวที่ฉันรู้ก็คือการคำนวณค่าผกผันของ Hessian ในโหมดเพื่อประมาณหลังเป็นหลายตัวแปรปกติ แต่แม้มันจะดูเป็นไปไม่ได้สำหรับระบบขนาดใหญ่เช่นนี้เพราะแม้ว่าเราจะคำนวณ ∼4×106∼4×106\sim 4\times10^{6} องค์ประกอบของ Hessian ฉันแน่ใจว่าเราไม่พบสิ่งที่ตรงกันข้าม ใครช่วยแนะนำวิธีการแบบใดที่มักใช้ในกรณีเช่นนี้? ขอบคุณ! แก้ไข - ข้อมูลเพิ่มเติมเกี่ยวกับปัญหา ความเป็นมา นี้เป็นปัญหาผกผันที่เกี่ยวข้องกับการทดลองฟิสิกส์ขนาดใหญ่ เรามีตาข่ายสามเหลี่ยมสองมิติซึ่งอธิบายถึงเขตข้อมูลทางกายภาพบางส่วนและพารามิเตอร์แบบจำลองของเราคือค่าทางกายภาพของเขตข้อมูลเหล่านั้นในแต่ละจุดยอดของตาข่าย ตาข่ายมีประมาณ 650 จุดยอดและเราสร้างแบบจำลอง 3 เขตข้อมูลดังนั้นนั่นคือที่มาของพารามิเตอร์แบบจำลอง 2000 ของเรา ข้อมูลการทดลองของเรานั้นมาจากเครื่องมือที่ไม่ได้วัดเขตข้อมูลเหล่านี้โดยตรง แต่ปริมาณที่มีฟังก์ชั่นที่ไม่ใช่เชิงเส้นที่ซับซ้อนของเขตข้อมูล สำหรับเครื่องมือที่แตกต่างกันเรามีตัวแบบไปข้างหน้าซึ่งจะจับคู่พารามิเตอร์ของแบบจำลองกับการทำนายข้อมูลการทดลองและการเปรียบเทียบระหว่างการทำนายและการวัดทำให้เกิดความน่าจะเป็นบันทึก จากนั้นเราจะสรุปความเป็นไปได้ของการบันทึกจากเครื่องมือที่แตกต่างกันเหล่านี้และยังเพิ่มค่าบางอย่างก่อนบันทึกซึ่งใช้ข้อ จำกัด ทางกายภาพบางอย่างกับเขตข้อมูล ดังนั้นฉันจึงสงสัยว่า 'แบบจำลอง' นี้จัดอยู่ในหมวดหมู่อย่างเรียบร้อย - เราไม่มีทางเลือกว่าแบบจำลองคืออะไรมันถูกกำหนดโดยวิธีการใช้งานจริงของเครื่องมือที่รวบรวมข้อมูลการทดลองของเรา …

1
เด็ก ๆ สามารถดึงพ่อแม่ของพวกเขามารวมกันในการฉาย PCA ของชุดข้อมูล GWAS ได้อย่างไร
ใช้เวลาประมาณ 20 จุดสุ่มในพื้นที่ 10,000 มิติที่มีพิกัดแต่ละ IID จาก(0,1) แยกออกเป็น 10 คู่ ("คู่รัก") และเพิ่มค่าเฉลี่ยของแต่ละคู่ ("เด็ก") ไปยังชุดข้อมูล จากนั้นทำ PCA บนผลลัพธ์ 30 คะแนนและลงจุด PC1 กับ PC2N(0,1)N(0,1)\mathcal N(0,1) สิ่งที่น่าทึ่งเกิดขึ้น: "ครอบครัว" แต่ละแห่งก่อให้เกิดจุดที่อยู่ใกล้กัน แน่นอนว่าเด็กทุกคนอยู่ใกล้กับผู้ปกครองแต่ละคนในพื้นที่ 10,000 มิติดั้งเดิมดังนั้นใคร ๆ ก็คาดหวังว่ามันจะอยู่ใกล้กับพ่อแม่ในพื้นที่ PCA อย่างไรก็ตามในพื้นที่ PCA ผู้ปกครองแต่ละคู่อยู่ใกล้กันเช่นกันแม้ว่าในพื้นที่ดั้งเดิมพวกเขาเป็นเพียงจุดสุ่ม! เด็ก ๆ จัดการดึงผู้ปกครองมารวมกันในการฉาย PCA ได้อย่างไร \quad\quad\quad\quad บางคนอาจกังวลว่าสิ่งนี้ได้รับอิทธิพลจากความจริงที่ว่าเด็กมีบรรทัดฐานต่ำกว่าพ่อแม่ สิ่งนี้ดูเหมือนจะไม่สำคัญ: ถ้าฉันสร้างเด็กเป็นโดยที่และเป็นจุดของผู้ปกครองพวกเขาจะมีบรรทัดฐานเดียวกันโดยเฉลี่ยกับผู้ปกครอง แต่ฉันยังคงสังเกตเห็นปรากฏการณ์เชิงคุณภาพในพื้นที่ PCA:(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad คำถามนี้ใช้ชุดข้อมูลของเล่น แต่ได้แรงบันดาลใจจากสิ่งที่ฉันสังเกตเห็นในชุดข้อมูลจริงจากการศึกษาความสัมพันธ์จีโนมกว้าง (GWAS) …

1
ข้อมูลที่มีมิติข้อมูลที่มีความสัมพันธ์สูงและคุณลักษณะยอดนิยม / การแปรสภาพที่ค้นพบ; การทดสอบสมมติฐานหลายรายการ?
ฉันมีชุดข้อมูลที่มีคุณลักษณะ / covariates ที่มีความสัมพันธ์กันประมาณ 5,000 รายการและการตอบกลับแบบไบนารี ข้อมูลถูกมอบให้ฉันฉันไม่ได้เก็บรวบรวม ฉันใช้ Lasso และเพิ่มการไล่ระดับสีเพื่อสร้างแบบจำลอง ฉันใช้การตรวจสอบข้ามแบบซ้อนซ้ำซ้อน ฉันรายงานว่าสัมประสิทธิ์ 40 ที่ใหญ่ที่สุด (สัมบูรณ์) ของ Lasso และ 40 คุณสมบัติที่สำคัญที่สุดในต้นไม้ที่ไล่ระดับสี (ไม่มีอะไรพิเศษเกี่ยวกับ 40 มันดูเหมือนจะเป็นข้อมูลที่สมเหตุสมผล) ฉันยังรายงานความแปรปรวนของปริมาณเหล่านี้ผ่านรอยพับและการวนซ้ำของ CV ฉันชอบที่จะพูดถึงคุณสมบัติ "สำคัญ" โดยไม่มีการพูดถึงค่า p หรือค่านิยมหรืออะไรก็ตาม แต่แทนที่จะคิดว่ากระบวนการนี้เป็นแบบ --- แม้ว่าจะไม่สมบูรณ์และเรียงลำดับแบบสุ่ม --- เข้าใจลึกลงไปในปรากฏการณ์บางอย่าง สมมติว่าฉันได้ทำทั้งหมดนี้อย่างถูกต้อง (เช่นดำเนินการตรวจสอบข้ามอย่างถูกต้องปรับขนาดสำหรับเชือก) วิธีนี้มีเหตุผล? มีปัญหากับตัวอย่างเช่นการทดสอบสมมติฐานหลายรายการการวิเคราะห์หลังเลิกเรียนการค้นพบที่ผิดพลาดหรือไม่? หรือปัญหาอื่น ๆ ? วัตถุประสงค์ ทำนายความน่าจะเป็นของเหตุการณ์ไม่พึงประสงค์ สำคัญที่สุดประมาณการความน่าจะเป็นได้อย่างแม่นยำ ผู้เยาว์เพิ่มเติม - เพื่อการมีสติตรวจสอบ แต่อาจเปิดเผยตัวพยากรณ์ใหม่ที่สามารถตรวจสอบเพิ่มเติมตรวจสอบค่าสัมประสิทธิ์และความสำคัญตามที่กล่าวไว้ข้างต้น ผู้บริโภค …

3
PCA ช้าเกินไปเมื่อทั้ง n, p มีขนาดใหญ่: ทางเลือก?
การตั้งค่าปัญหา ฉันมีจุดข้อมูล (ภาพ) ที่มีมิติสูง (4096) ซึ่งฉันกำลังพยายามมองเห็นเป็น 2D ด้วยเหตุนี้ผมใช้เสื้อ sne ในลักษณะที่คล้ายกับต่อไปนี้โค้ดตัวอย่างโดย Karpathy เอกสาร scikit เรียนรู้แนะนำให้ใช้ PCA แรกลดขนาดของข้อมูล: ขอแนะนำให้ใช้วิธีการลดขนาดแบบอื่น (เช่น PCA สำหรับข้อมูลหนาแน่นหรือ TruncatedSVD สำหรับข้อมูลแบบเบาบาง) เพื่อลดจำนวนมิติเป็นจำนวนที่เหมาะสม (เช่น 50) หากจำนวนคุณลักษณะสูงมาก ฉันใช้รหัสนี้โดย Darks.Liu เพื่อดำเนินการ PCA ใน Java: //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = …

7
หาคู่ที่ใกล้ชิดในพื้นที่มิติที่สูงมากด้วยเวกเตอร์หร็อมแหร็ม
ฉันมีเวกเตอร์คุณลักษณะ (~ a ล้าน) มี (~ ล้าน) คุณสมบัติไบนารีในแต่ละเวกเตอร์เพียง แต่ (~ พัน) ของพวกเขาจะเป็น , ส่วนที่เหลือเป็น0ฉันกำลังหาคู่เวกเตอร์ที่มีคุณสมบัติอย่างน้อย (~ ร้อย) ที่เหมือนกัน (ทั้งคู่) จำนวนคู่ดังกล่าวมีขนาดใกล้เคียงกับ (~ a ล้าน)NNNMMMKKK111000LLL111NNN ฉันคิดว่าสิ่งนี้สามารถเข้าใกล้ได้เมื่อมองหาคู่ที่ใกล้ชิดในพื้นที่ที่มีมิติสูงมาก ฟังก์ชันระยะทางอาจเป็นไปได้ว่ามันขึ้นอยู่กับคุณสมบัติของเวกเตอร์สองตัวที่มีเหมือนกัน แต่มันอาจจะมีประโยชน์กับการวัดระยะทางแบบธรรมดามากขึ้น (เช่น Euclidean) เช่นกัน อัลกอริทึมที่รู้จักกันดีใดที่จะมีประโยชน์สำหรับการเข้าถึงปัญหานี้ อะไรก็ตามที่เป็นกำลังสองในหรือจะไม่สามารถใช้งานได้จริงNNNMMM ตัวอย่างการกำหนดปัญหาในโลกแห่งความจริงคือการพิจารณาว่าคนคนกำลังเคลื่อนที่ระหว่างสถานที่หลายแห่ง หากคนสองคนอยู่ในสถานที่เดียวกันในเวลาเดียวกันเราบอกว่าพวกเขาพบกัน (จำนวนชุดค่าผสมเวลาสถานที่ที่มีอย่างน้อย 1 คนคือ ) เรากำลังมองหาเพื่อน: คนที่พบกันอย่างน้อยครั้งNNNMMMLLL
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.