สถิติและข้อมูลขนาดใหญ่ high-dimensional

8

ทำไมระยะทางแบบยุคลิดไม่เป็นตัวชี้วัดที่ดีในมิติที่สูง?

ฉันอ่านว่า 'ระยะทางแบบยุคลิดไม่ใช่ระยะทางที่ดีในมิติที่สูง' ฉันเดาว่าข้อความนี้มีส่วนเกี่ยวข้องกับคำสาปของความเป็นมิติ แต่อะไรกันแน่ นอกจากนี้ 'มิติสูง' คืออะไร? ฉันใช้การจัดกลุ่มแบบลำดับชั้นโดยใช้ระยะทางแบบยุคลิดกับ 100 ฟีเจอร์ คุณลักษณะนี้มีความปลอดภัยเพียงใดในการใช้การวัดนี้

239 machine-learning clustering distance-functions metric high-dimensional

11

อธิบาย“ คำสาปของมิติ” กับเด็ก

ฉันได้ยินหลายครั้งเกี่ยวกับคำสาปของมิติ แต่อย่างใดฉันก็ยังไม่สามารถเข้าใจความคิดมันมีหมอก ทุกคนสามารถอธิบายสิ่งนี้ด้วยวิธีที่ง่ายที่สุดอย่างที่คุณจะอธิบายให้เด็กฟังเพื่อที่ฉัน (และคนอื่น ๆ จะสับสนเหมือนฉัน) สามารถเข้าใจสิ่งนี้ได้ดี แก้ไข: ตอนนี้สมมติว่าเด็ก ๆ ได้ยินเกี่ยวกับการรวมกลุ่ม (ตัวอย่างเช่นพวกเขารู้วิธีจัดกลุ่มของเล่นของพวกเขา :)) การเพิ่มขนาดมิติจะทำให้งานของกลุ่มของเล่นของพวกเขายากขึ้นได้อย่างไร ตัวอย่างเช่นพวกเขาเคยพิจารณาเฉพาะรูปร่างของของเล่นและสีของของเล่น (ของเล่นสีเดียว) แต่ตอนนี้ต้องพิจารณาขนาดและน้ำหนักของของเล่นด้วย ทำไมเด็กจึงหาของเล่นที่คล้ายกันได้ยากกว่า แก้ไข 2 เพื่อการอภิปรายฉันต้องอธิบายให้ชัดเจนโดย - "ทำไมมันยากกว่าสำหรับเด็กที่จะหาของเล่นที่คล้ายกัน" - ฉันยังหมายถึงว่าทำไมความคิดของระยะทางที่หายไปในพื้นที่มิติสูง?

91 machine-learning dimensionality-reduction high-dimensional

7

สุดยอดอัลกอริธึม PCA สำหรับฟีเจอร์มากมาย (> 10K)?

ก่อนหน้านี้ฉันเคยถามเรื่องนี้ใน StackOverflow แต่ดูเหมือนว่าอาจเหมาะสมกว่าที่นี่เนื่องจากไม่ได้รับคำตอบใด ๆ เกี่ยวกับ SO มันเป็นจุดตัดระหว่างสถิติกับการเขียนโปรแกรม ฉันต้องเขียนโค้ดบางอย่างเพื่อทำ PCA (การวิเคราะห์ส่วนประกอบหลัก) ฉันเรียกดูผ่านอัลกอริทึมที่รู้จักกันดีและใช้สิ่งนี้ซึ่งเท่าที่ฉันสามารถบอกได้เท่ากับอัลกอริทึม NIPALS มันใช้งานได้ดีสำหรับการค้นหาส่วนประกอบหลัก 2-3 ชิ้นแรก แต่ดูเหมือนจะช้ามากที่จะรวมกัน (ตามลำดับการทำซ้ำหลายร้อยถึงหลายพัน) นี่คือรายละเอียดของสิ่งที่ฉันต้องการ: อัลกอริทึมจะต้องมีประสิทธิภาพเมื่อจัดการกับคุณสมบัติจำนวนมาก (สั่ง 10,000 ถึง 20,000) และขนาดตัวอย่างตามลำดับไม่กี่ร้อย มันจะต้องสามารถนำไปใช้อย่างสมเหตุสมผลโดยไม่มีไลบรารี่พีชคณิตเชิงเส้น / เมทริกซ์ที่เหมาะสมเนื่องจากภาษาเป้าหมายคือ D ซึ่งยังไม่มีและแม้ว่ามันจะเป็นเช่นนั้นฉันก็ไม่ต้องการที่จะเพิ่มมันเป็นการพึ่งพาโครงการที่เป็นปัญหา . เป็นหมายเหตุด้านบนชุดข้อมูลเดียวกัน R ดูเหมือนว่าจะพบส่วนประกอบหลักทั้งหมดอย่างรวดเร็ว แต่ใช้การสลายตัวค่าเอกพจน์ซึ่งไม่ใช่สิ่งที่ฉันต้องการรหัสตัวเอง

54 pca algorithms model-evaluation high-dimensional

3

จะประมาณค่าพารามิเตอร์การหดตัวใน Lasso หรือการถดถอยสันด้วยตัวแปร> 50K ได้อย่างไร?

ฉันต้องการใช้ Lasso หรือการถดถอยสันสำหรับโมเดลที่มีตัวแปรมากกว่า 50,000 ตัว ฉันต้องการทำเช่นนั้นโดยใช้แพคเกจซอฟต์แวร์ในอาร์ฉันสามารถประมาณการพารามิเตอร์การหดตัว ( )?λλ\lambda การแก้ไข: นี่คือจุดที่ฉันตื่นขึ้นมา: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) คำถามของฉันคือ: …

36 r lasso ridge-regression high-dimensional

3

การลดขนาดสำหรับการสร้างภาพควรได้รับการพิจารณาว่าเป็นปัญหา "ปิด" แก้ไขโดย t-SNE หรือไม่

ฉันอ่านเกี่ยวกับอัลกอริทึม -sne มากสำหรับการลดขนาด ฉันประทับใจมากกับประสิทธิภาพของชุดข้อมูล "คลาสสิค" เช่น MNIST ซึ่งทำให้สามารถแยกตัวเลขได้อย่างชัดเจน ( ดูบทความต้นฉบับ ):เสื้อเสื้อt ฉันยังใช้มันเพื่อแสดงคุณสมบัติที่เรียนรู้โดยเครือข่ายประสาทที่ฉันกำลังฝึกอบรมและฉันก็พอใจกับผลลัพธ์มาก ดังนั้นฉันเข้าใจ: เสื้อเสื้อt -sne มีผลลัพธ์ที่ดีในชุดข้อมูลส่วนใหญ่และมีการนำไปใช้อย่างมีประสิทธิภาพ - ด้วยวิธีการประมาณ Barnes-Hut จากนั้นเราอาจพูดได้ว่าปัญหา "การลดมิติ" อย่างน้อยก็เพื่อจุดประสงค์ในการสร้างการสร้างภาพข้อมูล 2D / 3D ที่ดีตอนนี้เป็นปัญหา "ปิด" หรือไม่O ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n \log n) ฉันรู้ว่านี่เป็นคำสั่งที่ค่อนข้างหนา ฉันสนใจที่จะเข้าใจว่า "หลุมพราง" ที่เป็นไปได้ของวิธีการนี้คืออะไร นั่นคือมีกรณีใดบ้างที่เรารู้ว่าไม่มีประโยชน์หรือไม่ นอกจากนี้ปัญหา "เปิด" ในฟิลด์นี้คืออะไร

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

1

ทำไม LASSO ถึงไม่หาคู่ทำนายที่สมบูรณ์แบบของฉันในมิติที่สูง?

ฉันใช้การทดลองเล็ก ๆ กับ LASSO regression ใน R เพื่อทดสอบว่ามันสามารถหาคู่ทำนายที่สมบูรณ์แบบได้หรือไม่ ทั้งคู่มีการกำหนดดังนี้: f1 + f2 = result ผลลัพธ์ที่ได้คือเวกเตอร์ที่กำหนดไว้ล่วงหน้าที่เรียกว่า 'อายุ' F1 และ f2 ถูกสร้างขึ้นโดยใช้เวกเตอร์อายุครึ่งหนึ่งและตั้งค่าที่เหลือเป็น 0 ตัวอย่างเช่น: age = [1,2,3,4,5,6], f1 = [1,2,3, 0,0,0] และ f2 = [0,0,0,4,5,6] ฉันรวมคู่ทำนายนี้กับจำนวนที่เพิ่มขึ้นของตัวแปรที่สร้างแบบสุ่มโดยการสุ่มตัวอย่างจากการแจกแจงปกติ N (1,1) สิ่งที่ฉันเห็นคือเมื่อฉันกด 2 ^ 16 ตัวแปร LASSO ไม่พบคู่ของฉันอีกต่อไป ดูผลลัพธ์ด้านล่าง ทำไมสิ่งนี้จึงเกิดขึ้น คุณสามารถทำซ้ำผลลัพธ์ด้วยสคริปต์ด้านล่าง ฉันสังเกตว่าเมื่อฉันเลือกเวกเตอร์อายุที่แตกต่างกันเช่น: [1: 193] ดังนั้น …

20 r regression feature-selection lasso high-dimensional

1

ข้อมูลควรอยู่กึ่งกลาง + สเกลก่อนใช้ t-SNE หรือไม่

คุณสมบัติของข้อมูลบางอย่างของฉันมีค่ามากในขณะที่คุณสมบัติอื่นมีค่าน้อยกว่ามาก จำเป็นหรือไม่ที่จะรวมศูนย์ + ข้อมูลสเกลก่อนใช้ t-SNE เพื่อป้องกันอคติต่อค่าที่มากขึ้น ฉันใช้การปฏิบัติ sklearn.manifold.TSNE ของ Python กับการวัดระยะทางแบบปริภูมิแบบปริยาย

18 normalization dimensionality-reduction high-dimensional tsne

4

"คำสาปของมิติ" มีอยู่จริงในข้อมูลจริงหรือไม่?

ฉันเข้าใจว่า "การสาปแช่งของมิติ" คืออะไรและฉันได้ทำปัญหาการหาค่าเหมาะที่สุดในระดับสูงแล้วและรู้ถึงความท้าทายของความเป็นไปได้แบบเอ็กซ์โปเนนเชียล อย่างไรก็ตามฉันสงสัยว่า "คำสาปของมิติ" มีอยู่ในข้อมูลโลกแห่งความเป็นจริงมากที่สุด ( ถ้างั้นลองวางรูปภาพหรือวิดีโอไว้ครู่หนึ่งฉันกำลังคิดถึงข้อมูลเช่นข้อมูลประชากรศาสตร์ของลูกค้าและข้อมูลพฤติกรรมการซื้อ) เราสามารถรวบรวมข้อมูลด้วยฟีเจอร์มากมาย แต่ก็มีความเป็นไปได้น้อยกว่าที่ฟีเจอร์นั้นจะสามารถขยายพื้นที่ได้อย่างเต็มที่ด้วยมิติข้อมูลนับพัน นี่คือเหตุผลว่าทำไมเทคนิคการลดขนาดจึงเป็นที่นิยม กล่าวอีกอย่างหนึ่งก็คือมีแนวโน้มว่าข้อมูลจะไม่มีข้อมูลระดับเอ็กซ์โปเนนเชียลเช่นคุณสมบัติหลายอย่างมีความสัมพันธ์สูงและคุณสมบัติหลายอย่างเป็นไปตามกฎ 80-20 (หลายกรณีมีค่าเท่ากัน) ในกรณีเช่นนี้ฉันคิดว่าวิธีการเช่น KNN จะยังคงทำงานได้ดีพอสมควร (ในหนังสือส่วนใหญ่ "คำสาปของมิติ" บอกว่ามิติ> 10 อาจเป็นปัญหาได้ในการสาธิตพวกเขาใช้การกระจายแบบสม่ำเสมอในทุกมิติที่เอนโทรปีสูงจริง ๆ ฉันสงสัยในโลกแห่งความจริงนี้จะเกิดขึ้น) ประสบการณ์ส่วนตัวของฉันกับข้อมูลจริงคือ "การสาปแช่งของมิติ" ไม่ได้ส่งผลกระทบต่อวิธีการเทมเพลต (เช่น KNN) มากเกินไปและในกรณีส่วนใหญ่ขนาด ~ 100 จะยังคงใช้งานได้ สิ่งนี้เป็นจริงสำหรับคนอื่นหรือไม่? (ฉันทำงานกับข้อมูลจริงในอุตสาหกรรมต่าง ๆ เป็นเวลา 5 ปีไม่เคยสังเกตว่า "คู่ระยะทางทั้งหมดมีค่าใกล้เคียงกัน" ตามที่อธิบายไว้ในหนังสือเล่มนี้)

17 clustering dimensionality-reduction high-dimensional

1

การถดถอยแบบมิติสูง: ทำไมพิเศษ?

ฉันพยายามอ่านงานวิจัยในเรื่องการถดถอยแบบมิติสูง เมื่อมีขนาดใหญ่กว่า , ที่อยู่,n ดูเหมือนว่าคำว่ามักปรากฏในรูปของอัตราการลู่เข้าสำหรับตัวประมาณค่าการถดถอยpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n ตัวอย่างเช่นที่นี่สมการ (17) บอกว่ารูปทรงพอดีเชือกสอดคล้องกับ β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. ปกตินี้ยังแสดงให้เห็นว่าlogplog⁡p\log pควรจะมีขนาดเล็กกว่าnnnn มีสัญชาตญาณว่าทำไมอัตราส่วนของlogp/nlog⁡p/n\log p/nจึงโดดเด่นเช่นนี้? นอกจากนี้ก็ดูเหมือนว่าจากวรรณกรรมปัญหาการถดถอยมิติสูงได้รับซับซ้อนเมื่อlogp≥nlog⁡p≥n\log p \geq nn ทำไมถึงเป็นเช่นนั้น? มีการอ้างอิงที่ดีที่กล่าวถึงปัญหาที่ว่าpppและnnnจะโตเร็วแค่ไหนเมื่อเปรียบเทียบกัน?

16 regression lasso convergence high-dimensional

1

Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?

สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่? โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้): การถดถอยเชิงเส้นและโลจิสติก ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง โครงข่ายประสาทเทียม SVM kNN k-หมายถึงการจัดกลุ่ม

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

3

PCA กับข้อมูลตัวอักษรมิติสูงก่อนการจำแนกป่าแบบสุ่ม?

มันเหมาะสมหรือไม่ที่จะทำ PCA ก่อนที่จะทำการจำแนกป่าแบบสุ่ม? ฉันกำลังจัดการกับข้อมูลข้อความมิติสูงและฉันต้องการลดฟีเจอร์เพื่อช่วยหลีกเลี่ยงการสาปแช่งของมิติ แต่ไม่ป่าสุ่มไปแล้วเพื่อลดขนาด

14 classification pca random-forest dimensionality-reduction high-dimensional

2

ฉันจะรู้ได้อย่างไรว่าอัลกอริธึมการจัดกลุ่ม k-mean ของฉันกำลังทุกข์ทรมานจากการสาปแช่งของมิติ

ฉันเชื่อว่าชื่อของคำถามนี้บอกว่ามันทั้งหมด

12 clustering k-means high-dimensional

2

การถดถอยเชิงเส้นหลายครั้งใน 3 มิติเป็นระนาบที่พอดีที่สุดหรือเป็นเส้นที่พอดีที่สุดหรือไม่?

ศาสตราจารย์ของเราไม่ได้เข้าสู่คณิตศาสตร์หรือแม้แต่การแสดงเชิงเรขาคณิตของการถดถอยเชิงเส้นหลายเส้นและสิ่งนี้ทำให้ฉันสับสนเล็กน้อย ในอีกด้านหนึ่งก็ยังคงเรียกว่าการถดถอยเชิงเส้นหลายครั้งแม้ในมิติที่สูงขึ้น ในทางกลับกันถ้าเรามีตัวอย่างเช่นY = ข0 + ข1 X 1 + B 2 X 2และเราสามารถเสียบค่าใด ๆ ที่เราต้องการสำหรับX 1และX 2จะไม่ให้นี้เรา ระนาบของการแก้ปัญหาที่เป็นไปได้และไม่ใช่เส้น?Y^= b0+ b1X1+ b2X2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 X_1 + b_2 X_2X1X1X_1X2X2X_2 โดยทั่วไปแล้วพื้นผิวของการทำนายของเราจะเป็นไฮเปอร์เพลทมิติสำหรับตัวแปรอิสระkkkkkkk

11 multiple-regression high-dimensional

4

คำสาปของขนาด: kNN ลักษณนาม

ฉันกำลังอ่านหนังสือของ Kevin Murphy: Machine Learning-A Perspective ในบทแรกผู้เขียนอธิบายคำสาปของมิติและมีส่วนที่ฉันไม่เข้าใจ ตัวอย่างผู้เขียนระบุ: พิจารณาว่าอินพุตนั้นมีการกระจายอย่างสม่ำเสมอตามคิวบ์หน่วยมิติ สมมติว่าเราประเมินความหนาแน่นของคลาสฉลากโดยสร้างไฮเปอร์คิวบ์รอบ ๆ x จนกว่าจะมีเศษส่วนที่ต้องการของจุดข้อมูล ความยาวขอบที่คาดหวังของก้อนนี้เป็น{D}}fffeD(f)=f1DeD(f)=f1De_D(f) = f^{\frac{1}{D}} มันเป็นสูตรสุดท้ายที่ฉันไม่สามารถเข้าใจได้ ดูเหมือนว่าถ้าคุณต้องการที่จะพูดว่า 10% ของคะแนนกว่าความยาวขอบควรเป็น 0.1 ตามแต่ละมิติ? ฉันรู้ว่าเหตุผลของฉันผิด แต่ฉันไม่เข้าใจว่าทำไม

11 self-study k-nearest-neighbour high-dimensional

1

ทฤษฎีบทความเปรียบต่างสัมพัทธ์จาก Beyer และคณะ paper:“ พฤติกรรมที่น่าแปลกใจของมาตรวัดระยะทางในพื้นที่มิติสูง” ทำให้เข้าใจผิด?

สิ่งนี้ถูกอ้างถึงบ่อยมากเมื่อพูดถึงคำสาปของมิติและไป (สูตรทางขวามือเรียกว่าความเปรียบต่างสัมพัทธ์) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 ผลของทฤษฎีบทแสดงให้เห็นว่าความแตกต่างระหว่างระยะทางสูงสุดและต่ำสุดไปยังจุดสอบถามที่กำหนดไม่ได้เพิ่มขึ้นเร็วเท่ากับระยะทางที่ใกล้ที่สุดไปยังจุดใด ๆ ในพื้นที่มิติสูง สิ่งนี้ทำให้เคียวรีความใกล้เคียงไม่มีความหมายและไม่เสถียรเนื่องจากมีการเลือกปฏิบัติที่ไม่ดีระหว่างเพื่อนบ้านที่อยู่ใกล้ที่สุดและไกลที่สุด ลิงค์ แต่ถ้ามีใครลองคำนวณความแตกต่างสัมพัทธ์สำหรับค่าตัวอย่างความหมายจะใช้เวกเตอร์ที่มีค่าน้อยมากและคำนวณระยะห่างจากศูนย์เวกเตอร์และทำเช่นเดียวกันสำหรับเวกเตอร์ที่มีค่าที่มีขนาดใหญ่กว่ามาก มิติที่ 3 และมิติที่ใหญ่กว่า10910910^9เท่าจะเห็นว่าในขณะที่อัตราส่วนลดลงการเปลี่ยนแปลงนั้นเล็กมากจนไม่เกี่ยวข้องกับจำนวนมิติที่ใช้จริงในทางปฏิบัติ ด้วยข้อมูลที่มีขนาดขนาดของหมายเลขเกรแฮม - ซึ่งฉันคิดว่าเป็นขนาดที่จำเป็นสำหรับเอฟเฟกต์ที่อธิบายว่ากระดาษมีความเกี่ยวข้องจริง ๆ - ฉันคิดว่าไม่) ดังที่ได้กล่าวไปแล้วทฤษฎีบทนี้มักถูกอ้างถึงมากเพื่อสนับสนุนคำแถลงว่าการวัดความใกล้เคียงตามปริภูมิแบบยุคลิดเป็นกลยุทธ์ที่ไม่ดีในพื้นที่มิติสูงผู้เขียนพูดอย่างนั้นเองแต่ทว่าพฤติกรรมที่เสนอไม่ได้เกิดขึ้นจริง คิดว่าทฤษฎีบทนี้ถูกนำมาใช้ในแบบที่ทำให้เข้าใจผิด ตัวอย่าง: ด้วยdมิติ a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin สำหรับ d = 3 9999999999.0 สำหรับ …

10 machine-learning distance-functions high-dimensional

คำถามติดแท็ก high-dimensional