คำถามติดแท็ก dimensionality-reduction

อ้างถึงเทคนิคในการลดจำนวนตัวแปรหรือขนาดข้อมูลที่ขยายออกไปเป็นจำนวนมิติที่น้อยลงในขณะที่รักษาข้อมูลเกี่ยวกับข้อมูลให้ได้มากที่สุด วิธีการที่โดดเด่นรวมถึง PCA, MDS, Isomap ฯลฯ สอง subclasses หลักของเทคนิค: การแยกคุณสมบัติและการเลือกคุณสมบัติ

1
การเชื่อมต่อระหว่างกำลังสองน้อยที่สุดบางส่วนการถดถอยอันดับลดลงและการถดถอยองค์ประกอบหลักคืออะไร
การถดถอยอันดับที่ลดลงและการถดถอยส่วนประกอบหลักเป็นเพียงกรณีพิเศษที่มีกำลังสองน้อยที่สุดหรือไม่? บทช่วยสอนนี้ (หน้า 6, "การเปรียบเทียบวัตถุประสงค์") ระบุว่าเมื่อเราทำบางส่วนกำลังสองน้อยที่สุดโดยไม่ต้องฉาย X หรือ Y (เช่น "ไม่ใช่บางส่วน") มันจะกลายเป็นการลดอันดับการถดถอยหรือการถดถอยองค์ประกอบหลักตามลำดับ ข้อความที่คล้ายกันนี้จัดทำขึ้นในหน้าเอกสารของ SAS นี้หัวข้อ "การลดอันดับการถดถอย" และ "ความสัมพันธ์ระหว่างวิธีการ" คำถามติดตามพื้นฐานที่สำคัญกว่าคือมีแบบจำลองความน่าจะเป็นพื้นฐานที่คล้ายคลึงกันหรือไม่

4
ตัวแปรใดอธิบายถึงส่วนประกอบ PCA และในทางกลับกัน
ใช้ข้อมูลนี้: head(USArrests) nrow(USArrests) ฉันสามารถทำ PCA เป็นเช่นนี้: plot(USArrests) otherPCA <- princomp(USArrests) ฉันสามารถรับส่วนประกอบใหม่ได้ otherPCA$scores และสัดส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบด้วย summary(otherPCA) แต่ถ้าฉันต้องการรู้ว่าตัวแปรใดที่อธิบายส่วนใหญ่โดยองค์ประกอบหลัก? และในทางกลับกัน: เป็นเช่น PC1 หรือ PC2 ส่วนใหญ่อธิบายโดยmurder? ฉันจะทำสิ่งนี้ได้อย่างไร ฉันสามารถพูดได้เช่นว่า PC1 นั้นสามารถอธิบายได้ 80% โดยmurderหรือassault? ฉันคิดว่าการโหลดช่วยฉันที่นี่ แต่พวกเขาแสดงทิศทางที่ไม่อธิบายความแปรปรวนตามที่ฉันเข้าใจเช่น otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

2
วิธีการสำหรับการรวม / ลดหมวดหมู่ในข้อมูลลำดับหรือข้อมูลระบุ?
ฉันกำลังดิ้นรนเพื่อหาวิธีลดจำนวนหมวดหมู่ในข้อมูลที่ระบุหรือลำดับ ตัวอย่างเช่นสมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยบนชุดข้อมูลที่มีปัจจัยจำนวนเล็กน้อยและปัจจัยอันดับหนึ่ง แม้ว่าฉันจะไม่มีปัญหากับขั้นตอนนี้ แต่บ่อยครั้งที่ฉันพบเจอกับสถานการณ์ที่คุณสมบัติเล็กน้อยโดยไม่มีการสังเกตในชุดการฝึกอบรม แต่ต่อมามีอยู่ในชุดข้อมูลการตรวจสอบความถูกต้อง สิ่งนี้นำไปสู่และเกิดข้อผิดพลาดตามธรรมชาติเมื่อแบบจำลองถูกนำเสนอด้วยคดีที่มองไม่เห็น อีกสถานการณ์ที่ฉันต้องการรวมหมวดหมู่เป็นเพียงเมื่อมีหมวดหมู่มากเกินไปโดยมีข้อสังเกตเล็กน้อย ดังนั้นคำถามของฉันคือ: ในขณะที่ฉันรู้ว่ามันอาจจะดีที่สุดที่จะรวมชื่อหลายคน (และลำดับ) ประเภทขึ้นอยู่กับข้อมูลพื้นฐานที่แท้จริงของโลกก่อนที่พวกเขาเป็นตัวแทนที่มีระบบวิธีการ ( Rแพคเกจดีกว่า) ใช้ได้? คุณจะทำแนวทางและคำแนะนำเกี่ยวกับเกณฑ์การตัดและอื่น ๆ คำตอบที่ได้รับความนิยมมากที่สุดในวรรณกรรมคืออะไร มีกลยุทธ์อื่นนอกเหนือจากการรวมหมวดหมู่เล็กน้อยขนาดเล็กเข้ากับหมวดหมู่ "OTHERS" ใหม่หรือไม่? หากคุณมีข้อเสนอแนะอื่น ๆ

3
PCA กับข้อมูลตัวอักษรมิติสูงก่อนการจำแนกป่าแบบสุ่ม?
มันเหมาะสมหรือไม่ที่จะทำ PCA ก่อนที่จะทำการจำแนกป่าแบบสุ่ม? ฉันกำลังจัดการกับข้อมูลข้อความมิติสูงและฉันต้องการลดฟีเจอร์เพื่อช่วยหลีกเลี่ยงการสาปแช่งของมิติ แต่ไม่ป่าสุ่มไปแล้วเพื่อลดขนาด

3
การเลือกไฮเปอร์พารามิเตอร์โดยใช้ T-SNE สำหรับการจำแนกประเภท
ในปัญหาเฉพาะที่ฉันทำงานกับ (การแข่งขัน) ฉันมีการตั้งค่า follwoing: 21 คุณสมบัติ (ตัวเลขบน [0,1]) และเอาต์พุตไบนารี ฉันมีแถวประมาณ 100 K ดูเหมือนว่าการตั้งค่าจะมีเสียงดังมาก ฉันและผู้เข้าร่วมคนอื่น ๆ ใช้การสร้างคุณลักษณะในช่วงเวลาหนึ่งและเพื่อนบ้าน stochastic แบบ t- กระจายกลายเป็นค่อนข้างมีประสิทธิภาพในการตั้งค่านี้ ฉันสะดุดโพสต์นี้"วิธีการใช้ t-SNE อย่างมีประสิทธิภาพ"แต่ฉันก็ยังไม่สามารถสรุปได้ว่าจะเลือกไฮเปอร์พารามิเตอร์ที่ดีที่สุดในการจำแนกประเภทของฉันได้อย่างไร มีกฎของหัวแม่มือ (จำนวนของคุณสมบัติขนาดของการฝัง -> ทางเลือกของความงุนงง) หรือไม่? ฉันเพิ่งใช้การตั้งค่า Ad-hoc ในขณะนี้เนื่องจากใช้เวลานานเกินไปในการทำซ้ำการตั้งค่าต่างๆ ขอบคุณสำหรับความคิดเห็นใด ๆ

1
การลดขนาดแบบมีผู้สอน
ฉันมีชุดข้อมูลซึ่งประกอบด้วยตัวอย่างที่มีป้ายกำกับ 15K (จาก 10 กลุ่ม) ฉันต้องการนำการลดขนาดมาใช้เป็น 2 มิติโดยคำนึงถึงความรู้เกี่ยวกับฉลาก เมื่อฉันใช้เทคนิคการลดขนาดที่ไม่ได้รับอนุญาต "มาตรฐาน" เช่น PCA พล็อตกระจายดูเหมือนจะไม่มีส่วนเกี่ยวข้องกับฉลากที่รู้จัก สิ่งที่ฉันกำลังมองหามีชื่อหรือไม่? ฉันต้องการอ่านการอ้างอิงของการแก้ปัญหา

2
ความแตกต่างระหว่างการเลือกคุณสมบัติและการลดขนาดคืออะไร?
ฉันรู้ว่าทั้งการเลือกคุณสมบัติและการลดมิติข้อมูลมุ่งไปที่การลดจำนวนคุณสมบัติในชุดคุณสมบัติดั้งเดิม อะไรคือความแตกต่างที่แน่นอนระหว่างสองสิ่งนี้หากเราทำสิ่งเดียวกันทั้งสองอย่าง

1
พีชคณิตของ LDA อำนาจการแยกแยะฟิชเชอร์ของตัวแปรและการวิเคราะห์จำแนกเชิงเส้น
เห็นได้ชัดว่า การวิเคราะห์แบบฟิชเชอร์มีจุดมุ่งหมายที่จะเพิ่มการแยกระหว่างคลาสให้สูงสุดพร้อม ๆ กับลดการกระจายตัวของคลาสภายใน วัดที่มีประโยชน์ของอำนาจจำแนกของตัวแปรจึงจะได้รับโดยปริมาณเส้นทแยงมุม: ฉันBฉันฉัน/ WฉันฉันBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html ผมเข้าใจว่าขนาด ( p x p) ของระหว่าง ( B ) และภายใน-Class ( W ) pการฝึกอบรมจะได้รับจากจำนวนของตัวแปรการป้อนข้อมูล ให้นี้วิธีที่สามารถจะเป็น "วัดที่มีประโยชน์ของอำนาจจำแนก" ของตัวแปรเดียว? ต้องมีตัวแปรอย่างน้อยสองตัวในการสร้างเมทริกซ์ B และ W ดังนั้นการติดตามที่เกี่ยวข้องจะเป็นตัวแทนของตัวแปรมากกว่าหนึ่งตัวBฉันฉัน/ WฉันฉันBii/WiiB_{ii}/W_{ii} ปรับปรุง: ฉันขวาในการคิดว่าไม่ได้เป็นร่องรอยกว่าร่องรอยที่รวมเป็นนัย แต่องค์ประกอบเมทริกซ์B ฉันฉันBฉันฉัน/ WฉันฉันBii/WiiB_{ii}/W_{ii}BฉันฉันBiiB_{ii}หารด้วย ? ปัจจุบันเป็นวิธีเดียวที่ฉันสามารถปรับการแสดงออกด้วยแนวคิดWฉันฉันWiiW_{ii}

2
ฉันสามารถทำ PCA โดยใช้มาตรการซ้ำเพื่อลดข้อมูลได้หรือไม่
ฉันมีการทดลอง 3 ครั้งต่อสัตว์ 87 ตัวในแต่ละบริบทของ 2 (ข้อมูลที่หายไปบางส่วนไม่มีข้อมูลที่ขาดหายไป = 64 สัตว์) ในบริบทที่ฉันมีมาตรการที่เฉพาะเจาะจงจำนวนมาก (เวลาที่จะป้อนจำนวนครั้งที่กลับมาเพื่อที่อยู่อาศัยและอื่น ๆ ) ดังนั้นฉันต้องการที่จะพัฒนา 2-3 คะแนนพฤติกรรมคอมโพสิตที่อธิบายพฤติกรรมในบริบทที่ (เรียกพวกเขาC1, C2, C3) ฉันต้องการสิ่งC1นั้นซึ่งมีความหมายเหมือนกันในการทดลองทั้ง 3 และ 87 สัตว์เพื่อที่ฉันจะได้ทำการถดถอยเพื่อตรวจสอบผลกระทบของอายุเพศสายเลือดและสัตว์แต่ละตัวที่มีต่อพฤติกรรม จากนั้นฉันต้องการตรวจสอบC1ความเกี่ยวข้องกับคะแนนพฤติกรรมในบริบทอื่น ๆ ภายในอายุที่เฉพาะเจาะจง (ณ วันที่ 1 กิจกรรมในบริบทที่ 1 ทำนายกิจกรรมในบริบทที่ 2 ได้หรือไม่) หากนี่ไม่ใช่การวัดซ้ำ PCA จะทำงานได้ดี - ทำ PCA ในหลายมาตรการของบริบทจากนั้นใช้ PC1, PC2 ฯลฯ เพื่อตรวจสอบความสัมพันธ์ (Spearman correlations) ระหว่าง …

1
อธิบายขั้นตอนของอัลกอริธึม LLE (การฝังเชิงเส้นในพื้นที่) ไหม
ฉันเข้าใจหลักการพื้นฐานที่อยู่เบื้องหลังอัลกอริทึมสำหรับ LLE ประกอบด้วยสามขั้นตอน การค้นหาย่านที่คุ้นเคยของแต่ละจุดข้อมูลด้วยตัวชี้วัดบางอย่างเช่น k-nn ค้นหาน้ำหนักสำหรับแต่ละเพื่อนบ้านซึ่งแสดงถึงผลกระทบที่เพื่อนบ้านมีต่อจุดข้อมูล สร้างการฝังข้อมูลในระดับต่ำตามน้ำหนักที่คำนวณ แต่คำอธิบายทางคณิตศาสตร์ของขั้นตอนที่ 2 และ 3 นั้นสร้างความสับสนในหนังสือเรียนและแหล่งข้อมูลออนไลน์ทั้งหมดที่ฉันได้อ่าน ฉันไม่สามารถให้เหตุผลว่าทำไมจึงใช้สูตรนี้ ขั้นตอนเหล่านี้มีการปฏิบัติอย่างไรในทางปฏิบัติ มีวิธีที่เข้าใจง่าย ๆ ในการอธิบายสูตรทางคณิตศาสตร์ที่ใช้หรือไม่? ข้อมูลอ้างอิง: http://www.cs.nyu.edu/~roweis/lle/publications.html

1
จะเลือกเคอร์เนลสำหรับ kernel PCA ได้อย่างไร?
อะไรคือวิธีเลือกเคอร์เนลที่จะส่งผลให้มีการแยกข้อมูลที่ดีในเอาต์พุตข้อมูลขั้นสุดท้ายโดย kernel PCA (การวิเคราะห์องค์ประกอบหลัก) และวิธีใดที่จะปรับพารามิเตอร์ของเคอร์เนลให้เหมาะสม? เงื่อนไขของคนธรรมดาถ้าเป็นไปได้จะได้รับการชื่นชมอย่างมากและการเชื่อมโยงไปยังเอกสารที่อธิบายวิธีการดังกล่าวก็จะดี

1
ความหมายของแกนใน t-SNE คืออะไร?
ขณะนี้ฉันกำลังพยายามคลุมหัวคณิตศาสตร์t-SNE น่าเสียดายที่ยังมีอีกคำถามหนึ่งที่ฉันไม่สามารถตอบได้อย่างน่าพอใจ: ความหมายที่แท้จริงของแกนในกราฟ t-SNE คืออะไร? ถ้าฉันจะให้งานนำเสนอในหัวข้อนี้หรือรวมไว้ในสิ่งพิมพ์ใด ๆ : ฉันจะติดป้ายแกนอย่างเหมาะสมได้อย่างไร PS: ฉันอ่านคำถาม Reddit นี้แต่คำตอบที่ให้ไว้ที่นั่น (เช่น "ขึ้นอยู่กับการตีความและความรู้เกี่ยวกับโดเมน") ไม่ได้ช่วยให้ฉันเข้าใจสิ่งนี้จริงๆ

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
การแสดง PCA ด้วยเมทริกซ์ระยะทางเท่านั้น
ฉันต้องการจัดกลุ่มชุดข้อมูลขนาดใหญ่ที่ฉันมีระยะทางแบบคู่เท่านั้น ฉันใช้อัลกอริทึม k-medoids แต่ใช้เวลานานเกินไปที่จะเรียกใช้ดังนั้นฉันต้องการเริ่มต้นด้วยการลดมิติของปัญหาโดยใช้ PCA อย่างไรก็ตามวิธีเดียวที่ฉันรู้ในการทำวิธีนี้คือการใช้เมทริกซ์ความแปรปรวนร่วมที่ฉันไม่ได้มีในสถานการณ์ของฉัน มีวิธีในการใช้ PCA ที่รู้ระยะทางแบบคู่เท่านั้นหรือไม่

1
การใช้ t-SNE ดีอย่างไรนอกเหนือจากการสร้างภาพข้อมูล?
เราควรใช้ t-SNE ในสถานการณ์ใด (นอกเหนือจากการสร้างภาพข้อมูล) T-SNE ใช้สำหรับลดมิติข้อมูล คำตอบสำหรับคำถามนี้ ชี้ให้เห็นว่าควรใช้ t-SNE สำหรับการสร้างภาพข้อมูลเท่านั้นและไม่ควรใช้สำหรับการทำคลัสเตอร์ ถ้าอย่างนั้นการใช้ t-SNE ดีอย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.