คำถามติดแท็ก k-nearest-neighbour

วิธีการจำแนกและการถดถอยแบบไม่ใช้พารามิเตอร์ อินพุตประกอบด้วยไฟล์kตัวอย่างการฝึกอบรมที่ใกล้เคียงที่สุดในพื้นที่คุณลักษณะ ผลลัพธ์คือโหมดของเพื่อนบ้าน (ในการจำแนก) หรือค่าเฉลี่ย (ในการถดถอย)

5
อะไรคือความแตกต่างที่สำคัญระหว่าง K-Mean และ K- เพื่อนบ้านที่ใกล้ที่สุด?
ฉันรู้ว่า k-mean ไม่ได้รับการสำรองและใช้สำหรับการทำคลัสเตอร์ ฯลฯ และ k-NN นั้นได้รับการดูแล แต่ฉันต้องการรู้ความแตกต่างที่เป็นรูปธรรมระหว่างสองสิ่งนี้หรือไม่

2
วิธีการกำหนดขอบเขตการตัดสินใจของลักษณนามเพื่อนบ้านใกล้เคียง k- ที่ใกล้ที่สุดจากองค์ประกอบของการเรียนรู้ทางสถิติ
ฉันต้องการสร้างพล็อตที่อธิบายไว้ในหนังสือ ElemStatLearn "องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนายรุ่นที่สอง" โดย Trevor Hastie & Robert Tibshirani & Jerome Friedman เนื้อเรื่องคือ: ฉันสงสัยว่าฉันสามารถสร้างกราฟที่แน่นอนนี้ได้Rอย่างไรโดยเฉพาะบันทึกกราฟกริดและการคำนวณเพื่อแสดงขอบเขต

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
ทำไมทุกคนจะใช้ KNN เพื่อการถดถอย?
จากสิ่งที่ฉันเข้าใจเราสามารถสร้างฟังก์ชันการถดถอยที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น ตัวอย่างเช่น (จำเป็นต้องมีหนึ่งในพาเนลเท่านั้น): ฉันจะทำนายอนาคตได้อย่างไรด้วยการใช้ KNR regressor อีกครั้งดูเหมือนว่าจะประมาณฟังก์ชั่นที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น คำถามของฉัน: อะไรคือข้อดีของการใช้ KNN regressor? ฉันเข้าใจว่ามันเป็นเครื่องมือที่ทรงพลังมากสำหรับการจัดหมวดหมู่ แต่ดูเหมือนว่ามันจะทำงานได้ไม่ดีในสถานการณ์การถดถอย

3
การรวมโมเดลการเรียนรู้ของเครื่อง
ฉันยังใหม่กับการเรียนรู้ข้อมูล / การเรียนรู้ของเครื่อง / ฯลฯ และได้อ่านเกี่ยวกับวิธีการรวมแบบจำลองหลายแบบและแบบจำลองเดียวกันเพื่อปรับปรุงการทำนาย ความประทับใจของฉันจากการอ่านบทความสองเล่ม (ซึ่งมักจะน่าสนใจและยอดเยี่ยมเกี่ยวกับทฤษฎีและตัวอักษรกรีก แต่สั้น ๆ เกี่ยวกับรหัสและตัวอย่างจริง) คือมันควรจะเป็นเช่นนี้: ฉันใช้แบบจำลอง ( knn, RFและอื่น ๆ ) และรับรายการตัวแยกประเภทระหว่าง 0 และ 1 คำถามของฉันคือวิธีรวมรายการตัวแยกประเภทแต่ละรายการเหล่านี้หรือไม่ ฉันใช้โมเดลเดียวกันกับชุดการฝึกอบรมของฉันหรือไม่เพื่อให้จำนวนคอลัมน์ที่เข้าสู่โมเดลสุดท้ายเหมือนกันหรือมีเคล็ดลับอื่น ๆ อีกหรือไม่ มันจะดีถ้าคำแนะนำ / ตัวอย่างรวมถึงรหัส R หมายเหตุ: สำหรับชุดข้อมูลที่มีเส้น 100k ในชุดฝึกอบรมและ 70k ในชุดทดสอบและ 10 คอลัมน์

2
เมื่อใดที่“ เพื่อนบ้านใกล้ที่สุด” มีความหมายวันนี้?
ในปี 1999 เบเยอร์และคณะ ถาม เมื่อ "เพื่อนบ้านที่ใกล้ที่สุด" มีความหมาย? มีวิธีที่ดีกว่าในการวิเคราะห์และแสดงผลของความเรียบของระยะทางในการค้นหา NN ตั้งแต่ปี 1999 หรือไม่ ชุดข้อมูล [ที่ระบุ] ให้คำตอบที่มีความหมายต่อปัญหา 1-NN หรือไม่ ปัญหา 10-NN? ปัญหา 100-NN? วันนี้คุณจะผู้เชี่ยวชาญตอบคำถามนี้อย่างไร การแก้ไขวันจันทร์ 24 มกราคม: วิธี "ระยะทางสีขาว" เป็นชื่อที่สั้นกว่าสำหรับ "ความเรียบระยะทางกับมิติที่เพิ่มขึ้น"? วิธีง่าย ๆ ในการดู "ระยะทางไวต์ไวท์" คือการเรียกใช้ 2-NN และวางแผนระยะทางไปยังเพื่อนบ้านที่ใกล้ที่สุดและเพื่อนบ้านที่ใกล้ที่สุดที่สอง เนื้อเรื่องด้านล่างแสดง dist 1และ dist 2 สำหรับช่วงของ nclusters และมิติโดย Monte Carlo ตัวอย่างนี้แสดงความแตกต่างของระยะทางที่ค่อนข้างดีสำหรับส่วนต่างสัมบูรณ์ | dist 2 …

1
ความซับซ้อนในการคำนวณ k-NN
ความซับซ้อนของเวลาของอัลกอริทึมk -NN ด้วยวิธีการค้นหาแบบไร้เดียงสา (ไม่มี kd tree หรือ similars) คืออะไร? ผมสนใจในความซับซ้อนเวลาพิจารณายัง hyperparameter k ฉันได้พบคำตอบที่ขัดแย้ง: O (ND + kn) โดยที่nคือ cardinality ของชุดการฝึกอบรมและวันที่มิติของแต่ละตัวอย่าง [1] O (ndk) อีกครั้งที่nเป็น cardinality ของชุดการฝึกอบรมและวันที่มิติของแต่ละตัวอย่าง [2] [1] http://www.csd.uwo.ca/courses/CS9840a/Lecture2_knn.pdf (Pag. 18/20) [2] http://www.cs.haifa.ac.il/~rita/ml_course/lectures/KNN.pdf (หน้า 18/31)

4
KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?
ดูเหมือนว่า KNN เป็นอัลกอริทึมการเรียนรู้แบบเลือกปฏิบัติ แต่ฉันไม่พบแหล่งข้อมูลออนไลน์ใด ๆ ยืนยันสิ่งนี้ KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?

3
การเลือก K ที่เหมาะสมที่สุดสำหรับ KNN
ฉันทำ CV 5 เท่าเพื่อเลือก K ที่ดีที่สุดสำหรับ KNN และดูเหมือนว่ายิ่งใหญ่กว่า K จะได้รับความผิดพลาดน้อยลง ... ขออภัยฉันไม่มีตำนาน แต่สีที่ต่างกันแสดงถึงการทดลองที่แตกต่างกัน มีทั้งหมด 5 รายการและดูเหมือนว่าจะมีการเปลี่ยนแปลงเล็กน้อยระหว่างพวกเขา ดูเหมือนว่าข้อผิดพลาดจะลดลงเมื่อ K ใหญ่ขึ้น ดังนั้นฉันจะเลือก K ที่ดีที่สุดได้อย่างไร K = 3 จะเป็นตัวเลือกที่ดีที่นี่หรือไม่เนื่องจากกราฟแสดงระดับปิดหลังจาก K = 3

2
เหตุใดคุณจึงต้องขยายข้อมูลใน KNN
มีคนช่วยอธิบายให้ฉันหน่อยได้ไหมว่าทำไมคุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อใช้ K เพื่อนบ้านที่ใกล้ที่สุด ฉันพยายามค้นหามัน แต่ฉันก็ยังดูเหมือนจะไม่เข้าใจ ฉันพบลิงค์ต่อไปนี้: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 แต่ในคำอธิบายนี้ฉันไม่เข้าใจว่าทำไมช่วงที่ใหญ่กว่าในหนึ่งในคุณสมบัติที่มีผลต่อการทำนาย

1
Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?
สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่? โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้): การถดถอยเชิงเส้นและโลจิสติก ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง โครงข่ายประสาทเทียม SVM kNN k-หมายถึงการจัดกลุ่ม

5
แพ็คเกจ KNN imputation R
ฉันกำลังมองหาแพ็คเกจใส่ข้อมูลของ KNN ฉันดูแพคเกจ imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) แต่ด้วยเหตุผลบางอย่างฟังก์ชั่น KNN impute (แม้เมื่อทำตามตัวอย่างจากคำอธิบาย) ดูเหมือนว่า เพื่อกำหนดค่าศูนย์ (ตามด้านล่าง) ฉันได้รับการมองไปรอบ ๆ แต่ยังไม่สามารถหาอะไรได้และด้วยเหตุนี้จึงสงสัยว่าใครมีคำแนะนำอื่น ๆ สำหรับแพ็คเกจการใส่ KNN ที่ดี? W ในรหัสต่อไปนี้ - ค่า NA จะถูกแทนที่ด้วยศูนย์ - ไม่ใช่ด้วยค่าเฉลี่ย Knn require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

4
การจัดการกับความสัมพันธ์น้ำหนักและการลงคะแนนเสียงใน kNN
ฉันกำลังเขียนโปรแกรมอัลกอริทึม kNN และต้องการทราบต่อไปนี้: ผูกแบ่ง: จะเกิดอะไรขึ้นหากไม่มีผู้ชนะอย่างชัดเจนในการลงคะแนนเสียงข้างมาก เช่นเพื่อนบ้านที่ใกล้ที่สุดทั้งหมดมาจากคลาสที่ต่างกันหรือสำหรับ k = 4 มี 2 เพื่อนบ้านจากคลาส A และ 2 เพื่อนบ้านจากคลาส B ใช่หรือไม่ จะเกิดอะไรขึ้นหากไม่สามารถระบุเพื่อนบ้านที่ใกล้ที่สุดได้อย่างแน่นอนเพราะมีเพื่อนบ้านที่มีระยะทางเท่ากัน? เช่นสำหรับรายการของระยะทาง(x1;2), (x2;3.5), (x3;4.8), (x4;4.8), (x5;4.8), (x6;9.2)มันเป็นไปไม่ได้ที่จะกำหนด k = 3 หรือ k = 4 เพื่อนบ้านที่ใกล้ที่สุดเพราะเพื่อนบ้านที่ 3 ถึงที่ 5 มีระยะห่างเท่ากัน น้ำหนัก: ฉันอ่านว่าเป็นการดีที่จะยกน้ำหนักเพื่อนบ้านที่ใกล้ที่สุด k- ก่อนที่จะเลือกชั้นเรียนที่ชนะ มันทำงานอย่างไร คือน้ำหนักของเพื่อนบ้านเป็นอย่างไรและชั้นเรียนจะถูกกำหนดอย่างไร? ทางเลือกโหวตเสียงข้างมาก: มีกฎ / กลยุทธ์อื่น ๆ ในการพิจารณาระดับที่ชนะนอกเหนือจากการลงคะแนนเสียงข้างมากหรือไม่?

4
วัตถุประสงค์ของการฟื้นฟูแถวคืออะไร
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการทำให้คอลัมน์เป็นมาตรฐานเนื่องจากทำให้คุณสมบัตินั้นมีน้ำหนักเท่ากันแม้ว่าจะไม่ได้วัดในระดับเดียวกัน - อย่างไรก็ตามบ่อยครั้งในวรรณกรรมเพื่อนบ้านที่ใกล้ที่สุดทั้งคอลัมน์และแถวจะถูกทำให้เป็นมาตรฐาน การนอร์มัลไลซ์แถวสำหรับ / ทำไมทำให้แถวเป็นมาตรฐาน โดยเฉพาะผลลัพธ์ของการปรับสภาพแถวมีผลต่อความเหมือน / ระยะห่างระหว่างเวกเตอร์แถวอย่างไร

3
การประมาณความหนาแน่นเคอร์เนลแบบปรับได้
ทุกคนสามารถรายงานเกี่ยวกับประสบการณ์ของพวกเขาด้วยการประมาณความหนาแน่นเคอร์เนลแบบปรับได้หรือไม่? (มีคำพ้องความหมายมากมาย: การปรับตัว | ตัวแปร | ความกว้างของตัวแปร, KDE | ฮิสโตแกรม | เครื่องมือแทรก ... การประมาณความหนาแน่นของเคอร์เนลตัวแปร บอกว่า "เราเปลี่ยนแปลงความกว้างของเคอร์เนลในพื้นที่ต่าง ๆ ของพื้นที่ตัวอย่างมีสองวิธี ... " จริง ๆ แล้วเพิ่มเติม: เพื่อนบ้านภายในรัศมีบางเพื่อนบ้าน KNN เพื่อนบ้านที่ใกล้ที่สุด (ปกติ K คงที่) ต้นไม้ Kd multigrid ... แน่นอนว่าไม่มีวิธีการเดียวที่สามารถทำทุกอย่างได้ แต่วิธีการปรับตัวนั้นดูน่าสนใจ ดูตัวอย่างภาพที่ดีของตาข่าย 2d การปรับตัวใน วิธีไฟไนต์เอลิเมนต์ ฉันต้องการฟังสิ่งที่ใช้งานได้ / สิ่งที่ใช้ไม่ได้กับข้อมูลจริงโดยเฉพาะ> = 100k จุดข้อมูลกระจัดกระจายใน 2d หรือ 3d เพิ่ม 2 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.