สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เป็นตำแหน่งของความแปรปรวนเมทริกซ์ที่มากที่สุดทำไม
ตามที่ระบุในคำถามนี้อันดับสูงสุดของเมทริกซ์ความแปรปรวนร่วมคือn−1n−1n-1โดยที่nnnคือขนาดตัวอย่างและดังนั้นหากมิติของเมทริกซ์ความแปรปรวนร่วมเท่ากับขนาดตัวอย่างมันจะเป็นเอกพจน์ ผมไม่เข้าใจว่าทำไมเราลบ111จากการจัดอันดับสูงสุดnnnความแปรปรวนร่วมเมทริกซ์

1
ในฟอเรสต์แบบสุ่ม% IncMSE ที่ใหญ่กว่านั้นจะดีกว่าหรือแย่กว่านั้น?
เมื่อฉันได้สร้าง (ถดถอย) รุ่นป่าสุ่มใน R โทรrf$importanceให้ผมด้วยสองมาตรการสำหรับแต่ละตัวแปรทำนายและ%IncMSE IncNodePurityการตีความตัวแปรทำนายที่มี%IncMSEค่าน้อยกว่าสำคัญกว่าตัวแปรพยากรณ์ที่มี%IncMSEค่ามากกว่าหรือไม่ เกี่ยวกับเพื่อIncNodePurity?

2
เหตุใดข้อมูลที่สังเกตได้ของฟิชเชอร์จึงถูกนำมาใช้อย่างแม่นยำ?
ในการตั้งค่าความน่าจะเป็นมาตรฐานสูงสุด (ตัวอย่าง iid จากการกระจายบางอย่างที่มีความหนาแน่นf y ( y | θ 0 )) และในกรณีของรูปแบบที่ระบุอย่างถูกต้องข้อมูลฟิชเชอร์จะได้รับY1,…,YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] เมื่อความคาดหวังถูกนำมาใช้โดยคำนึงถึงความหนาแน่นที่แท้จริงซึ่งสร้างข้อมูล ฉันได้อ่านแล้วว่าข้อมูลฟิชเชอร์ที่สังเกตได้ J^(θ)=−∂2θ2lnfy(θ)J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) ถูกใช้เป็นหลักเนื่องจากอินทิกรัลที่เกี่ยวข้องในการคำนวณ (คาดว่า) ข้อมูลฟิชเชอร์อาจไม่สามารถทำได้ในบางกรณี สิ่งที่สร้างความสับสนให้ฉันก็คือแม้ว่าหนึ่งเป็นไปได้คาดหวังจะต้องมีการดำเนินการที่เกี่ยวกับรูปแบบความจริงที่เกี่ยวข้องกับค่าพารามิเตอร์ที่ไม่รู้จัก 0 หากเป็นกรณีที่ปรากฏว่าโดยไม่ทราบว่าθ 0มันเป็นไปไม่ได้ในการคำนวณฉัน มันเป็นเรื่องจริงเหรอ?θ0θ0\theta_{0}θ0θ0\theta_{0}III

1
การกระจายแบบไม่สม่ำเสมอของค่า p เมื่อจำลองการทดสอบทวินามภายใต้สมมติฐานว่าง
ฉันได้ยินมาว่าภายใต้สมมติฐานว่างการกระจาย p-value ควรเหมือนกัน อย่างไรก็ตามการจำลองการทดสอบแบบทวินามใน MATLAB กลับมีการแจกแจงที่แตกต่างกันมากจากชุดที่มีค่าเฉลี่ยมากกว่า 0.5 (0.518 ในกรณีนี้): coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); พยายามเปลี่ยนวิธีการที่ฉันสร้างตัวเลขสุ่มไม่ได้ช่วย ฉันขอขอบคุณคำอธิบายที่นี่จริงๆ

1
Jenks Natural Breaks ใน Python: จะหาจำนวนการพักที่เหมาะสมได้อย่างไร
ฉันพบการใช้ PythonของอัลกอริทึมJenks Natural Breaksและฉันสามารถทำให้มันทำงานบนเครื่อง Windows 7 ของฉัน มันค่อนข้างเร็วและพบว่าตัวแบ่งในเวลาไม่กี่พิจารณาขนาดของ geodata ของฉัน ก่อนที่จะใช้อัลกอริทึมการจัดกลุ่มนี้สำหรับข้อมูลของฉันฉันใช้อัลกอริทึมsklearn.clustering.KMeans (ที่นี่) ปัญหาที่ฉันมีกับ KMeans คือการหาพารามิเตอร์ค่า K ที่เหมาะสม แต่ฉัน "แก้ไข" มันเปิดตัวอัลกอริทึมสำหรับค่า K ที่แตกต่างกันและการใช้sklearn.metrics.silhouette_score (ที่นี่)เพื่อค้นหาเคที่ดีที่สุด คำถามของฉันคือ: ถ้าฉันบอกอัลกอริธึมการแบ่งธรรมชาติเพื่อค้นหา 5 คลาส (นั่นคือ K) ฉันจะแน่ใจได้อย่างไรว่านี่เป็นจำนวนคลาสที่ตรงกับข้อมูลของฉันมากที่สุด ฉันจะตรวจสอบว่าฉันเลือกจำนวนการหยุดพักที่ดีที่สุดได้อย่างไร ขอบคุณ!

3
เหตุใดฟังก์ชันการแจกแจงสะสม (CDF) จึงกำหนดการกระจายโดยเฉพาะ
ฉันได้รับการบอกเสมอว่า CDF ไม่เหมือนใคร แต่ PDF / PMF ไม่เหมือนกันทำไมจึงเป็นเช่นนั้น คุณสามารถยกตัวอย่างที่ PDF / PMF ไม่ซ้ำกันได้หรือไม่?

1
การรายงานความแปรปรวนของการตรวจสอบความถูกต้องข้ามของ k-fold ซ้ำ ๆ
ฉันใช้การตรวจสอบไขว้ซ้ำแบบ k-fold ซ้ำแล้วซ้ำอีกและรายงานค่าเฉลี่ย (ของการวัดการประเมินผลเช่นความไวความจำเพาะ) ที่คำนวณเป็นค่าเฉลี่ยขนาดใหญ่ข้ามการตรวจสอบไขว้ต่างกัน อย่างไรก็ตามฉันไม่แน่ใจว่าฉันควรรายงานความแปรปรวนอย่างไร ฉันพบคำถามมากมายที่นี่เกี่ยวกับการตรวจสอบความถูกต้องไขว้ซ้ำแล้วซ้ำอีกอย่างไรก็ตามไม่มีใครรู้ว่าฉันตอบคำถามความแปรปรวนอย่างชัดเจนในการทดสอบการตรวจสอบข้ามซ้ำ ฉันเข้าใจว่าความแปรปรวนทั้งหมดเกิดจาก: 1) ความไม่เสถียรของรุ่นและ 2) ขนาดตัวอย่างที่ จำกัด ดูเหมือนว่ามีวิธีการที่แตกต่างกัน 4 วิธีในการคำนวณความแปรปรวนสำหรับการตรวจสอบความถูกต้องข้าม k-fold ซ้ำ: 1) ความแปรปรวนของตัวชี้วัดประสิทธิภาพโดยเฉลี่ยที่ประมาณไว้ (เช่นความแม่นยำ) ในการดำเนินการตรวจสอบความถูกต้องข้ามนั้นเป็นค่าประมาณความแปรปรวนที่ถูกต้องหรือไม่ 2) ความแปรปรวนร่วมกันโดยการรวมผลต่างเฉพาะการใช้งาน (ซึ่งคำนวณจากการทดสอบการตรวจสอบข้ามแบบครอสที่แตกต่างกัน) 3) การต่อผลลัพธ์ที่ได้จากการจำแนกข้ามที่แตกต่างกันของการตรวจสอบความถูกต้องข้ามในเวกเตอร์ขนาดใหญ่ ตัวอย่างเช่นถ้าจำนวนข้อมูลการทดสอบในแต่ละเท่าคือ 10 และฉันมี CV 10 เท่าผลเวกเตอร์สำหรับการทำซ้ำจะมีขนาด 100 ตอนนี้ถ้าฉันทำซ้ำการทดสอบการตรวจสอบข้าม 10 ครั้งฉันจะ มี 10 เวกเตอร์ขนาด 100 ซึ่งแต่ละอันมีผลการจำแนกประเภทจากการวิ่ง CV 10 เท่า ตอนนี้ฉันจะคำนวณค่าเฉลี่ยและความแปรปรวนเป็นกรณีของ CV ทำงานครั้งเดียว 4) ฉันได้อ่านด้วย …

2
จะตีความสัมประสิทธิ์สหสัมพันธ์ของแมทธิวได้อย่างไร?
คำตอบสำหรับคำถามความสัมพันธ์ระหว่างค่าสัมประสิทธิ์สหสัมพันธ์, แมตทิวส์และเพียร์สัน? แสดงให้เห็นว่าทั้งสามวิธีสัมประสิทธิ์เทียบเท่า ฉันไม่ได้มาจากสถิติดังนั้นมันควรเป็นคำถามง่าย ๆ กระดาษ Matthews (www.sciencedirect.com/science/article/pii/0005279575901099) อธิบายสิ่งต่อไปนี้: "A correlation of: C = 1 indicates perfect agreement, C = 0 is expected for a prediction no better than random, and C = -1 indicates total disagreement between prediction and observation"`. ตามที่ Wikipedia ( http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient ) ความสัมพันธ์ของเพียร์สันถูกอธิบายว่า: giving a value …

1
การวัดความสัมพันธ์ที่เหมาะสมของตัวแปรด้วยองค์ประกอบ PCA คืออะไร (บน biplot / plot plot)
ฉันกำลังใช้FactoMineRเพื่อลดชุดข้อมูลการวัดของฉันเป็นตัวแปรแฝง แผนที่ตัวแปรด้านบนมีความชัดเจนสำหรับฉันในการตีความ แต่ฉันสับสนเมื่อมันมาถึงความสัมพันธ์ระหว่างตัวแปรและองค์ประกอบ 1 มองที่แผนที่ตัวแปรddpและcovอยู่ใกล้กับส่วนประกอบในแผนที่ddpAbsมากขึ้นอีกเล็กน้อย ไป แต่นี่ไม่ใช่สิ่งที่สหสัมพันธ์แสดง: $Dim.1 $Dim.1$quanti correlation p.value jittAbs 0.9388158 1.166116e-11 rpvi 0.9388158 1.166116e-11 sd 0.9359214 1.912641e-11 ddpAbs 0.9327135 3.224252e-11 rapAbs 0.9327135 3.224252e-11 ppq5 0.9319101 3.660014e-11 ppq5Abs 0.9247266 1.066303e-10 cov 0.9150209 3.865897e-10 npvi 0.8853941 9.005243e-09 ddp 0.8554260 1.002460e-07 rap 0.8554260 1.002460e-07 jitt 0.8181207 1.042053e-06 cov5_x 0.6596751 4.533596e-04 …

2
คำถามเกี่ยวกับการสร้างมาตรฐานในการถดถอยแบบสัน
เฮ้พวกฉันพบเอกสารหนึ่งหรือสองฉบับที่ใช้การถดถอยแบบสัน (สำหรับข้อมูลบาสเก็ตบอล) ฉันได้รับคำสั่งให้ปรับมาตรฐานตัวแปรของฉันเสมอถ้าฉันวิ่งสันเขาถดถอย แต่ฉันก็แค่บอกให้ทำอย่างนี้เพราะสันเขาเป็นตัวแปรขนาด (การถดถอยสันไม่ได้เป็นส่วนหนึ่งของหลักสูตรของเรา เอกสารเหล่านี้ที่ฉันอ่านไม่ได้ทำให้ตัวแปรของพวกเขาเป็นมาตรฐานซึ่งฉันพบว่าน่าแปลกใจเล็กน้อย พวกเขายังจบลงด้วยค่าแลมบ์ดาขนาดใหญ่ (ประมาณระดับ 2,000-4,000) ผ่านการตรวจสอบความถูกต้องของข้อมูลและฉันได้รับการบอกว่าสิ่งนี้เกิดจากการไม่ปรับมาตรฐานของตัวแปร การปล่อยให้ตัวแปรนำไปสู่ค่าแลมบ์ดาที่ไม่ได้มาตรฐานนั้นมีความแม่นยำเพียงใดและผลที่ตามมาของการไม่ทำให้ตัวแปรโดยทั่วไปเป็นมาตรฐานคืออะไร มันเป็นเรื่องใหญ่จริงเหรอ? ความช่วยเหลือใด ๆ ที่ชื่นชมมาก

4
KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?
ดูเหมือนว่า KNN เป็นอัลกอริทึมการเรียนรู้แบบเลือกปฏิบัติ แต่ฉันไม่พบแหล่งข้อมูลออนไลน์ใด ๆ ยืนยันสิ่งนี้ KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?

2
พหุนามตัดกันสำหรับการถดถอย
ฉันไม่เข้าใจการใช้ความแตกต่างพหุนามในการถดถอยเชิงเส้น โดยเฉพาะอย่างยิ่งฉันหมายถึงการเข้ารหัสที่ใช้โดยRเพื่อแสดงตัวแปรช่วงเวลา (ตัวแปรลำดับที่มีระดับเว้นระยะเท่ากัน) อธิบายไว้ในหน้านี้ ในตัวอย่างของหน้านั้นถ้าฉันเข้าใจอย่างถูกต้อง R เหมาะกับโมเดลสำหรับตัวแปรช่วงเวลาคืนค่าสัมประสิทธิ์บางอย่างซึ่งให้น้ำหนักแนวโน้มเชิงเส้นการกำลังสองหรือลูกบาศก์ ดังนั้นรูปแบบการติดตั้งควรเป็น: write=52.7870+14.2587X−0.9680X2−0.1554X3,write=52.7870+14.2587X−0.9680X2−0.1554X3,{\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3, โดยที่XXXควรรับค่า111 , 222 , 333หรือ444ตามระดับที่แตกต่างกันของตัวแปรช่วงเวลา ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นแล้วอะไรคือจุดประสงค์ของการตัดกันของพหุนาม

1
มีอะไรผิดปกติกับภาพประกอบนี้ของการกระจายหลังหรือไม่
ฉันมีภาพต่อไปนี้ซึ่งฉันได้รับการบอกเล่าว่าเป็นภาพประกอบของวิธีการแจกแจงความน่าจะเป็นหลังซึ่งเป็นการรวมกันของการแจกแจงก่อนหน้าและความน่าจะเป็น ฉันได้รับการบอกว่ามีบางอย่างผิดปกติกับภาพกล่าวคือการกระจายหลังไม่สามารถมีรูปแบบที่มันได้รับรูปแบบของฟังก์ชั่นความน่าจะเป็น แต่ฉันพยายามดิ้นรนที่จะคิดว่ามีอะไรผิดปกติกับภาพ หลังดูเหมือนว่าจะเป็นโอกาส แต่ดึงไปทางขวาโดยการกระจายก่อนหน้า สิ่งนี้ตรงกับความเข้าใจของฉันเกี่ยวกับสิ่งที่ควรเกิดขึ้นและเหมาะสม ไม่มีใครรู้ว่าสิ่งที่อาจจะผิดหรือเปล่า? ความคิดเดียวของฉันคือพื้นที่ด้านหลังอาจน้อยกว่าพื้นที่ภายใต้โอกาสเล็กน้อย สิ่งนี้ดูเหมือนจะเป็นเรื่องที่พิถีพิถันอย่างมากที่จะนำมาซึ่งแม้ว่าหลังดูเหมือนว่าจะอ้วนขึ้นกว่าความเป็นไปได้

4
อะไรคือความแตกต่างระหว่างคำว่า "การวิเคราะห์อนุกรมเวลา" และ "การวิเคราะห์ข้อมูลระยะยาว"
เมื่อพูดถึงข้อมูลระยะยาวเราอาจอ้างถึงข้อมูลที่รวบรวมจากหน่วยงาน / การศึกษาเดียวกันซ้ำ ๆ ซ้ำ ๆ กันดังนั้นจึงมีความสัมพันธ์สำหรับการสังเกตในเรื่องเดียวกันคือความคล้ายคลึงกันภายในเรื่อง เมื่อพูดถึงข้อมูลอนุกรมเวลาเรายังอ้างถึงข้อมูลที่รวบรวมในช่วงเวลาหนึ่งและดูเหมือนว่าจะคล้ายกับการตั้งค่าตามยาวที่กล่าวถึงข้างต้น ฉันสงสัยว่าถ้าใครบางคนสามารถให้คำอธิบายที่ชัดเจนระหว่างสองคำนี้ความสัมพันธ์และความแตกต่างคืออะไร?

2
ฉันจะเรียกใช้การวิเคราะห์การถดถอยโลจิสติกแบบ Ordinal ใน R ด้วยค่าตัวเลข / หมวดหมู่ได้อย่างไร
ฐานข้อมูล : ฉันมีคนประมาณ 1,000 คนที่มีการประเมินผล: '1,' [ดี] '2,' [กลาง] หรือ '3' [ไม่ดี] - นี่คือค่าที่ฉันพยายามทำนายสำหรับคนในอนาคต . นอกจากนั้นฉันยังมีข้อมูลด้านประชากรศาสตร์: เพศ (หมวดหมู่: M / F) อายุ (ตัวเลข: 17-80) และเชื้อชาติ (หมวดหมู่: ดำ / ผิวขาว / ลาติน) ฉันส่วนใหญ่มีสี่คำถาม: ตอนแรกฉันพยายามเรียกใช้ชุดข้อมูลที่อธิบายไว้ข้างต้นเป็นการวิเคราะห์ถดถอยหลายครั้ง แต่เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าเนื่องจากการพึ่งพาของฉันเป็นปัจจัยที่สั่งและไม่ใช่ตัวแปรต่อเนื่องฉันควรใช้การถดถอยแบบลอจิสติกอันดับสำหรับสิ่งนี้ ตอนแรกฉันใช้บางอย่างที่mod <- lm(assessment ~ age + gender + race, data = dataset)ใครสามารถชี้ให้ฉันไปในทิศทางที่ถูกต้อง? จากตรงนั้นสมมติว่าฉันได้ค่าสัมประสิทธิ์ที่ฉันรู้สึกสบายใจฉันเข้าใจวิธีการใส่ค่าตัวเลขเพียงอย่างเดียวใน x1, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.