สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การประยุกต์ใช้วิธีการเรียนรู้ของเครื่องในเว็บไซต์ StackExchange
ฉันมีหลักสูตรการเรียนรู้ของเครื่องภาคการศึกษานี้และอาจารย์ขอให้เราหาปัญหาในโลกแห่งความจริงและแก้ปัญหาโดยหนึ่งในวิธีการเรียนรู้ของเครื่องที่เปิดตัวในชั้นเรียนเป็น: ต้นไม้ตัดสินใจ โครงข่ายประสาทเทียม รองรับ Vector Machines การเรียนรู้ตามอินสแตนซ์ ( kNN , LWL ) เครือข่าย Bayesian เสริมการเรียนรู้ ฉันเป็นหนึ่งในแฟน ๆ ของstackoverflowและstackexchangeและทราบว่าการทิ้งฐานข้อมูลของเว็บไซต์เหล่านี้ถูกเปิดเผยต่อสาธารณะเพราะมันยอดเยี่ยม! ฉันหวังว่าฉันจะได้พบกับความท้าทายในการเรียนรู้ของเครื่องที่ดีเกี่ยวกับฐานข้อมูลเหล่านี้และแก้ไขมัน ความคิดของฉัน แนวคิดหนึ่งที่อยู่ในใจของฉันคือการทำนายแท็กสำหรับคำถามตามคำที่ป้อนในเนื้อหาของคำถาม ฉันคิดว่าเครือข่ายแบบเบย์เป็นเครื่องมือที่เหมาะสมสำหรับการเรียนรู้แท็กสำหรับคำถาม แต่ต้องการการวิจัยเพิ่มเติม อย่างไรก็ตามหลังจากขั้นตอนการเรียนรู้เมื่อผู้ใช้เสร็จสิ้นการป้อนคำถามแท็กบางอย่างควรจะแนะนำให้เขา กรุณาบอกฉัน : ฉันต้องการถามชุมชนสถิติในฐานะคนที่มีประสบการณ์เกี่ยวกับ ML สองคำถาม: คุณคิดว่าคำแนะนำแท็กเป็นปัญหาที่มีโอกาสแก้ไขได้หรือไม่? คุณมีคำแนะนำเกี่ยวกับเรื่องนี้หรือไม่? ฉันกังวลเล็กน้อยเพราะ stackexchange ยังไม่ได้ใช้คุณสมบัติดังกล่าว คุณมีความคิดอื่น / ดีกว่าสำหรับโครงการ ML ที่ยึดตามฐานข้อมูล stackexchange หรือไม่ ฉันพบว่ามันยากที่จะเรียนรู้จากฐานข้อมูล stackexchange การพิจารณาเกี่ยวกับข้อผิดพลาดของฐานข้อมูล: ฉันต้องการที่จะชี้ให้เห็นว่าถึงแม้ว่าฐานข้อมูลจะมีขนาดใหญ่และมีหลายกรณี แต่ก็ไม่สมบูรณ์และตัดให้ผิดพลาด สิ่งที่ชัดเจนคืออายุของผู้ใช้ที่ไม่น่าเชื่อถือ แม้กระทั่งแท็กที่เลือกไว้สำหรับคำถามนั้นไม่ถูกต้อง 100% อย่างไรก็ตามเราควรพิจารณาถึงเปอร์เซ็นต์ความถูกต้องของข้อมูลในการเลือกปัญหา …

2
Kullback – Leibler vs Kolmogorov-Smirnov ระยะทาง
ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่? เหตุผลที่ต้องทำคืออะไร?

5
วัตถุประสงค์ของฟังก์ชั่นลักษณะคืออะไร?
ฉันหวังว่าบางคนสามารถอธิบายได้ว่าในแง่ของคนธรรมดาหน้าที่ของคุณลักษณะคืออะไรและใช้ในทางปฏิบัติอย่างไร ฉันอ่านว่ามันคือการแปลงฟูริเยร์ของ pdf ดังนั้นฉันเดาว่าฉันรู้ว่ามันคืออะไรแต่ฉันก็ยังไม่เข้าใจวัตถุประสงค์ของมัน หากใครบางคนสามารถให้คำอธิบายที่เข้าใจง่ายเกี่ยวกับจุดประสงค์ของมันและอาจเป็นตัวอย่างของวิธีการใช้โดยทั่วไปนั่นจะยอดเยี่ยม! เพียงหนึ่งบันทึกล่าสุด: ฉันได้เห็นหน้า Wikipediaแต่เห็นได้ชัดว่าหนาแน่นเกินไปที่จะเข้าใจสิ่งที่เกิดขึ้น สิ่งที่ฉันกำลังมองหาคือคำอธิบายว่าบางคนไม่ได้หมกมุ่นอยู่กับสิ่งมหัศจรรย์ของทฤษฎีความน่าจะเป็นนักวิทยาศาสตร์คอมพิวเตอร์สามารถเข้าใจได้

2
เมื่อใดและอย่างไรที่จะใช้ตัวแปรอธิบายที่เป็นมาตรฐานในการถดถอยเชิงเส้น
ฉันมีคำถามง่ายๆ 2 ข้อเกี่ยวกับการถดถอยเชิงเส้น: เมื่อใดควรที่จะสร้างมาตรฐานของตัวแปรอธิบาย? เมื่อการประมาณค่าดำเนินการด้วยค่ามาตรฐานแล้วหนึ่งคนจะคาดการณ์ด้วยค่าใหม่ได้อย่างไร (ควรประเมินค่ามาตรฐานใหม่อย่างไร) การอ้างอิงบางอย่างจะเป็นประโยชน์

5
นักสถิติการทำงานสนใจเกี่ยวกับความแตกต่างระหว่างการอนุมานแบบประจำและแบบเบย์หรือไม่?
ในฐานะคนนอกดูเหมือนว่ามีสองมุมมองการแข่งขันว่าควรทำการอนุมานทางสถิติอย่างไร ทั้งสองวิธีที่แตกต่างกันทั้งสองพิจารณาว่าถูกต้องโดยนักสถิติการทำงาน? การเลือกคำถามหนึ่งถือเป็นคำถามเชิงปรัชญามากกว่านี้หรือไม่? หรือสถานการณ์ปัจจุบันถือเป็นปัญหาและมีความพยายามที่จะรวมวิธีการต่าง ๆ เข้าด้วยกัน?

8
เป็นไปได้หรือไม่ที่จะพิสูจน์สมมติฐานว่าง?
คำถามดังกล่าวเป็นไปได้หรือไม่ที่จะพิสูจน์สมมติฐานว่าง? จากความเข้าใจของฉันเกี่ยวกับสมมติฐานที่ จำกัด คำตอบคือไม่ แต่ฉันไม่สามารถอธิบายได้อย่างแม่นยำ คำถามมีคำตอบที่ชัดเจนหรือไม่?

7
สามารถใช้การตรวจสอบความถูกต้องไขว้สำหรับการอนุมานเชิงสาเหตุได้หรือไม่?
ในบริบททั้งหมดฉันคุ้นเคยกับการตรวจสอบข้ามมันถูกใช้เพียงกับเป้าหมายของการเพิ่มความแม่นยำในการทำนาย สามารถขยายตรรกะของการตรวจสอบข้ามในการประมาณความสัมพันธ์ที่ไม่เอนเอียงระหว่างตัวแปรได้หรือไม่? ในขณะที่บทความนี้ของ Richard Berk แสดงให้เห็นถึงการใช้ตัวอย่างที่ระงับไว้สำหรับการเลือกพารามิเตอร์ในรูปแบบการถดถอย "ขั้นสุดท้าย" (และแสดงให้เห็นว่าทำไมการเลือกพารามิเตอร์ขั้นตอนที่ชาญฉลาดไม่ใช่ความคิดที่ดี) การประเมินเอฟเฟ็กต์ที่เป็นกลางโดยไม่ลำเอียงมีต่อ Y มากกว่าการเลือกแบบจำลองตามตรรกะและความรู้เดิมของเรื่อง ฉันขอให้ผู้คนยกตัวอย่างที่คนหนึ่งใช้ตัวอย่างที่ระงับไว้เพื่อช่วยในการอนุมานเชิงสาเหตุหรือบทความทั่วไปที่อาจช่วยฉันเข้าใจ ฉันไม่สงสัยเลยว่าความคิดของฉันเกี่ยวกับการตรวจสอบไขว้นั้นไร้เดียงสาและดังนั้นถ้าพูดเช่นนั้น ดูเหมือนว่าการใช้ตัวอย่างที่ระงับไว้จะเป็นการคล้อยตามการอนุมานเชิงสาเหตุ แต่ฉันไม่ทราบว่ามีงานใดที่ทำสิ่งนี้หรือวิธีที่พวกเขาจะทำสิ่งนี้ การอ้างอิงสำหรับ Berk Paper: การอนุมานทางสถิติหลังจากการเลือกแบบจำลอง โดย: Richard Berk, Lawrence Brown, Linda Zhao วารสารอาชญาวิทยาเชิงปริมาณ, Vol 26, ลำดับที่ 2 (1 มิถุนายน 2010), หน้า 217-236 รุ่น PDF ที่นี่ นี้คำถามเกี่ยวกับการวิเคราะห์ข้อมูลในการศึกษาสำรวจกลุ่มตัวอย่างขนาดเล็กโดย CHL รับแจ้งคำถามนี้

11
ตำราสถิติโอเพ่นซอร์ส
มีการไม่กี่คำถามเกี่ยวกับสถิติตำราเช่นคำถามฟรีตำราทางสถิติ อย่างไรก็ตามฉันกำลังมองหาหนังสือเรียนที่เป็น Open Source เช่นมีใบอนุญาตครีเอทีฟคอมมอนส์ เหตุผลก็คือในเนื้อหาหลักสูตรในโดเมนอื่นคุณยังคงต้องการรวมข้อความเกี่ยวกับสถิติพื้นฐาน ในกรณีนี้มันจะน่าสนใจที่จะนำวัสดุที่มีอยู่กลับมาใช้ใหม่แทนที่จะเขียนใหม่วัสดุนั้น ดังนั้นหนังสือโอเพ่นซอร์สอะไรที่เกี่ยวกับสถิติ (และบางทีอาจเป็นการเรียนรู้ของเครื่อง) ที่มีอยู่?

7
ทำไมการทำให้เป็นมาตรฐานไม่สามารถแก้ปัญหาความหิวโหยของโครงข่ายประสาทได้
ปัญหาที่ฉันเห็นบ่อยขึ้นในบริบทของเครือข่ายประสาททั่วไปและโดยเฉพาะอย่างยิ่งเครือข่ายประสาทลึกคือพวกเขากำลัง "หิวข้อมูล" - นั่นคือพวกเขาทำงานได้ไม่ดียกเว้นว่าเรามีชุดข้อมูลขนาดใหญ่ ที่จะฝึกอบรมเครือข่าย ความเข้าใจของฉันคือว่านี่เป็นเพราะความจริงที่ว่า NNets โดยเฉพาะอย่างยิ่ง NNets ลึกมีระดับของเสรีภาพจำนวนมาก ดังนั้นในแบบจำลอง NNet จึงมีพารามิเตอร์จำนวนมากและหากจำนวนพารามิเตอร์ของแบบจำลองมีขนาดใหญ่เมื่อเทียบกับจำนวนจุดข้อมูลการฝึกอบรมมีแนวโน้มที่จะเพิ่มขึ้นพอดี แต่ทำไมปัญหานี้ถึงไม่ได้รับการแก้ไขโดยการทำให้เป็นมาตรฐาน เท่าที่ฉันรู้ NNets สามารถใช้การทำให้เป็นมาตรฐาน L1 และ L2 และยังมีวิธีการทำให้เป็นมาตรฐานของตนเองเช่นการออกกลางคันซึ่งสามารถลดจำนวนพารามิเตอร์ในเครือข่าย เราสามารถเลือกวิธีการทำให้เป็นมาตรฐานของเราเช่นที่พวกเขาบังคับใช้ parsimony และ จำกัด ขนาดของเครือข่ายได้หรือไม่? เพื่อชี้แจงความคิดของฉัน: สมมติว่าเรากำลังใช้ Deep NNet ขนาดใหญ่เพื่อพยายามสร้างแบบจำลองข้อมูลของเรา แต่ชุดข้อมูลมีขนาดเล็กและสามารถจำลองโดยโมเดลเชิงเส้นได้ แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ เหตุใดการทำให้เป็นมาตรฐานไม่ช่วยด้วยสิ่งนี้

1
เหตุใดค่า p ของฉันจึงแตกต่างกันระหว่างเอาต์พุตการถดถอยโลจิสติกการทดสอบไคสแควร์และช่วงความมั่นใจสำหรับ OR
ฉันได้สร้างการถดถอยโลจิสติกที่ตัวแปรผลลัพธ์จะหายหลังจากได้รับการรักษา ( CureเทียบกับNo Cure) ผู้ป่วยทั้งหมดในการศึกษานี้ได้รับการรักษา ฉันสนใจที่จะดูว่ามีโรคเบาหวานเกี่ยวข้องกับผลลัพธ์นี้หรือไม่ ใน R ผลลัพธ์การถดถอยโลจิสติกของฉันมีลักษณะดังนี้: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees …

2
T-SNE จะทำให้เข้าใจผิดเมื่อใด
การอ้างอิงจากผู้เขียนคนหนึ่ง: t-Distributed Stochastic Neighbor Embedding (t-SNE) เป็นเทคนิค(ที่ได้รับรางวัล ) สำหรับการลดมิติที่เหมาะอย่างยิ่งสำหรับการสร้างภาพชุดข้อมูลมิติสูง ดังนั้นมันฟังดูดีมาก แต่นั่นคือผู้เขียนพูดคุย ข้อความอ้างอิงอื่นจากผู้เขียน (อีกครั้ง: การแข่งขันดังกล่าว): คุณนำอะไรไปจากการแข่งขันครั้งนี้? ให้มองเห็นข้อมูลของคุณก่อนเสมอก่อนที่คุณจะเริ่มฝึกการทำนายข้อมูล! บ่อยครั้งที่การสร้างภาพข้อมูลเช่นที่ฉันทำนั้นให้ข้อมูลเชิงลึกเกี่ยวกับการกระจายข้อมูลที่อาจช่วยคุณในการกำหนดรูปแบบการทำนายที่ควรลอง ข้อมูลจะต้อง หายไป1 - มันเป็นเทคนิคการลดขนาด อย่างไรก็ตามเนื่องจากเป็นเทคนิคที่ดีที่จะใช้เมื่อสร้างภาพข้อมูลที่สูญหายจึงมีค่าน้อยกว่าข้อมูลที่ถูกเน้น (/ ทำให้มองเห็น / เข้าใจได้ผ่านการลดขนาดเป็น 2 หรือ 3 มิติ) ดังนั้นคำถามของฉันคือ: tSNE เป็นเครื่องมือที่ผิดสำหรับงานเมื่อใด ชุดข้อมูลประเภทใดที่ทำให้ไม่สามารถใช้งานได้ คำถามประเภทใดที่ดูเหมือนว่าจะสามารถตอบได้ แต่จริง ๆ แล้วไม่สามารถทำได้ ในการอ้างอิงที่สองข้างต้นขอแนะนำให้มองเห็นชุดข้อมูลของคุณเสมอการสร้างภาพข้อมูลนี้ควรทำด้วย tSNE เสมอหรือไม่ ฉันคาดหวังว่าคำถามนี้อาจตอบได้ดีที่สุดในการสนทนาคือการตอบ: tSNE เป็นเครื่องมือที่เหมาะสมสำหรับงานเมื่อใด ฉันได้รับการเตือนว่าไม่ต้องพึ่งพา tSNE เพื่อบอกฉันว่าข้อมูลง่าย ๆ จะจำแนกได้อย่างไร (แยกเป็นคลาส …

3
เครื่องหมายของคะแนนหรือการโหลดใน PCA หรือ FA มีความหมายหรือไม่? ฉันขอป้ายย้อนกลับได้ไหม
ฉันทำการวิเคราะห์องค์ประกอบหลัก (PCA) ด้วย R โดยใช้สองฟังก์ชันที่แตกต่างกัน ( prcompและprincomp) และสังเกตว่าคะแนน PCA นั้นแตกต่างกันในการลงชื่อ มันจะเป็นอย่างไร พิจารณาสิ่งนี้: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 …
37 r  pca  factor-analysis 

3
ความแปรปรวนของค่าสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นอย่างง่าย
ในการถดถอยเชิงเส้นอย่างง่ายเรามีที่2) ฉันได้รับตัวประมาณ: ที่และเป็นวิธีการที่เป็นตัวอย่างของและy ที่y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ตอนนี้ผมต้องการที่จะหาแปรปรวนของ\ฉันได้รับสิ่งต่อไปนี้: β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . รากศัพท์มีดังต่อไปนี้: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are iid=1(∑i(xi−x¯)2)2∑i(xi−x¯)2E(ui−∑jujn)2=1(∑i(xi−x¯)2)2∑i(xi−x¯)2⎛⎝E(u2i)−2×E(ui×(∑jujn))+E(∑jujn)2⎞⎠=1(∑i(xi−x¯)2)2∑i(xi−x¯)2(σ2−2nσ2+σ2n)=σ2∑i(xi−x¯)2(1−1n)Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E[(∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]⏟=0)2]=1(∑i(xi−x¯)2)2E[(∑i(xi−x¯)(ui−∑jujn))2]=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] …

3
สุ่ม number-Set.seed (N) ใน R [ซ้ำกัน]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว: อะไรคือเมล็ดพันธุ์ในเครื่องกำเนิดเลขสุ่ม? 3 คำตอบ ฉันรู้ว่ามีคนใช้set.seed()R ในการสร้างตัวเลขสุ่มหลอก ฉันยังตระหนักว่าการใช้หมายเลขเดียวกันเช่นset.seed(123)ประกันคุณสามารถทำซ้ำผลลัพธ์ แต่สิ่งที่ฉันไม่ได้รับคือคุณค่าของตัวเองหมายถึงอะไร ฉันกำลังเล่นกับฟังก์ชั่นหลายและบางส่วนใช้set.seed(1)หรือหรือset.seed(300) set.seed(12345)หมายเลขนั้นหมายถึงอะไร (ถ้ามี) - และฉันควรใช้หมายเลขอื่นเมื่อใด ตัวอย่างในหนังสือที่ฉันใช้งานอยู่พวกเขาใช้set.seed(12345)เมื่อสร้างชุดการฝึกอบรมสำหรับต้นไม้ตัดสินใจ จากนั้นในบทอื่นพวกเขาใช้set.seed(300)สำหรับสร้างป่าสุ่ม แค่อย่ารับเบอร์

4
ความแตกต่างระหว่างการพยากรณ์และการทำนาย?
ฉันสงสัยว่าความแตกต่างและความสัมพันธ์ระหว่างการพยากรณ์และการทำนายคืออะไร โดยเฉพาะในอนุกรมเวลาและการถดถอย ตัวอย่างเช่นฉันแก้ไขให้ถูกต้อง: ในอนุกรมเวลาการคาดการณ์ดูเหมือนว่าจะหมายถึงการประเมินค่าในอนาคตที่กำหนดให้ค่าที่ผ่านมาของอนุกรมเวลา ในการถดถอยการคาดคะเนดูเหมือนจะหมายถึงการประมาณค่าว่าเป็นข้อมูลในอนาคตปัจจุบันหรือในอดีตของข้อมูลที่ได้รับ ขอบคุณและขอแสดงความนับถือ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.