สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
วิธีตีความพล็อต QQ
ฉันกำลังทำงานกับชุดข้อมูลขนาดเล็ก (21 ข้อสังเกต) และมีพล็อต QQ ปกติต่อไปนี้ใน R: เมื่อเห็นว่าพล็อตไม่รองรับความเป็นมาตรฐานฉันจะสรุปอะไรเกี่ยวกับการแจกแจงพื้นฐาน สำหรับฉันแล้วดูเหมือนว่าการแจกแจงที่เบ้ไปทางขวาจะเหมาะกว่าดีกว่าใช่มั้ย นอกจากนี้เราสามารถสรุปอะไรอีกจากข้อมูล

9
ทำไมความหลงใหลอย่างฉับพลันกับเทนเซอร์?
ฉันได้สังเกตเห็นเมื่อเร็ว ๆ นี้ว่าผู้คนจำนวนมากกำลังพัฒนาเทนเซอร์เทียบเท่าวิธีการหลายอย่าง (การแยกตัวประกอบเทนเซอร์, เมล็ดเทนเซอร์, เทนเซอร์สำหรับการสร้างแบบจำลองหัวข้อ ฯลฯ ) ฉันสงสัยว่าทำไมโลกถึงหลงใหลเทนเซอร์ มีเอกสาร / ผลมาตรฐานล่าสุดที่น่าประหลาดใจเป็นพิเศษหรือไม่ มันคำนวณได้ถูกกว่าที่คาดไว้มากก่อนหน้านี้ไหม? ฉันไม่ได้เป็นคนที่มีเสน่ห์ฉันมีความสนใจอย่างจริงใจและหากมีคำแนะนำใด ๆ เกี่ยวกับเรื่องนี้ฉันก็อยากอ่าน

3
เมื่อใดที่ฉันควรใช้บ่วงบาศกับสันเขา?
กล่าวว่าฉันต้องการประมาณค่าพารามิเตอร์จำนวนมากและฉันต้องการลงโทษบางส่วนเพราะฉันเชื่อว่าพวกเขาควรมีผลเพียงเล็กน้อยเมื่อเทียบกับคนอื่น ฉันจะตัดสินใจว่าจะใช้รูปแบบการลงโทษได้อย่างไร การถดถอยของสันเขาจะเหมาะสมกว่าเมื่อใด เมื่อใดที่ฉันควรใช้บ่วงบาศ


8
ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง
ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

8
วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก?
หากคุณมีตัวแปรที่แยกศูนย์และตัวแปรในเป้าหมายได้อย่างสมบูรณ์ R จะให้ข้อความเตือน "การแยกแบบสมบูรณ์แบบหรือกึ่งสมบูรณ์แบบ" ดังต่อไปนี้: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred เรายังได้โมเดล แต่การประมาณค่าสัมประสิทธิ์สูงเกินจริง คุณจัดการกับสิ่งนี้ได้อย่างไรในทางปฏิบัติ?

21
จูเลียมีความหวังใด ๆ หรือไม่ที่จะติดอยู่ในชุมชนทางสถิติ?
ฉันเพิ่งอ่านโพสต์จาก R-บล็อกที่เชื่อมโยงกับการโพสต์บล็อกนี้จากจอห์นไมลส์สีขาวเกี่ยวกับภาษาใหม่ที่เรียกว่าจูเลีย จูเลียใช้ประโยชน์จากคอมไพเลอร์ทันเวลาที่ให้เวลาการรันที่รวดเร็วและทำให้มันมีความเร็วเท่ากันกับ C / C ++ ( ลำดับเดียวกันไม่เร็วเท่ากัน) นอกจากนี้ยังใช้กลไกการวนลูปดั้งเดิมที่พวกเราที่เริ่มเขียนโปรแกรมเกี่ยวกับภาษาดั้งเดิมคุ้นเคยกับแทนที่จะใช้คำสั่ง R และการดำเนินการเวกเตอร์ R จะไม่หายไปด้วยวิธีการใด ๆ แม้จะมีการกำหนดเวลาที่ยอดเยี่ยมเช่นนี้จากจูเลียก็ตาม มีการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและแพ็คเกจที่ยอดเยี่ยมมากมายที่จะทำอะไรก็ได้ ความสนใจของฉันคือ Bayesian ในธรรมชาติซึ่งมักจะเป็นไปไม่ได้ที่ vectorizing แน่นอนว่างานอนุกรมต้องทำโดยใช้ลูปและเกี่ยวข้องกับการคำนวณหนักในแต่ละการทำซ้ำ R อาจช้ามากในงานวนลูปอนุกรมเหล่านี้และ C / ++ ไม่ใช่การเดินในสวนเพื่อเขียน จูเลียดูเหมือนเป็นทางเลือกที่ยอดเยี่ยมสำหรับการเขียนใน C / ++ แต่มันยังอยู่ในช่วงเริ่มต้นและขาดฟังก์ชั่นมากมายที่ฉันชอบเกี่ยวกับอาร์มันน่าจะเหมาะที่จะเรียนรู้ว่าจูเลียเป็นสถิติทางคอมพิวเตอร์ จากชุมชนสถิติและผู้คนเริ่มเขียนแพ็คเกจที่เป็นประโยชน์สำหรับมัน คำถามของฉันเป็นไปตาม: จูเลียจำเป็นต้องมีฟีเจอร์อะไรเพื่อให้มีเสน่ห์ที่ทำให้ R เป็นภาษาของสถิติอย่างแท้จริง? อะไรคือข้อดีและข้อเสียของการเรียนรู้ Julia ในการทำงานหนักเชิงคำนวณเทียบกับการเรียนรู้ภาษาระดับต่ำเช่น C / ++?

3
แผ่นโกงของ Lmer
มีจำนวนมากของการสนทนาที่เกิดขึ้นบนเวทีนี้เกี่ยวกับวิธีการที่เหมาะสมในการระบุรูปแบบลำดับชั้นต่าง ๆ lmerโดยใช้เป็น ฉันคิดว่ามันจะเป็นการดีหากมีข้อมูลทั้งหมดในที่เดียว คำถามสองสามข้อที่จะเริ่ม: วิธีการระบุหลายระดับที่กลุ่มหนึ่งซ้อนอยู่ในอื่น ๆ : มันเป็น(1|group1:group2)หรือ(1+group1|group2)? ความแตกต่างระหว่าง(~1 + ....)และ(1 | ...)และ(0 | ...)อื่น ๆ คืออะไร? จะระบุการโต้ตอบระดับกลุ่มได้อย่างไร

3
ROC กับเส้นโค้งความแม่นยำและความทรงจำ
ฉันเข้าใจความแตกต่างอย่างเป็นทางการระหว่างพวกเขาสิ่งที่ฉันอยากรู้ก็คือเมื่อมันเกี่ยวข้องกับการใช้อย่างใดอย่างหนึ่งกับอีก พวกเขาให้ข้อมูลเชิงลึกที่สมบูรณ์เกี่ยวกับประสิทธิภาพของระบบการจำแนกประเภท / การตรวจจับที่ให้มาหรือไม่? เมื่อใดที่มีเหตุผลที่จะให้พวกเขาทั้งสองพูดในกระดาษ? แทนที่จะเป็นเพียงหนึ่ง? มีคำอธิบายอื่น ๆ (อาจทันสมัยกว่า) ที่จับประเด็นที่เกี่ยวข้องของทั้ง ROC และการเรียกคืนที่แม่นยำสำหรับระบบการจำแนกประเภทหรือไม่? ฉันสนใจในการโต้แย้งสำหรับทั้งสองกรณีและไบนารี (เช่นเดียวกับทุกกรณี)

2
ฉันจะรับจำนวนแถวของ data.frame ใน R ได้อย่างไร [ปิด]
หลังจากอ่านชุดข้อมูลแล้ว: dataset <- read.csv("forR.csv") ฉันจะได้รับ R เพื่อให้จำนวนกรณีมันมี? นอกจากนี้ค่าที่ส่งคืนจะรวมถึงกรณียกเว้นที่ไม่รวมด้วยna.omit(dataset)หรือไม่
157 r 

2
กำเนิดกับการเลือกปฏิบัติ
ฉันรู้ว่ากำเนิดหมายถึง "ตามP(x,y)P(x,y)P(x,y) " และหมายถึงการเลือกปฏิบัติ "ตามP(y|x)P(y|x)P(y|x) ," แต่ฉันสับสนในหลายจุด: Wikipedia (+ เพลงฮิตอื่น ๆ อีกมากมายบนเว็บ) จัดประเภทสิ่งต่าง ๆ เช่น SVMs และแผนผังการตัดสินใจว่าเป็นการเลือกปฏิบัติ แต่สิ่งเหล่านี้ไม่มีการตีความความน่าจะเป็น การเลือกปฏิบัติหมายความว่าอะไรที่นี่ การเลือกปฏิบัติเพียงมาหมายถึงสิ่งที่ไม่ได้กำเนิด? Naive Bayes (NB) มีกำเนิดเนื่องจากจับP(x|y)P(x|y)P(x|y)และP(y)P(y)P(y)และทำให้คุณมีP(x,y)P(x,y)P(x,y) (เช่นเดียวกับP(y|x)P(y|x)P(y|x) ) มันไม่สำคัญที่จะพูดพูดว่าการถดถอยโลจิสติก (เด็กโปสเตอร์ของแบบจำลองการเลือกปฏิบัติ) "กำเนิด" โดยการคำนวณP(x)P(x)P(x)ในรูปแบบที่คล้ายกัน (สมมติฐานความเป็นอิสระเดียวกันกับ NB เช่นP(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)ที่ไหน MLE สำหรับP(xi)P(xi)P(x_i)เป็นเพียงความถี่)? ฉันรู้ว่าแบบจำลองที่มีการเลือกปฏิบัตินั้นมีแนวโน้มที่จะดีกว่าตัวแบบกำเนิด การใช้ประโยชน์จากการทำงานกับแบบจำลองทั่วไปได้อย่างไร ความสามารถในการสร้าง / จำลองข้อมูลได้ถูกอ้างถึง แต่เมื่อไหร่จะเกิดขึ้น? โดยส่วนตัวแล้วฉันมีประสบการณ์เกี่ยวกับการถดถอยการจัดประเภทความร่วมมือ การกรองข้อมูลที่มีโครงสร้างดังนั้นการใช้งานที่ไม่เกี่ยวข้องกับฉันที่นี่จะเป็นอย่างไร "การข้อมูลที่หายไป" อาร์กิวเมนต์ …

7
PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม?
อะไรคือความแตกต่างที่สำคัญระหว่างการวิเคราะห์องค์ประกอบหลัก (PCA) ในเมทริกซ์สหสัมพันธ์และเมทริกซ์ความแปรปรวนร่วม? พวกเขาให้ผลลัพธ์เดียวกันหรือไม่

6
มูลค่าการแจกแจงความน่าจะเป็นที่เกิน 1 สามารถเป็นได้หรือไม่?
ในหน้า Wikipedia เกี่ยวกับตัวแยกประเภทซื่อๆ Bayesมีบรรทัดนี้: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (การกระจายความน่าจะเป็นที่มากกว่า 1 คือ OK มันคือพื้นที่ใต้เส้นโค้งระฆังที่เท่ากับ 1) ค่าจะตกลงได้อย่างไร? ผมคิดว่าน่าจะเป็นค่าทั้งหมดถูกแสดงในช่วง1 นอกจากนี้หากเป็นไปได้ที่จะมีค่าเช่นนั้นค่าที่ได้จากตัวอย่างที่แสดงในหน้าเป็นอย่างไร>1>1>10≤p≤10≤p≤10 \leq p \leq 1

6
วิธีการเลือกแบบจำลองการทำนายหลังจากการตรวจสอบความถูกต้องข้ามของ k-fold?
ฉันสงสัยว่าจะเลือกแบบจำลองการทำนายได้อย่างไรหลังจากทำการตรวจสอบความถูกต้องข้ามแบบ K-fold นี่อาจเป็นประโยคที่เชื่องช้าดังนั้นให้ฉันอธิบายรายละเอียดเพิ่มเติม: เมื่อใดก็ตามที่ฉันรันการตรวจสอบความถูกต้องข้าม K-fold ฉันใช้ K ชุดย่อยของข้อมูลการฝึกอบรมและจบลงด้วย K โมเดลที่แตกต่างกัน ฉันอยากรู้วิธีเลือกหนึ่งในรุ่น K เพื่อที่ฉันจะได้นำเสนอให้ใครบางคนและพูดว่า "นี่เป็นรุ่นที่ดีที่สุดที่เราสามารถผลิตได้" ตกลงไหมที่จะเลือกรุ่นใดรุ่นหนึ่ง K? หรือมีแนวปฏิบัติที่ดีที่สุดบางประเภทที่เกี่ยวข้องเช่นการเลือกแบบจำลองที่ทำให้เกิดข้อผิดพลาดในการทดสอบค่ามัธยฐาน?

6
การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานของตัวแปรแบบต่อเนื่องและหมวดหมู่ได้หรือไม่?
ฉันมีชุดข้อมูลที่มีทั้งข้อมูลแบบต่อเนื่องและหมวดหมู่ ฉันกำลังวิเคราะห์โดยใช้ PCA และฉันสงสัยว่ามันดีที่จะรวมตัวแปรเด็ดขาดเป็นส่วนหนึ่งของการวิเคราะห์ ความเข้าใจของฉันคือ PCA สามารถใช้ได้กับตัวแปรต่อเนื่องเท่านั้น ถูกต้องไหม หากไม่สามารถใช้กับข้อมูลที่เป็นหมวดหมู่ได้มีทางเลือกอะไรบ้างในการวิเคราะห์?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.