สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ทำไมดิริเคิลถึงกระจายก่อนหน้านี้สำหรับการกระจายแบบหลายส่วน
ในอัลกอริทึมแบบจำลองหัวข้อ LDA ฉันเห็นสมมติฐานนี้ แต่ฉันไม่รู้ว่าทำไมจึงเลือกการกระจาย Dirichlet ฉันไม่รู้ว่าเราสามารถใช้การกระจายแบบเครื่องแบบผ่าน Multinomial เป็นคู่ได้หรือไม่?

3
หลักฐานการทดลองที่สนับสนุนการสร้างภาพข้อมูลสไตล์ Tufte?
ถาม: มีหลักฐานการทดลองที่สนับสนุนการสร้างภาพข้อมูลแบบ Tufte แบบมินิมัลลิสต์และพูดข้อมูลบนการสร้างภาพข้อมูลแบบแผนภูมิที่ไม่ได้รับการพูดNigel Holmesหรือไม่? ฉันถามวิธีเพิ่มแผนภูมิขยะลงในแปลง R ที่นี่และเจ้าหน้าที่ตอบโต้ก็ส่งเสียงจำนวนมากกลับมาที่ฉัน ดังนั้นแน่นอนต้องมีหลักฐานการทดลองบางอย่างที่ฉันไม่ได้เป็นส่วนตัวสนับสนุนตำแหน่งขยะแผนภูมิต่อต้านของพวกเขา --- หลักฐานมากกว่าเพียงแค่ "Tufte กล่าวเช่นนั้น" ขวา? หากมีหลักฐานดังกล่าวมันจะขัดแย้งกับการวิจัยทางจิตวิทยามากมายที่เรามีเกี่ยวกับมนุษย์การระลึกถึงความทรงจำและการระบุรูปแบบ ดังนั้นฉันจะตื่นเต้นที่จะอ่านเกี่ยวกับเรื่องนี้อย่างแน่นอน เกร็ดเล็ก ๆ น้อย ๆ : ที่ประชุมผมถามเอ็ดเวิร์ด Tufte วิธีการที่เขานับถือการค้นพบหลักฐานการทดลองที่ภาพเคลื่อนไหวขยะและวิดีโอปรับปรุงมนุษย์การทำความเข้าใจและการเรียกคืนหน่วยความจำ [ดูงานวิจัยที่อ้างถึงในกฎสมอง] คำตอบของเขา: "อย่าเชื่อพวกเขา" มากสำหรับวิธีการทางวิทยาศาสตร์! ป.ล. แน่นอนฉันต้องการคนที่นี่เล็กน้อย ฉันเป็นเจ้าของหนังสือทั้งหมดของ Tufte และคิดว่างานของเขานั้นยอดเยี่ยมมาก ฉันแค่คิดว่าผู้สนับสนุนของเขามีข้อโต้แย้งบางอย่างของเขา หมายเหตุ: นี่เป็นคำถามที่ฉันถามใน StackOverflowอีกครั้ง ผู้ดำเนินรายการปิดเพราะไม่ได้เป็นโปรแกรมเฉพาะ CrossValidated อาจเป็นบ้านที่ดีกว่า อัปเดต: มีลิงก์ที่มีประโยชน์บางส่วนในส่วนความเห็นของโพสต์คำถามเดิมของฉัน --- คือไปยังงานของ Chambers, Cleveland และกลุ่มดาต้าที่ Stanford UPDATE: คำถามนี้เกี่ยวกับหัวข้อที่คล้ายกัน

4
วิธีตัวอย่างจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวนที่ทราบโดยใช้ภาษาโปรแกรมทั่วไป
ฉันไม่เคยเรียนวิชาสถิติมาก่อนดังนั้นฉันหวังว่าฉันจะถามถูกที่แล้ว สมมติว่าฉันมีเพียงสองอธิบายข้อมูลการกระจายปกติ: ค่าเฉลี่ยและความแปรปรวน 2 ฉันต้องการใช้คอมพิวเตอร์เพื่อสุ่มตัวอย่างจากการแจกแจงนี้ซึ่งฉันเคารพสถิติทั้งสองนี้σ 2μμ\muσ2σ2\sigma^2 เห็นได้ชัดว่าฉันสามารถจัดการค่าเฉลี่ยด้วยการทำ normalizing ประมาณ 0: เพียงเพิ่มให้กับแต่ละตัวอย่างก่อนส่งออกตัวอย่าง แต่ผมไม่เห็นว่าโปรแกรมสร้างตัวอย่างที่จะเคารพ 2σ 2μμ\muσ2σ2\sigma^2 โปรแกรมของฉันจะเป็นภาษาโปรแกรมทั่วไป ฉันไม่สามารถเข้าถึงแพ็คเกจสถิติใด ๆ ได้

5
การแจกแจงความน่าจะเป็นสำหรับความน่าจะเป็นที่ต่างกัน
ถ้าฉันต้องการได้ความน่าจะเป็น 9 ครั้งในการทดลอง 16 ครั้งต่อการทดลองแต่ละครั้งมีความน่าจะเป็น 0.6 ฉันสามารถใช้การแจกแจงทวินาม ฉันจะใช้อะไรได้ถ้าการทดลอง 16 ครั้งแต่ละครั้งมีความน่าจะเป็นที่แตกต่างกัน

4
ตัวแปรเครื่องมือคืออะไร?
ตัวแปรเครื่องมือกำลังกลายเป็นเรื่องธรรมดามากขึ้นในเศรษฐศาสตร์ประยุกต์และสถิติ สำหรับผู้เริ่มต้นเราสามารถมีคำตอบที่ไม่ใช่ด้านเทคนิคสำหรับคำถามต่อไปนี้: ตัวแปรเครื่องมือคืออะไร? เมื่อไหร่ที่จะต้องการใช้ตัวแปรเครื่องมือ? เราจะค้นหาหรือเลือกตัวแปรเครื่องมือได้อย่างไร

6
วิธีการจับคู่กึ่งเวกเตอร์ของสตริง (ใน R) อย่างไร
ฉันไม่แน่ใจว่าควรจะเรียกศัพท์นี้ได้อย่างไรดังนั้นโปรดแก้ไขให้ถูกต้องหากคุณรู้จักคำศัพท์ที่ดีขึ้น ฉันมีสองรายการ หนึ่งใน 55 รายการ (เช่น: เวกเตอร์ของสตริง) อีก 92 รายการชื่อจะคล้ายกัน แต่ไม่เหมือนกัน ฉันต้องการที่จะหาสิ่งที่ดีที่สุดสำหรับผู้สมัครsใน 92 รายการกับรายการใน 55 รายการ (จากนั้นผมก็จะผ่านมันไปและเลือกที่เหมาะสมถูกต้อง) จะทำอย่างไร? ความคิดเห็นที่ฉันมีต่อ: ดูรายการที่ตรงกันทั้งหมด (ใช้รายการที่ตรงกันหรือไม่) ลองใช้เมทริกซ์ระยะทางระหว่างสตริงเวกเตอร์ แต่ฉันไม่แน่ใจว่าจะกำหนดได้ดีที่สุดอย่างไร (จำนวนตัวอักษรเหมือนกันลำดับของสตริงล่ะ) ดังนั้นแพคเกจ / ฟังก์ชั่น / สาขาการวิจัยที่เกี่ยวข้องกับงานดังกล่าวและอย่างไร Update: นี่คือตัวอย่างของเวคเตอร์ที่ฉันต้องการจับคู่ vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", …
36 r  text-mining 


5
ฟังก์ชั่นค่าใช้จ่ายของโครงข่ายประสาทเทียมนั้นไม่นูนหรือไม่?
ฟังก์ชั่นค่าใช้จ่ายของเครือข่ายประสาทเป็นและมันจะอ้างว่าเป็นที่ไม่นูน ฉันไม่เข้าใจว่าทำไมมันถึงเป็นเช่นนั้นเพราะเมื่อฉันเห็นว่ามันค่อนข้างคล้ายกับฟังก์ชันต้นทุนของการถดถอยโลจิสติกใช่มั้ยJ(W,b)J(W,b)J(W,b) ถ้ามันไม่ใช่แบบนูนดังนั้นอนุพันธ์อันดับสองใช่ไหม?∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0 UPDATE ขอบคุณคำตอบด้านล่างรวมถึงความคิดเห็นของ @ gung ฉันได้รับประเด็นของคุณหากไม่มีเลเยอร์ที่ซ่อนอยู่เลยมันก็นูนเหมือนการถดถอยโลจิสติก แต่ถ้ามีเลเยอร์ที่ซ่อนอยู่โดยอนุญาตให้โหนดในเลเยอร์ที่ซ่อนอยู่รวมถึงตุ้มน้ำหนักในการเชื่อมต่อที่ตามมาเราอาจมีวิธีแก้ปัญหาหลายอย่างของน้ำหนักที่ทำให้สูญเสียเหมือนกัน ตอนนี้คำถามเพิ่มเติม 1) มีหลายท้องถิ่นน้อยและบางอันควรมีค่าเท่ากันเนื่องจากมันสอดคล้องกับบางโหนดและการเปลี่ยนลำดับน้ำหนักใช่ไหม? 2) ถ้าโหนดและตุ้มน้ำหนักไม่ได้ถูกดัดแปรเลยงั้นมันก็จะโค้งงั้นเหรอ? และ Minima จะเป็น Minima ทั่วโลก ถ้าเป็นเช่นนั้นคำตอบของ 1) คือ minima ท้องถิ่นทั้งหมดนั้นจะมีค่าเท่ากันถูกต้องหรือไม่

4
SVM จะ 'ค้นหา' พื้นที่ที่ไม่มีขีด จำกัด ได้อย่างไรซึ่งการแยกเชิงเส้นเป็นไปได้เสมอ?
สัญชาตญาณที่อยู่เบื้องหลังความจริงที่ว่า SVM พร้อมเคอร์เนล Gaussian มีพื้นที่มิติคุณลักษณะ dimensional nite คืออะไร?

5
เหตุใดปัญหาการถดถอยจึงเรียกว่าปัญหา“ การถดถอย”
ฉันแค่สงสัยว่าทำไมปัญหาการถดถอยจึงถูกเรียกว่า "ปัญหาการถดถอย" เรื่องราวเบื้องหลังชื่อคืออะไร? คำนิยามเดียวสำหรับการถดถอย: "กำเริบไปสู่สถานะที่ไม่สมบูรณ์หรือพัฒนาแล้ว"

1
อนุมานความแปรปรวนเมื่อเทียบกับ MCMC: เมื่อเลือกหนึ่งมากกว่าอื่น ๆ ?
ฉันคิดว่าฉันเข้าใจความคิดทั่วไปของทั้ง VI และ MCMC รวมถึงรสชาติที่หลากหลายของ MCMC เช่นการสุ่มตัวอย่างของกิ๊บส์, Metropolis Hastings เป็นต้นบทความนี้ให้การอธิบายที่ยอดเยี่ยมของทั้งสองวิธี ฉันมีคำถามต่อไปนี้: หากฉันต้องการทำการอนุมานแบบเบย์ทำไมฉันถึงเลือกวิธีหนึ่งเหนืออีกวิธีหนึ่ง ข้อดีและข้อเสียของแต่ละวิธีคืออะไร? ฉันเข้าใจว่านี่เป็นคำถามที่ค่อนข้างกว้าง แต่ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก

2
จะทำให้ข้อมูลเป็นมาตรฐานระหว่าง -1 ถึง 1 ได้อย่างไร
ฉันเคยเห็นสูตรการปรับสภาพ min-max แล้ว แต่นั่นทำให้ค่าปกติอยู่ระหว่าง 0 ถึง 1 ฉันจะทำให้ข้อมูลของฉันเป็นมาตรฐานระหว่าง -1 ถึง 1 ได้อย่างไร ฉันมีทั้งค่าลบและค่าบวกในเมทริกซ์ข้อมูลของฉัน

2
หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?
ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE" ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร) ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก

3
ลิเนียริตี้ของ PCA
PCA ถือเป็นกระบวนการเชิงเส้นอย่างไรก็ตาม: P C A (X) ≠ P C A ( X1) + P C A ( X2) + … + P C A ( Xn) ,PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), ที่ n นี้คือจะบอกว่า eigenvectors ที่ได้รับจากการฝึกอบรมใน PCAS ข้อมูลX ฉันไม่สรุปให้เท่ากับ eigenvectors ที่ได้จาก PCA ในผลรวมของข้อมูลการฝึกอบรมXฉัน แต่ไม่ใช่นิยามของฟังก์ชันเชิงเส้นfที่:X= X1+ X2+ … + XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXผมXiX_iXผมXiX_iฉff ฉ( x + y) …
35 pca  linear 

3
วิธีการเลือกวิธีการจัดกลุ่ม? วิธีการตรวจสอบวิธีการแก้ปัญหาของคลัสเตอร์ (เพื่อรับประกันทางเลือกวิธีการ)?
หนึ่งในปัญหาที่ใหญ่ที่สุดที่มีการวิเคราะห์กลุ่มคือเราอาจต้องได้ข้อสรุปที่แตกต่างกันเมื่อใช้วิธีการจัดกลุ่มที่แตกต่างกัน (รวมถึงวิธีการเชื่อมโยงที่แตกต่างกันในการจัดกลุ่มแบบลำดับชั้น) ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ - คุณจะเลือกวิธีการอย่างไรและอย่างไร บางคนอาจพูดว่า "วิธีที่ดีที่สุดในการทำคลัสเตอร์คือให้คำตอบที่ถูกต้อง"; แต่ฉันอาจถามเพื่อตอบสนองว่าการวิเคราะห์กลุ่มควรเป็นเทคนิคที่ไม่ได้รับการสำรอง - ดังนั้นฉันจะรู้ได้อย่างไรว่าวิธีการหรือการเชื่อมโยงใดเป็นคำตอบที่ถูกต้อง? โดยทั่วไป: การจัดกลุ่มเพียงอย่างเดียวแข็งแกร่งเพียงพอที่จะพึ่งพาหรือไม่ หรือเราต้องการวิธีที่สองและรับผลการแบ่งปันเพื่อเป็นไปตามทั้งสองอย่าง? คำถามของฉันไม่เพียงเกี่ยวกับวิธีที่เป็นไปได้ในการตรวจสอบ / ประเมินประสิทธิภาพการจัดกลุ่ม แต่ยังมีความกว้างกว่า - เราเลือก / ชอบวิธีการจัดกลุ่ม / อัลกอริทึมมากกว่าวิธีอื่น นอกจากนี้ยังมีคำเตือนทั่วไปที่เราควรพิจารณาเมื่อเราเลือกวิธีการจัดกลุ่มข้อมูลของเราหรือไม่ ฉันรู้ว่ามันเป็นคำถามทั่วไปและยากที่จะตอบ ฉันแค่อยากจะรู้ว่าถ้าคุณมีความคิดเห็นหรือคำแนะนำใด ๆ หรือข้อเสนอแนะสำหรับฉันที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.