สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
อัลกอริทึม MIC สำหรับตรวจจับความสัมพันธ์ที่ไม่ใช่เชิงเส้นสามารถอธิบายได้อย่างง่ายดายหรือไม่?
อีกไม่นานฉันอ่านบทความสองเรื่อง อย่างแรกคือเกี่ยวกับประวัติของสหสัมพันธ์และที่สองเกี่ยวกับวิธีการใหม่ที่เรียกว่า Maximal Information Coefficient (MIC) ฉันต้องการความช่วยเหลือของคุณเกี่ยวกับการทำความเข้าใจกับวิธี MIC เพื่อประเมินความสัมพันธ์แบบไม่เป็นเชิงเส้นระหว่างตัวแปร นอกจากนี้คำแนะนำสำหรับการใช้งานใน R สามารถพบได้บนเว็บไซต์ของผู้เขียน (ภายใต้ดาวน์โหลด ): ฉันหวังว่านี่จะเป็นแพลตฟอร์มที่ดีในการพูดคุยและเข้าใจวิธีการนี้ ความสนใจของฉันที่จะหารือเกี่ยวกับสัญชาตญาณเบื้องหลังวิธีนี้และสามารถขยายออกไปได้อย่างไรตามที่ผู้เขียนกล่าว " ... เราต้องการส่วนขยายของ MIC (X, Y) ถึง MIC (X, Y | Z) เราจะต้องการทราบว่าต้องใช้ข้อมูลจำนวนเท่าใดในการประมาณค่า MIC ที่มีเสถียรภาพและมีความอ่อนไหวต่อค่าผิดปกติอย่างไร - หรือความสัมพันธ์ที่สูงขึ้นมิติมันจะพลาดและอื่น ๆ MIC เป็นขั้นตอนที่ดีข้างหน้า แต่มีขั้นตอนอื่น ๆ อีกมากมายที่จะใช้.. "

3
เมื่อใดที่ควรใช้การถดถอยแบบหลายครั้งพร้อมการเข้ารหัสแบบดัมมี่กับ ANCOVA
เมื่อเร็ว ๆ นี้ฉันวิเคราะห์การทดสอบที่จัดการกับตัวแปรเด็ดขาด 2 อันและอีกหนึ่งตัวแปรต่อเนื่องโดยใช้ ANCOVA อย่างไรก็ตามผู้ตรวจทานแนะนำว่าการถดถอยหลายครั้งด้วยตัวแปรเด็ดขาดที่เข้ารหัสเป็นตัวแปรดัมมี่เป็นการทดสอบที่เหมาะสมกว่าสำหรับการทดสอบด้วยตัวแปรเด็ดขาดและต่อเนื่อง เมื่อใดจึงจะเหมาะสมที่จะใช้ ANCOVA กับการถดถอยหลายครั้งพร้อมตัวแปรจำลองและฉันควรพิจารณาปัจจัยใดบ้างในการเลือกระหว่างการทดสอบทั้งสอง ขอขอบคุณ.

2
สร้างแบบจำลองเชิงเส้นสำหรับอัตราส่วนเทียบกับอัตราร้อยละ?
สมมติว่าฉันต้องการสร้างแบบจำลองเพื่อทำนายอัตราส่วนหรือเปอร์เซ็นต์บางอย่าง ตัวอย่างเช่นสมมติว่าฉันต้องการทำนายจำนวนเด็กผู้ชายกับผู้หญิงที่จะเข้าร่วมปาร์ตี้และคุณสมบัติของบุคคลที่ฉันสามารถใช้ในโมเดลคือสิ่งต่าง ๆ เช่นจำนวนโฆษณาสำหรับงานปาร์ตี้ขนาดของสถานที่หรือไม่ จะเป็นแอลกอฮอล์ในงานปาร์ตี้ ฯลฯ (นี่เป็นเพียงตัวอย่างที่ทำขึ้นคุณสมบัติที่ไม่สำคัญจริงๆ) คำถามของฉันคืออะไรความแตกต่างระหว่างการทำนายอัตราส่วนกับเปอร์เซ็นต์และแบบจำลองของฉันจะเปลี่ยนไปตามที่ฉันเลือกได้อย่างไร ดีกว่าอีกไหม? ฟังก์ชั่นอื่น ๆ ดีกว่าฟังก์ชั่นใดฟังก์ชันหนึ่งหรือไม่? (ฉันไม่สนใจจริง ๆ เกี่ยวกับจำนวนอัตราส่วนเทียบกับอัตราร้อยละที่เฉพาะเจาะจงฉันแค่ต้องการที่จะระบุว่าฝ่ายใดมีแนวโน้มที่จะเป็น "ฝ่ายเด็กชาย" กับ "ฝ่ายสาว") ตัวอย่างเช่นฉัน ความคิด: ถ้าฉันต้องการทำนายเปอร์เซ็นต์ (พูด# boys / (# boys + # girls)แล้วเนื่องจากคุณสมบัติที่ขึ้นต่อกันของฉันมีขอบเขตระหว่าง 0 ถึง 1 ฉันอาจใช้บางอย่างเช่นการถดถอยโลจิสติกแทนการถดถอยเชิงเส้น หากฉันต้องการทำนายอัตราส่วน (พูด# boys / # girlsหรือ# boys / (1 + # girls)เพื่อหลีกเลี่ยงข้อผิดพลาดการหารด้วยศูนย์) คุณลักษณะที่ต้องพึ่งพาของฉันจะเป็นค่าบวกดังนั้นฉันจึงควรใช้การแปลง (log?) บางชนิดก่อนใช้การถดถอยเชิงเส้น (หรือโมเดลอื่น ๆ …

2
ลำดับของตัวแปรใน ANOVA นั้นสำคัญหรือไม่
ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าลำดับของตัวแปรที่ระบุในการวิเคราะห์ความแปรปรวนทำให้เกิดความแตกต่าง แต่ลำดับนั้นไม่สำคัญเมื่อทำการถดถอยเชิงเส้นหลายครั้ง? ดังนั้นสมมติว่าผลลัพธ์เช่นการสูญเสียเลือดที่วัดได้ yและตัวแปรเด็ดขาดสองอย่าง วิธี adenoidectomy a , bวิธีการผ่าตัด โมเดลy~a+bแตกต่างจากโมเดลy~b+a(หรือดังนั้นการนำไปใช้ของฉันใน R ดูเหมือนจะบ่งบอก) ฉันถูกต้องหรือไม่ที่จะเข้าใจว่าคำนี้คือ ANOVA เป็นรูปแบบลำดับขั้นเนื่องจากมันเป็นคุณลักษณะแรกที่มีความแปรปรวนมากที่สุดเท่าที่จะเป็นไปได้สำหรับปัจจัยแรกก่อนที่จะลองคำนวณความแปรปรวนที่เหลือกับปัจจัยที่สอง ในตัวอย่างข้างต้นลำดับชั้นทำให้รู้สึกเพราะฉันมักจะทำ adenoidectomy ก่อนที่จะทำต่อมทอนซิล แต่สิ่งที่จะเกิดขึ้นหากมีสองตัวแปรที่ไม่มีคำสั่งโดยธรรมชาติ?


1
ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมส่วนประกอบหลักคืออะไร?
ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS): องค์ประกอบหลักคืออะไร? ทำไมถึงใช้ พวกเขาคำนวณอย่างไร สามารถทำการศึกษาความสัมพันธ์ทั่วทั้งจีโนมโดยไม่ต้องใช้ PCA ได้หรือไม่?
20 pca  genetics  gwas 

4
การวิเคราะห์การอยู่รอด: เวลาต่อเนื่องเทียบกับไม่ต่อเนื่อง
ฉันสับสนเกี่ยวกับวิธีการตัดสินใจว่าจะรักษาเวลาอย่างต่อเนื่องหรือไม่ต่อเนื่องในการวิเคราะห์การอยู่รอด โดยเฉพาะฉันต้องการใช้การวิเคราะห์การอยู่รอดเพื่อระบุตัวแปรระดับเด็กและครัวเรือนที่มีความคลาดเคลื่อนมากที่สุดในผลกระทบต่อการอยู่รอดของเด็กผู้ชายกับเด็กผู้หญิง (อายุไม่เกิน 5 ปี) ฉันมีชุดข้อมูลของอายุเด็ก (เป็นเดือน) พร้อมตัวบ่งชี้ว่าเด็กยังมีชีวิตอยู่อายุที่ตาย (เป็นเดือน) และตัวแปรระดับเด็กและครัวเรือนอื่น ๆ เนื่องจากเวลาถูกบันทึกไว้ในเดือนและเด็กทุกคนอายุต่ำกว่า 5 ปีจึงมีเวลาอยู่รอดหลายครั้ง (มักจะอยู่ในช่วงครึ่งปี: 0mos, 6mos, 12mos ฯลฯ ) จากสิ่งที่ฉันได้อ่านเกี่ยวกับการวิเคราะห์การอยู่รอดการมีเวลารอดหลายครั้งทำให้ฉันคิดว่าฉันควรจะรักษาเวลาโดยไม่ต่อเนื่อง อย่างไรก็ตามฉันได้อ่านการศึกษาอื่น ๆ หลายครั้งที่มีเวลาอยู่รอดเช่นบุคคลปี (และแน่นอนว่ามีเวลารอดชีวิตผูก) และวิธีการต่อเนื่องเช่น Cox สัดส่วนอันตรายที่ใช้ ฉันควรใช้เกณฑ์อะไรในการตัดสินใจว่าจะรักษาเวลาเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง สำหรับข้อมูลและคำถามของฉันการใช้แบบจำลองเวลาต่อเนื่อง (Cox, Weibull และอื่น ๆ ) ทำให้เข้าใจได้ง่ายสำหรับฉัน แต่ลักษณะที่ไม่ต่อเนื่องของข้อมูลของฉัน
20 survival  ties 

3
ช่วงเวลาของการกระจาย - การใช้งานสำหรับช่วงเวลาบางส่วนหรือสูงกว่า?
เป็นเรื่องปกติที่จะใช้ช่วงเวลาที่สองสามและสี่ของการแจกแจงเพื่ออธิบายคุณสมบัติบางอย่าง ช่วงเวลาหรือช่วงเวลาบางช่วงที่สูงกว่าช่วงที่สี่อธิบายคุณสมบัติที่มีประโยชน์ของการแจกแจงหรือไม่?

7
สิ่งที่เป็นทางเลือกให้กับ boxplot
ฉันกำลังสร้างเว็บไซต์ซึ่งแสดงข้อมูลการสำรวจสำมะโนประชากรสำหรับรูปหลายเหลี่ยมที่ผู้ใช้เลือก & ต้องการแสดงการกระจายตัวของพารามิเตอร์ต่างๆแบบกราฟิก (กราฟหนึ่งต่อพารามิเตอร์) ข้อมูลมักจะมีคุณสมบัติดังต่อไปนี้: ขนาดตัวอย่างมีแนวโน้มที่จะใหญ่ (พูดประมาณ 10,000 จุดข้อมูล) ช่วงของค่ามักจะมีขนาดใหญ่ (ตัวอย่างเช่นจำนวนประชากรขั้นต่ำอาจน้อยกว่า 100 และสูงสุดอาจเท่ากับ 500,000) q1 มักจะใกล้เคียงกับค่าต่ำสุด (พูด 200) ในขณะที่ q2 & q3 จะอยู่ภายใน 10,000 มันดูไม่เหมือนการแจกแจงแบบปกติ ฉันไม่ใช่นักสถิติดังนั้นคำอธิบายของฉันอาจไม่ชัดเจน ฉันต้องการแสดงการกระจายตัวนี้บนกราฟซึ่งพลเมืองจะมองเห็นได้ (คนธรรมดาถ้าคุณต้องการ) ฉันชอบที่จะใช้ฮิสโตแกรมที่ดีที่สุด แต่มันเป็นไปไม่ได้เนื่องจากค่าที่หลากหลายเนื่องจากการทำถังขยะไม่ใช่เรื่องง่าย & ส่งตรงไปข้างหน้า จากสิ่งที่ฉันรู้เกี่ยวกับสถิติพล็อตกล่องเป็นสิ่งที่มักใช้ในการแสดงข้อมูลประเภทนี้ แต่ฉันรู้สึกว่าสำหรับคนธรรมดาการถอดรหัสพล็อตบ็อกซ์นั้นไม่ใช่เรื่องง่าย ตัวเลือกของฉันคืออะไรเพื่อแสดงข้อมูลนี้ในลักษณะที่เข้าใจง่าย

9
จำนวน lags ที่ต้องใช้ในการทดสอบ Ljung-Box ของอนุกรมเวลา
หลังจากแบบจำลอง ARMA เหมาะสมกับอนุกรมเวลาเป็นเรื่องปกติที่จะตรวจสอบสิ่งตกค้างผ่านการทดสอบกระเป๋าหิอง - กล่อง (รวมถึงการทดสอบอื่น ๆ ) การทดสอบ Ljung-Box ส่งคืนค่า ap มันมีพารามิเตอร์, h , ซึ่งเป็นจำนวนของความล่าช้าที่จะทดสอบ บางตำราแนะนำให้ใช้h = 20; คนอื่น ๆ แนะนำให้ใช้h = ln (n); ส่วนใหญ่ไม่ได้พูดในสิ่งที่เอชกับการใช้งาน แทนที่จะใช้ค่าเดียวสำหรับhสมมติว่าฉันทำการทดสอบ Ljung-Box สำหรับh <50 ทั้งหมดแล้วเลือกhซึ่งให้ค่า p ต่ำสุด วิธีการนี้เหมาะสมหรือไม่ ข้อดีและข้อเสียคืออะไร? (ข้อเสียอย่างหนึ่งที่เห็นได้ชัดคือเวลาในการคำนวณเพิ่มขึ้น แต่นั่นไม่ใช่ปัญหาที่นี่) มีวรรณกรรมเกี่ยวกับเรื่องนี้หรือไม่? อธิบายอย่างละเอียดเล็กน้อย .... ถ้าการทดสอบให้ p> 0.05 สำหรับทุกชั่วโมงชัดว่าอนุกรมเวลา (ส่วนที่เหลือ) ผ่านการทดสอบ คำถามของฉันเกี่ยวกับวิธีตีความการทดสอบถ้า p <0.05 สำหรับบางค่าของhและไม่ใช่สำหรับค่าอื่น …

6
รายงานข้อผิดพลาดมาตรฐานที่แข็งแกร่ง (ขาว) เสมอหรือไม่
ได้รับการแนะนำโดย Angrist และ Pischke ว่า Robust (เช่นมีความทนทานต่อ heteroskedasticity หรือความแปรปรวนไม่เท่ากัน) มีการรายงานข้อผิดพลาดมาตรฐานเป็นเรื่องของหลักสูตรมากกว่าการทดสอบ สองคำถาม: อะไรคือผลกระทบต่อข้อผิดพลาดมาตรฐานของการทำเช่นนั้นเมื่อมีความเป็นรักร่วมเพศ มีใครทำสิ่งนี้ในงานของพวกเขาบ้างไหม?

2
เครื่องมือประมาณค่าความน่าจะเป็นสูงสุด - แบบเกาส์หลายตัวแปร
บริบท Multivariate Gaussian ปรากฏขึ้นบ่อยครั้งในการเรียนรู้ของเครื่องและผลลัพธ์ต่อไปนี้จะใช้ในหนังสือและหลักสูตร ML หลายหลักสูตรโดยไม่มีการสืบทอด ข้อมูลที่ได้รับในรูปของเมทริกซ์ของมิติ ถ้าเราคิดว่าข้อมูลตามตัวแปรแบบเกาส์ กระจายด้วยพารามิเตอร์หมายถึง ( ) และความแปรปรวนร่วมเมทริกซ์ ( ) เครื่องมือประมาณการความน่าจะเป็นสูงสุดจะได้รับจาก:XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times 1 ΣΣ\Sigmap×pp×pp \times p μ^=1m∑mi=1x(i)=x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^=1m∑mi=1(x(i)−μ^)(x(i)−μ^)TΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T ฉันเข้าใจว่าความรู้ของหลายตัวแปรเกาส์เซียนนั้นเป็นสิ่งที่จำเป็นสำหรับหลักสูตร ML หลาย ๆ …

3
XGBoost vs Python Sklearn ทำให้ต้นไม้ดีขึ้น
ฉันพยายามเข้าใจว่า XGBoost ทำงานอย่างไร ฉันเข้าใจอยู่แล้วว่าต้นไม้ที่ถูกไล่ระดับสีนั้นทำงานบน Python sklearn ได้อย่างไร สิ่งที่ไม่ชัดเจนสำหรับฉันคือถ้า XGBoost ทำงานในลักษณะเดียวกัน แต่เร็วกว่าหรือหากมีความแตกต่างพื้นฐานระหว่างมันกับการใช้งานของหลาม เมื่อฉันอ่านเอกสารนี้ http://learningsys.org/papers/LearningSys_2015_paper_32.pdf ฉันดูเหมือนว่าผลลัพธ์สุดท้ายที่ออกมาจาก XGboost จะเหมือนกับในการใช้งาน Python แต่ความแตกต่างที่สำคัญคือวิธีที่ XGboost พบว่าการแยกที่ดีที่สุดที่จะทำในต้นไม้การถดถอยแต่ละต้น โดยพื้นฐานแล้ว XGBoost ให้ผลลัพธ์เหมือนกัน แต่เร็วกว่า ถูกต้องหรือมีอย่างอื่นที่ฉันหายไปหรือไม่

5
การเรียนรู้อย่างลึกซึ้ง: ฉันจะรู้ได้อย่างไรว่าตัวแปรใดมีความสำคัญ
ในแง่ของศัพท์แสงเครือข่ายประสาท (y = Weight * x + bias) ฉันจะรู้ได้อย่างไรว่าตัวแปรใดสำคัญกว่าตัวอื่น? ฉันมีเครือข่ายนิวรัลที่มี 10 อินพุต, 1 เลเยอร์ที่ซ่อนอยู่กับ 20 โหนดและ 1 เลเยอร์เอาท์พุทซึ่งมี 1 โหนด ฉันไม่แน่ใจว่าจะรู้ได้อย่างไรว่าตัวแปรอินพุตใดบ้างที่มีอิทธิพลมากกว่าตัวแปรอื่น ๆ สิ่งที่ฉันคิดคือถ้าอินพุตมีความสำคัญก็จะมีการเชื่อมต่อกับชั้นแรกที่มีน้ำหนักสูง แต่น้ำหนักอาจจะเป็นบวกหรือลบ ดังนั้นสิ่งที่ฉันอาจทำคือใช้ค่าสัมบูรณ์ของน้ำหนักของอินพุทและรวมเข้าด้วยกัน ปัจจัยการผลิตที่สำคัญกว่าจะมีจำนวนเงินที่สูงขึ้น ตัวอย่างเช่นถ้าความยาวของผมเป็นหนึ่งในอินพุตดังนั้นมันควรมีการเชื่อมต่อ 1 จุดกับแต่ละโหนดในเลเยอร์ถัดไปดังนั้นการเชื่อมต่อ 20 ครั้ง (ดังนั้นจึงมีน้ำหนัก 20) ฉันสามารถนำค่าสัมบูรณ์ของน้ำหนักแต่ละอย่างมารวมเข้าด้วยกันได้หรือไม่?

3
อัลกอริทึมพันธุกรรมเป็นตัวเลือกที่ดีสำหรับการเพิ่มประสิทธิภาพเมื่อใด
อัลกอริทึมทางพันธุกรรมเป็นรูปแบบหนึ่งของวิธีการเพิ่มประสิทธิภาพ บ่อยครั้งที่การไล่ระดับสีแบบสุ่มและอนุพันธ์เป็นทางเลือกที่ดีที่สุดสำหรับการปรับฟังก์ชั่นให้ดีที่สุด แต่บางครั้งก็ยังใช้อัลกอริทึมทางพันธุกรรม ตัวอย่างเช่นเสาอากาศของยานอวกาศ ST5 ของนาซาสร้างขึ้นด้วยอัลกอริธึมทางพันธุกรรม: เมื่อใดที่การเพิ่มประสิทธิภาพทางพันธุกรรมเป็นทางเลือกที่ดีกว่าวิธีการไล่ระดับสีแบบลาดชันทั่วไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.