สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ฉันกำลังสร้างอคติโดยใช้เมล็ดสุ่มแบบเดียวกันซ้ำแล้วซ้ำอีกหรือไม่?
ในงานวิเคราะห์เกือบทั้งหมดที่ฉันเคยทำฉันใช้: set.seed(42) มันเป็นการแสดงความเคารพคู่มือโบกรถของกาแล็กซี่ แต่ฉันสงสัยว่าถ้าฉันสร้างอคติโดยใช้เมล็ดพันธุ์เดียวกันซ้ำแล้วซ้ำอีก

3
อะไรคือความแตกต่างระหว่างการกระจายการทำนายหลังและการสะท้อนกลับ?
ฉันเข้าใจว่า Posterior คืออะไร แต่ฉันไม่แน่ใจว่าอันหลังหมายถึงอะไร 2 แตกต่างกันอย่างไร เควินเมอร์ฟี่ย์ P ระบุไว้ในตำราเรียนของเขา: การเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น , นั่นคือ "รัฐความเชื่อภายใน" นั่นหมายความว่าอย่างไร ฉันอยู่ภายใต้การแสดงผลที่ว่าก่อนหน้านี้แสดงถึงความเชื่อหรืออคติภายในของคุณฉันจะไปไหน

7
วิธีการทางสถิติเพื่อพล็อตข้อมูลได้อย่างมีประสิทธิภาพมากขึ้นเมื่อมีจุดหลายล้านจุด?
ฉันพบว่า R อาจใช้เวลานานในการสร้างแปลงเมื่อมีคะแนนนับล้าน - ไม่น่าแปลกใจเนื่องจากมีการลงจุดเป็นรายบุคคล นอกจากนี้แปลงดังกล่าวมักจะรกเกินไปและแน่นเกินไปที่จะเป็นประโยชน์ หลายจุดซ้อนทับกันและก่อตัวเป็นมวลดำและใช้เวลามากมายในการพล็อตจุดให้มากขึ้น มีทางเลือกทางสถิติใด ๆ ในการแทนข้อมูลขนาดใหญ่ใน scatterplot มาตรฐานหรือไม่? ฉันได้พิจารณาโครงเรื่องความหนาแน่นแล้ว แต่มีทางเลือกอื่นอะไรอีกบ้างnnn

3
ความน่าจะเป็นที่เกิดร่วมกันของ 2 เหตุการณ์อิสระไม่ควรเท่ากับศูนย์ใช่หรือไม่
หากความน่าจะเป็นร่วมคือการตัดกันของ 2 เหตุการณ์ดังนั้นความน่าจะเป็นร่วมที่เกิดขึ้นจาก 2 เหตุการณ์อิสระไม่ควรเป็นศูนย์เพราะมันไม่ได้ตัดกันเลยใช่ไหม ฉันสับสน

7
ในการวิเคราะห์การถดถอยทำไมเราจึงเรียกตัวแปรอิสระว่า "อิสระ"
ฉันหมายถึงตัวแปรบางตัวนั้นมีความสัมพันธ์กันอย่างมาก เรานิยามว่ามันเป็นตัวแปรอิสระอย่างไร / ทำไม / ในบริบทใด

3
ยูทิลิตี้ของคุณสมบัติวิศวกรรม: เหตุใดจึงสร้างคุณลักษณะใหม่ตามคุณลักษณะที่มีอยู่
ฉันมักจะเห็นผู้คนสร้างคุณลักษณะใหม่ขึ้นอยู่กับคุณสมบัติที่มีอยู่ในปัญหาการเรียนรู้ของเครื่อง ตัวอย่างเช่นที่นี่: https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/คนได้พิจารณาขนาดของครอบครัวเป็นคุณลักษณะใหม่ตาม ตามจำนวนพี่น้องพี่น้องสตรีและผู้ปกครองซึ่งเป็นคุณลักษณะที่มีอยู่แล้ว แต่ประเด็นนี้คืออะไร? ฉันไม่เข้าใจว่าทำไมการสร้างคุณลักษณะใหม่ที่สัมพันธ์กันมีประโยชน์ มันเป็นหน้าที่ของอัลกอริทึมที่จะทำด้วยตัวเองหรือไม่?

2
เครือข่ายประสาทของฉันเพิ่งเรียนรู้อะไร คุณลักษณะใดที่เกี่ยวกับและเพราะอะไร
ตาข่ายประสาทเรียนรู้คุณสมบัติของชุดข้อมูลเป็นวิธีการบรรลุเป้าหมายบางอย่าง เมื่อทำเสร็จแล้วเราอาจต้องการทราบว่าตาข่ายประสาทเรียนรู้อะไร ฟีเจอร์คืออะไรและทำไมมันถึงสนใจ ใครสามารถให้การอ้างอิงบางส่วนเกี่ยวกับร่างกายของงานที่เกี่ยวข้องกับปัญหานี้หรือไม่?

2
ใครที่ใช้ / ประดิษฐ์ค่า p เป็นอันดับแรก
ฉันพยายามเขียนบทความในบล็อกเกี่ยวกับค่า p และฉันคิดว่ามันน่าสนใจที่จะกลับไปที่จุดเริ่มต้นทั้งหมดซึ่งดูเหมือนจะเป็นกระดาษ 1900 ของ Pearson หากคุณคุ้นเคยกับกระดาษแผ่นนั้นคุณจะจำได้ว่าสิ่งนี้ครอบคลุมการทดสอบความเหมาะสม เพียร์สันค่อนข้างหลวมกับภาษาของเขาเมื่อมันมาถึงค่า p เขาใช้ "อัตราต่อรอง" ซ้ำ ๆ เมื่ออธิบายวิธีตีความค่า p ของเขา ตัวอย่างเช่นในหน้า 168 เมื่อพูดถึงผลลัพธ์ของการทอยลูกเต๋าซ้ำ 12 ลูกเต๋าเขากล่าวว่า " ... ซึ่งทำให้เราไปที่ P = .00000016 หรืออัตราต่อรองคือ 62,499 ต่อ 1 กับระบบการเบี่ยงเบนแบบสุ่ม การเลือกด้วยอัตราต่อรองดังกล่าวมันจะสมเหตุสมผลที่จะสรุปว่าลูกเต๋าแสดงอคติต่อคะแนนที่สูงขึ้น " ในบทความนี้เขาอ้างถึงงานก่อนหน้านี้รวมถึงหนังสือ 1891 บนสี่เหลี่ยมอย่างน้อยโดย Merriman แต่เพียร์สันจัดทำแคลคูลัสสำหรับ p-values ​​(ความดีของการทดสอบพอดี) เพียร์สันเป็นคนแรกที่คิดค่า p หรือไม่? เมื่อฉันค้นหาค่า p จะมีการพูดถึง Fisher และงานของเขาในทศวรรษ 1920 …

2
ช่วงความเชื่อมั่น 50% มีการประเมินอย่างมีประสิทธิภาพมากกว่าช่วงความเชื่อมั่น 95% หรือไม่
คำถามของฉันไหลออกมาจากความคิดเห็นนี้ในบล็อกโพสต์ของ Andrew Gelman ซึ่งเขาสนับสนุนให้ใช้ช่วงความเชื่อมั่น 50% แทนที่จะเป็นช่วงความมั่นใจ 95% แม้ว่าจะไม่ใช่ในกรณีที่พวกเขามีการประเมินที่แข็งแกร่งกว่า: ฉันชอบช่วงเวลา 50% ถึง 95% ด้วยเหตุผล 3 ประการ: ความมั่นคงในการคำนวณ การประเมินที่ใช้งานง่ายขึ้น (ช่วงเวลาครึ่งหนึ่ง 50% ควรมีค่าจริง) ความรู้สึกที่ว่าในการประยุกต์ใช้มันจะเป็นการดีที่สุดที่จะได้ความรู้สึกว่าพารามิเตอร์และค่าที่คาดการณ์นั้นจะอยู่ที่ใด ความคิดเห็นของผู้วิจารณ์ดูเหมือนว่าปัญหาของสมมติฐานที่สร้างช่วงความเชื่อมั่นจะมีผลกระทบมากกว่าถ้าเป็น 95% CI มากกว่าถ้าเป็น 50% CI อย่างไรก็ตามเขาไม่ได้อธิบายว่าทำไม [... ] เมื่อคุณเข้าสู่ช่วงเวลาที่กว้างขึ้นคุณจะไวต่อรายละเอียดหรือสมมติฐานของโมเดลของคุณมากขึ้น ตัวอย่างเช่นคุณจะไม่เชื่อว่าคุณได้ระบุช่วงเวลา 99.9995% อย่างถูกต้อง หรืออย่างน้อยนั่นคือสัญชาตญาณของฉัน ถ้ามันถูกต้องก็ให้เหตุผลว่า 50 เปอร์เซ็นต์ควรจะดีกว่าประมาณ 95% หรืออาจประมาณว่า "แข็งแกร่งขึ้น" เนื่องจากมีความไวต่อข้อสันนิษฐานเกี่ยวกับเสียงน้อยกว่า จริงหรือเปล่า? ทำไม / ทำไมไม่

6
เหตุใดค่าที่คาดหมายจึงตั้งชื่อเช่นนั้น
ฉันเข้าใจว่าเราได้ 3.5 เป็นค่าที่คาดไว้สำหรับการรีดแม่พิมพ์ 6 ด้านที่ยุติธรรม แต่โดยสัญชาตญาณฉันสามารถคาดหวังให้แต่ละหน้ามีโอกาสเท่ากันที่ 1/6 ดังนั้นค่าที่คาดหวังของการรีดตายไม่ควรเป็นหนึ่งในจำนวนระหว่าง 1-6 ด้วยความน่าจะเป็นที่เท่ากันหรือ กล่าวอีกนัยหนึ่งเมื่อถามคำถามว่าอะไรคือค่าคาดหวังของการขว้างปา 6-fair ที่ยุติธรรม? ใครควรตอบว่า 'โอ้มันอาจเป็นอะไรก็ได้ระหว่าง 1-6 โดยมีโอกาสเท่ากัน' แทนที่จะเป็น 3.5 ในสังหรณ์โลกแห่งความเป็นจริงมีใครสามารถอธิบายได้ว่าคุณค่าที่ฉันควรคาดหวังในการขว้างปา 3.5 นั้นมีค่าอย่างไร? อีกครั้งฉันไม่ต้องการสูตรหรือแหล่งที่มาสำหรับความคาดหวัง

4
ผลรวมของกระบวนการเสียงสีขาวสองกระบวนการจำเป็นต้องเป็นสัญญาณรบกวนสีขาวหรือไม่
ให้และเป็นกระบวนการประมวลเสียงสีขาว เราสามารถพูดได้หรือไม่ว่านั้นเป็นกระบวนการที่มีเสียงรบกวนสีขาว?b t c t = a t + b tatata_tbtbtb_tct=at+btct=at+bเสื้อc_t=a_t+b_t

13
สัญชาตญาณของสูตรความน่าจะเป็นแบบมีเงื่อนไขคืออะไร
สูตรสำหรับความน่าจะเป็นแบบมีเงื่อนไขของเกิดขึ้นเนื่องจากเกิดขึ้นคือ:AA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. ตำราเรียนของฉันอธิบายถึงสัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้ในแง่ของแผนภาพเวนน์ ระบุว่าได้เกิดขึ้นเพียงวิธีเดียวสำหรับที่จะเกิดขึ้นสำหรับเหตุการณ์ที่จะตกอยู่ในจุดตัดของและ{B}A A BBB\text{B}AA\text{A}AA\text{A}BB\text{B} ในกรณีนั้นความน่าจะเป็นของจะเท่ากับความน่าจะเป็นของทางแยกเนื่องจาก นั่นเป็นวิธีเดียวที่เหตุการณ์จะเกิดขึ้น? ฉันพลาดอะไรไป A BP(A|B)P(A|B)P\left(\text{A} \middle| \text{B}\right)AA\text{A}BB\text{B}

3
สาเหตุที่แท้จริงของปัญหาความไม่สมดุลของชนชั้นคืออะไร?
ฉันได้คิดมากเกี่ยวกับ "ปัญหาความไม่สมดุลในชั้นเรียน" ในการเรียนรู้ของเครื่องจักร / สถิติเมื่อเร็ว ๆ นี้และฉันรู้สึกลึกลงไปในความรู้สึกที่ฉันไม่เข้าใจว่าเกิดอะไรขึ้น ก่อนอื่นให้ฉันกำหนด (หรือพยายาม) กำหนดคำของฉัน: ปัญหาระดับความไม่สมดุลในเครื่อง / การเรียนรู้ทางสถิติคือการสังเกตว่าบางจำแนกไบนารี (*) ขั้นตอนวิธีการทำงานได้ไม่ดีเมื่อสัดส่วนของ 0 เรียน 1 ชั้นเรียนเป็นเบ้มาก ดังนั้นในข้างต้นตัวอย่างเช่นถ้ามีหนึ่งร้อย000ชั้นเรียนสำหรับทุกเดียว111ชั้นผมจะบอกว่าความไม่สมดุลของระดับคือ111ที่จะ100100100หรือ1%1%1\% % งบส่วนใหญ่ของปัญหาที่ฉันได้เห็นขาดสิ่งที่ฉันคิดว่าเป็นคุณสมบัติที่เพียงพอ (สิ่งที่รูปแบบการต่อสู้ปัญหาไม่สมดุลคือปัญหา) และนี่คือแหล่งที่มาของความสับสนของฉัน การสำรวจข้อความมาตรฐานในการเรียนรู้ของเครื่อง / สถิติกลับมีน้อย: องค์ประกอบของสถิติเอนและรู้เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติไม่ได้มี "ชั้นไม่สมดุล" ในดัชนี การเรียนรู้ของเครื่องสำหรับ Predictive Data Analyticsยังไม่มี "คลาสที่ไม่สมดุล" ในดัชนี เมอร์ฟี่เครื่องเรียนรู้: การน่าจะเป็นมุมมองที่ ไม่มี "ระดับความไม่สมดุล * ในดัชนีอ้างอิงไปยังส่วนบนของ SVM ที่ผมพบว่าความคิดเห็นยั่วเย้าดังต่อไปนี้. มันเป็นเรื่องที่ควรค่าแก่การจดจำว่าปัญหาทั้งหมดเหล่านี้และการวิเคราะห์พฤติกรรมที่ได้รับการเสนอเพื่อแก้ไขปัญหาเหล่านี้เกิดขึ้นโดยพื้นฐานเพราะ SVM ไม่ได้สร้างแบบจำลองความไม่แน่นอนในการใช้ความน่าจะเป็นดังนั้นคะแนนเอาท์พุท ความคิดเห็นนี้ไม่พูดที่หลอกลวงกับสัญชาตญาณและประสบการณ์ของฉัน: ที่งานก่อนหน้าของฉันเราเป็นประจำจะพอดีกับการถดถอยโลจิสติกและการไล่ระดับสีได้แรงหนุนรุ่นต้นไม้ (เพื่อลดทวินามบันทึก-โอกาส) …

1
การใช้การตรวจสอบข้ามอย่างไม่ถูกต้อง (ประสิทธิภาพการรายงานสำหรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุด)
เมื่อเร็ว ๆ นี้ฉันเจอกระดาษที่เสนอให้ใช้ตัวจําแนกk-NNบนชุดข้อมูลเฉพาะ ผู้เขียนใช้ตัวอย่างข้อมูลทั้งหมดที่มีเพื่อดำเนินการตรวจสอบความถูกต้องข้าม k-fold สำหรับค่าk ที่แตกต่างกันและรายงานผลการตรวจสอบความถูกต้องข้ามของการกำหนดค่าพารามิเตอร์พารามิเตอร์ที่ดีที่สุด สำหรับความรู้ของฉันผลลัพธ์นี้มีความลำเอียงและพวกเขาควรจะมีชุดการทดสอบแยกต่างหากเพื่อให้ได้การประเมินความถูกต้องของตัวอย่างที่ไม่ได้ใช้ในการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป ฉันถูกไหม? คุณสามารถให้ข้อมูลอ้างอิงบางส่วน (ควรเป็นบทความวิจัย) ที่อธิบายการใช้การตรวจสอบไขว้ในทางที่ผิดหรือไม่?

2
การทำให้เป็นมาตรฐาน L1 จะทำงานได้ดีกว่า L2 และในทางกลับกันหรือไม่
หมายเหตุ: ฉันรู้ว่า L1 มีคุณสมบัติการเลือกคุณสมบัติ ฉันพยายามที่จะเข้าใจว่าจะเลือกแบบใดเมื่อการเลือกคุณสมบัติไม่เกี่ยวข้องอย่างสมบูรณ์ จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.