สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
คำถามเชิงปฏิบัติเกี่ยวกับการปรับแต่งป่าสุ่ม
คำถามของฉันเกี่ยวกับป่าสุ่ม แนวคิดของลักษณนามที่สวยงามนี้ชัดเจนสำหรับฉัน แต่ยังมีคำถามการใช้งานมากมาย น่าเสียดายที่ฉันล้มเหลวในการหาคู่มือที่เป็นประโยชน์สำหรับ RF (ฉันค้นหาบางสิ่งเช่น "คู่มือปฏิบัติสำหรับเครื่อง Boltzman ที่ จำกัด การฝึกอบรม" โดย Geoffrey Hinton แต่สำหรับป่าสุ่ม! หนึ่งวิธีสามารถปรับคลื่นความถี่วิทยุในทางปฏิบัติได้อย่างไร? จริงหรือที่ต้นไม้จำนวนมากจะดีกว่าเสมอ มีข้อ จำกัด ที่สมเหตุสมผล (ยกเว้นความสามารถของ บริษัท แน่นอน) ในการเพิ่มจำนวนต้นไม้และวิธีการประมาณสำหรับชุดข้อมูลที่กำหนดหรือไม่? ความลึกของต้นไม้ล่ะ? วิธีการเลือกที่เหมาะสมหรือไม่ มีความรู้สึกอย่างไรในการทดสอบต้นไม้ที่มีความยาวต่างกันในป่าหนึ่งและคำแนะนำสำหรับสิ่งนั้นคืออะไร? มีพารามิเตอร์อื่น ๆ ที่ควรพิจารณาเมื่อฝึกอบรม RF หรือไม่ อาจสร้าง Algos สำหรับต้นไม้แต่ละต้น? เมื่อพวกเขาพูดว่า RF ทนต่อการ overfitting ความจริงเป็นอย่างไร ฉันจะขอบคุณคำตอบและ / หรือลิงก์ไปยังคู่มือหรือบทความที่ฉันอาจพลาดไปในขณะที่ค้นหา

4
อะไรคือความแตกต่างระหว่าง "ฟังก์ชั่นลิงค์" และ "ฟังก์ชั่นลิงก์แบบบัญญัติ" สำหรับ GLM
ความแตกต่างระหว่างคำว่า 'ฟังก์ชั่นการเชื่อมโยง' และ 'ฟังก์ชั่นการเชื่อมโยงแบบบัญญัติ' คืออะไร? นอกจากนี้ยังมีข้อดี (ทางทฤษฎี) ของการใช้อย่างใดอย่างหนึ่งมากกว่าที่อื่น ๆ ? ตัวอย่างเช่นตัวแปรการตอบสนองแบบไบนารีสามารถสร้างแบบจำลองโดยใช้ฟังก์ชั่นลิงค์จำนวนมากเช่นlogit , probitเป็นต้น แต่logitที่นี่ถือเป็นฟังก์ชันลิงก์ "canonical"

18
คำถามสัมภาษณ์สถิติ
ฉันกำลังมองหาสถิติ (และความน่าจะเป็นฉันเดา) คำถามสัมภาษณ์จากพื้นฐานที่สุดไปจนถึงขั้นสูงกว่า ไม่จำเป็นต้องมีคำตอบ (แม้ว่าลิงก์ไปยังคำถามที่เฉพาะเจาะจงในเว็บไซต์นี้จะทำได้ดี)

4
'ช่วงเวลา' เกี่ยวกับ 'ช่วงเวลา' ของการแจกแจงความน่าจะเป็นอย่างไร
ฉันรู้ว่าช่วงเวลาใดและวิธีการคำนวณและวิธีการใช้ฟังก์ชั่นสร้างช่วงเวลาเพื่อให้ได้ช่วงเวลาที่ดีขึ้น ใช่ฉันรู้คณิตศาสตร์ ตอนนี้ฉันต้องได้รับความรู้สถิติของฉันหล่อลื่นสำหรับการทำงานฉันคิดว่าฉันก็อาจจะถามคำถามนี้ - มันเป็นเรื่องที่จู้จี้ฉันประมาณสองสามปีที่ผ่านมาและในวิทยาลัยกลับไม่มีอาจารย์รู้คำตอบหรือจะเลิกคำถาม . ดังนั้นคำว่า "ช่วงเวลา" หมายถึงอะไรในกรณีนี้ ทำไมต้องเลือกคำนี้ มันฟังดูไม่ง่ายสำหรับฉัน (หรือฉันไม่เคยได้ยินมาก่อนเลยในมหาวิทยาลัย :) ลองคิดดูสิฉันก็อยากรู้อยากเห็นด้วยการใช้งานใน "โมเมนต์ความเฉื่อย";) แต่ตอนนี้เราไม่ได้สนใจเรื่องนี้ ดังนั้น "ชั่วขณะ" ของการกระจายหมายถึงอะไรและมันพยายามทำอะไรและทำไมคำนั้น! :) ทำไมไม่มีใครสนใจช่วงเวลา ในขณะนี้ฉันรู้สึกอย่างอื่นเกี่ยวกับช่วงเวลานั้น) PS: ใช่ฉันอาจถามคำถามที่คล้ายกันเกี่ยวกับความแปรปรวน แต่ฉันให้คุณค่าความเข้าใจที่เข้าใจง่ายกว่า 'ดูในหนังสือเพื่อค้นหา' :)


5
ฟังก์ชั่นการสูญเสียสำหรับงานการจำแนกประเภทหลายคลาสและหลายฉลากในเครือข่ายประสาทเทียมคืออะไร?
ฉันกำลังฝึกโครงข่ายประสาทเทียมเพื่อจัดกลุ่มวัตถุเป็นคลาส n แต่ละวัตถุสามารถเป็นของหลายคลาสในเวลาเดียวกัน (หลายคลาสหลายป้าย) ฉันอ่านว่าสำหรับปัญหาหลายคลาสแนะนำโดยทั่วไปให้ใช้ softmax และหมวดหมู่ข้ามเอนโทรปีเป็นฟังก์ชั่นการสูญเสียแทน mse และฉันเข้าใจมากขึ้นหรือน้อยลงว่าทำไม สำหรับปัญหาของฉันเกี่ยวกับมัลติ - เลเบลมันไม่สมเหตุสมผลที่จะใช้ซอฟต์แม็กซ์แน่นอนเพราะความน่าจะเป็นในแต่ละชั้นควรเป็นอิสระจากที่อื่น ดังนั้นชั้นสุดท้ายของฉันคือหน่วย sigmoid ที่สควอชใส่ลงในช่วงความน่าจะเป็น 0..1 สำหรับทุกชั้น ตอนนี้ฉันไม่แน่ใจว่าฟังก์ชั่นการสูญเสียที่ฉันควรใช้สำหรับสิ่งนี้ เมื่อพิจารณาถึงคำจำกัดความของ crossentropy ที่เป็นหมวดหมู่ฉันเชื่อว่ามันจะใช้ไม่ได้กับปัญหานี้เพราะมันจะคำนึงถึงผลลัพธ์ของเซลล์ประสาทที่ควรจะเป็น 1 เท่านั้นและไม่สนใจสิ่งอื่น เอนโทรปีของ Binary cross ดูเหมือนว่าจะเหมาะกว่า แต่ฉันเห็นเพียงว่ามันเคยถูกกล่าวถึงสำหรับปัญหาการจำแนกเลขฐานสองด้วยเซลล์ประสาทเอาท์พุทเดี่ยว ฉันใช้ python และ keras เพื่อฝึกฝนในกรณีที่มันสำคัญ

12
ทำไมเครือข่ายนิวรัลจึงต้องการตัวอย่างการฝึกมากมาย
เด็กมนุษย์ที่อายุ 2 ขวบต้องการรถยนต์ประมาณ 5 คันเพื่อให้สามารถระบุได้ด้วยความถูกต้องตามสมควรโดยไม่คำนึงถึงสี, สร้าง, ฯลฯ เมื่อลูกชายของฉันอายุ 2 เขาก็สามารถระบุรถรางและรถไฟได้แม้ว่าเขาจะเคยเห็นก็ตาม แค่เล็กน้อย. เนื่องจากเขามักจะสับสนระหว่างกันดูเหมือนว่าเครือข่ายประสาทของเขาไม่ได้รับการฝึกฝนเพียงพอ แต่ก็ยัง อะไรคือสิ่งที่เครือข่ายประสาทเทียมหายไปซึ่งทำให้พวกเขาไม่สามารถเรียนรู้ได้เร็วขึ้น? การถ่ายโอนการเรียนรู้คำตอบคืออะไร?

5
มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?
พิจารณาสามปรากฏการณ์ต่อไปนี้ ความขัดแย้งของสไตน์: ได้รับข้อมูลจากการแจกแจงปกติหลายตัวแปรในค่าเฉลี่ยตัวอย่างไม่ใช่ค่าประมาณที่ดีมากของค่าเฉลี่ยที่แท้จริง เราสามารถได้ค่าประมาณที่มีความคลาดเคลื่อนกำลังสองต่ำกว่าถ้ามีการลดขนาดพิกัดทั้งหมดของค่าเฉลี่ยตัวอย่างไปยังศูนย์ [หรือไปสู่ค่าเฉลี่ยของพวกเขาหรือจริงต่อค่าใด ๆ ถ้าฉันเข้าใจถูกต้อง]Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 หมายเหตุ: มักจะเป็นสูตรของสไตน์โดยพิจารณาจากจุดข้อมูลเดียว ; โปรดแก้ไขฉันหากนี่เป็นสิ่งสำคัญและสูตรของฉันด้านบนไม่ถูกต้องRnRn\mathbb R^n สันถดถอย: ให้ตัวแปรและตัวแปรอิสระบางตัว , การถดถอยมาตรฐานมีแนวโน้ม เพื่อให้ข้อมูลเหมาะสมและนำไปสู่ประสิทธิภาพที่ไม่ดีตัวอย่าง หนึ่งมักจะสามารถลดการหดตัวโดยอิงต่อศูนย์:YX β = ( X ⊤ X ) - 1 X ⊤ Y β β = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yyy\mathbf yXX\mathbf …

8
อะไรคือตัวอย่างที่ดีและน่าเชื่อถือที่ค่า p มีประโยชน์?
คำถามของฉันในชื่อเป็นคำอธิบายตัวเอง แต่ฉันต้องการที่จะให้บริบท ASA ออกแถลงการณ์เมื่อต้นสัปดาห์นี้“ บนค่า p: บริบทกระบวนการและวัตถุประสงค์ ” สรุปความเข้าใจผิดที่หลากหลายของค่า p และเรียกร้องให้ระมัดระวังไม่ใช้โดยไม่มีบริบทและความคิด (ซึ่งอาจกล่าวได้เพียงเกี่ยวกับ วิธีการทางสถิติใด ๆ จริงๆ) ในการตอบสนองต่อ ASA ศาสตราจารย์ Matloff เขียนบล็อกโพสต์หัวข้อ: หลังจาก 150 ปี, เอเอสเอกล่าวว่าไม่มีค่า P- จากนั้นอาจารย์ Benjamini (และฉัน) โพสต์ตอบกลับหัวข้อมันไม่ใช่ความผิด P-ค่า - การสะท้อนความเห็นในงบ เพื่อตอบสนองต่อมันศาสตราจารย์ Matloff ถามในโพสต์ติดตาม : สิ่งที่ฉันต้องการเห็น [... คือ] - เป็นตัวอย่างที่ดีและน่าเชื่อถือซึ่งค่า p มีประโยชน์ นั่นจะต้องเป็นบรรทัดล่าง เพื่ออ้างถึงสองข้อโต้แย้งที่สำคัญของเขากับประโยชน์ของค่า:ppp ด้วยตัวอย่างขนาดใหญ่การทดสอบอย่างมีนัยสำคัญจะกระโจนเข้าหาตัวเล็ก ๆ ซึ่งไม่สำคัญออกไปจากสมมติฐานว่าง เกือบจะไม่มีสมมติฐานว่างใด ๆ …

8
ภาษา R น่าเชื่อถือสำหรับสาขาเศรษฐศาสตร์หรือไม่?
ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาเศรษฐศาสตร์ซึ่งเพิ่งเปลี่ยนมาใช้ R จากแพ็คเกจทางสถิติที่รู้จักกันดีอื่น ๆ (ฉันใช้ SPSS เป็นหลัก) ปัญหาเล็ก ๆ ของฉันในตอนนี้คือฉันเป็นผู้ใช้ R คนเดียวในชั้นเรียนของฉัน เพื่อนร่วมชั้นของฉันใช้ Stata และ Gauss และอาจารย์คนหนึ่งของฉันบอกว่า R เหมาะสำหรับงานวิศวกรรม แต่ไม่ใช่เพื่อเศรษฐศาสตร์ เขากล่าวว่าแพ็คเกจจำนวนมากถูกสร้างขึ้นโดยผู้ที่มีความรู้เกี่ยวกับการเขียนโปรแกรมมาก แต่ไม่มากนักเกี่ยวกับเศรษฐศาสตร์และดังนั้นจึงไม่น่าเชื่อถือ นอกจากนี้เขายังกล่าวถึงความจริงที่ว่าเนื่องจากไม่มีเงินเกี่ยวข้องกับการสร้างแพ็คเกจ R ดังนั้นจึงไม่มีแรงจูงใจที่จะทำอย่างถูกต้อง (ต่างจาก Stata เช่น) และเขาใช้ R เป็นเวลาและได้ผลลัพธ์ที่ "ไร้สาระ" ใน เขาพยายามประเมินบางสิ่ง ยิ่งไปกว่านั้นเขาบ่นว่าเขาสร้างตัวเลขสุ่มใน R ซึ่งเขาบอกว่า " ฉันใช้ R มานานกว่าหนึ่งเดือนและต้องบอกว่าฉันตกหลุมรักมันแล้ว ทุกสิ่งที่ฉันได้ยินจากอาจารย์ของฉันมันทำให้ฉันท้อใจ ดังนั้นคำถามของฉันคือ: "R เชื่อถือได้สำหรับสาขาเศรษฐศาสตร์หรือไม่"

1
วิธีการตีความสัมประสิทธิ์ในการถดถอยปัวซอง?
ฉันจะตีความผลกระทบหลัก (ค่าสัมประสิทธิ์สำหรับปัจจัยจำลอง) ในการถดถอยปัวซองได้อย่างไร สมมติตัวอย่างต่อไปนี้: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- …

4
การเพิ่ม IV ที่ 2 ทำให้ IV ที่ 1 มีความหมายได้อย่างไร?
ฉันมีสิ่งที่อาจเป็นคำถามง่าย ๆ แต่มันทำให้ฉันงุนงงตอนนี้ดังนั้นฉันหวังว่าคุณจะสามารถช่วยฉันออก ฉันมีรูปแบบการถดถอยกำลังสองน้อยที่สุดโดยมีตัวแปรอิสระหนึ่งตัวและตัวแปรตามหนึ่งตัว ความสัมพันธ์ไม่สำคัญ ตอนนี้ฉันเพิ่มตัวแปรอิสระตัวที่สอง ตอนนี้ความสัมพันธ์ระหว่างตัวแปรอิสระตัวแรกกับตัวแปรตามกลายเป็นสิ่งสำคัญ มันทำงานอย่างไร นี่อาจแสดงให้เห็นถึงปัญหาบางอย่างกับความเข้าใจของฉัน แต่สำหรับฉัน แต่ฉันไม่เห็นว่าการเพิ่มตัวแปรอิสระตัวที่สองนี้สามารถสร้างความสำคัญครั้งแรกได้อย่างไร

5
วิธีการตีความความแปรปรวนร่วมหรือเมทริกซ์ความแม่นยำ?
ฉันสงสัยว่าใครสามารถชี้ให้ฉันดูการอ้างอิงบางอย่างที่อธิบายการตีความองค์ประกอบของเมทริกซ์ความแปรปรวนร่วมแบบผกผันหรือที่เรียกว่าเมทริกซ์ความเข้มข้นหรือเมทริกซ์ความแม่นยำ ฉันสามารถเข้าถึงการพึ่งพาหลายตัวแปรของ Cox และ Wermuth แต่สิ่งที่ฉันกำลังมองหาคือการตีความของแต่ละองค์ประกอบในเมทริกซ์ผกผัน วิกิพีเดียระบุ "องค์ประกอบของเมทริกซ์ความแม่นยำมีการตีความในแง่ของความสัมพันธ์บางส่วนและความแปรปรวนบางส่วน" ซึ่งทำให้ผมนี้หน้า มีการตีความโดยไม่ใช้การถดถอยเชิงเส้นหรือไม่? IE ในแง่ของความแปรปรวนร่วมหรือรูปทรงเรขาคณิต?

1
สัญกรณ์ห้อยในความคาดหวัง
ความหมายที่แท้จริงของสัญกรณ์ห้อยคืออะไรในความคาดหวังตามเงื่อนไขในกรอบของทฤษฎีการวัด? ห้อยเหล่านี้จะไม่ปรากฏในความหมายของความคาดหวังที่มีเงื่อนไข แต่เราอาจจะเห็นเช่นในหน้าของวิกิพีเดียนี้ (โปรดทราบว่ามันไม่ได้เป็นอย่างนั้นเสมอไปในสองสามเดือนก่อนหน้านี้ )EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] สิ่งที่ควรเป็นเช่นความหมายของกับและ ?EX[X+Y]EX[X+Y]\mathbb{E}_X[X+Y]X∼N(0,1)X∼N(0,1)X\sim\mathcal{N}(0,1)Y=X+1Y=X+1Y=X+1

1
แบบจำลองการถดถอยโลจิสติกอย่างง่ายบรรลุความแม่นยำในการจำแนกประเภท 92% สำหรับ MNIST อย่างไร
แม้ว่าภาพทั้งหมดในชุดข้อมูล MNIST จะอยู่กึ่งกลาง แต่มีขนาดใกล้เคียงกันและไม่มีการหมุน แต่ก็มีการเปลี่ยนแปลงของลายมือที่สำคัญที่ไขปริศนาว่าแบบจำลองเชิงเส้นบรรลุความแม่นยำในการจำแนกสูงอย่างไร เท่าที่ฉันสามารถมองเห็นได้เนื่องจากความแปรปรวนของลายมือที่สำคัญตัวเลขควรแยกกันไม่ออกเป็นเส้นตรงในพื้นที่มิติ 784 กล่าวคือควรมีความซับซ้อนเล็กน้อย (แม้ว่าจะไม่ซับซ้อนมาก) ไม่ใช่ขอบเขตเชิงเส้นที่แยกตัวเลขที่แตกต่างกัน คล้ายกับตัวอย่างอ้างถึงเป็นอย่างดีซึ่งคลาสบวกและลบไม่สามารถคั่นด้วยตัวแยกประเภทเชิงเส้นใด ๆ ดูเหมือนจะทำให้ฉันงงงวยว่าการถดถอยโลจิสติกหลายระดับนั้นให้ความแม่นยำสูงด้วยคุณลักษณะเชิงเส้นอย่างสิ้นเชิงได้อย่างไร (ไม่มีคุณสมบัติพหุนาม)XO RXORXOR ยกตัวอย่างเช่นเมื่อกำหนดพิกเซลในภาพความแตกต่างของตัวเลขและเขียนด้วยลายมือจะทำให้พิกเซลนั้นสว่างหรือไม่ ดังนั้นกับชุดของน้ำหนักเรียนรู้แต่ละพิกเซลสามารถทำให้ดูเป็นหลักเป็นเช่นเดียวกับ3เท่านั้นที่มีการรวมกันของค่าพิกเซลมันควรจะเป็นไปได้ที่จะบอกว่าไม่ว่าจะเป็นหลักเป็นหรือ3สิ่งนี้เป็นจริงสำหรับคู่หลักส่วนใหญ่ ดังนั้นการถดถอยแบบลอจิสติกเป็นอย่างไรซึ่งสุ่มเลือกการตัดสินใจของแต่ละพิกเซลอย่างอิสระ (โดยไม่พิจารณาการพึ่งพาระหว่างพิกเซลใด ๆ เลย) สามารถบรรลุความแม่นยำสูงได้222333222333222333 ฉันรู้ว่าฉันผิดที่ใดที่หนึ่งหรือแค่ประเมินความแปรปรวนของภาพมากเกินไป อย่างไรก็ตามมันจะดีมากถ้ามีคนช่วยฉันด้วยสัญชาตญาณว่าตัวเลขจะแยกออกเป็นเส้นตรงได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.