สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การค้นหาควอไทล์ใน R
ฉันทำงานผ่านตำราเรียนสถิติขณะเรียนรู้ R และฉันพบเจอสิ่งกีดขวางในตัวอย่างต่อไปนี้: หลังจากดูที่?quantileฉันพยายามที่จะสร้างสิ่งนี้ใน R ด้วยต่อไปนี้: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 เนื่องจากข้อความและ R มีผลลัพธ์ที่แตกต่างกันฉันรวบรวมว่า R ใช้ประโยชน์จากค่ามัธยฐานในการคำนวณควอไทล์อันดับที่หนึ่งและสาม คำถาม: ฉันควรจะรวมค่ามัธยฐานในการคำนวณควอไทล์ที่หนึ่งและสามหรือไม่? โดยเฉพาะตำราหรือ R มีความถูกต้องหรือไม่? หากหนังสือเรียนนั้นถูกต้องมีวิธีใดบ้างที่จะบรรลุถึงสิ่งนี้ใน R ขอบคุณล่วงหน้า.
33 r  quantiles 

3
ก่อนการฝึกอบรมในโครงข่ายประสาทเทียมแบบลึก?
มีใครเคยเห็นวรรณกรรมเกี่ยวกับการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมแบบลึกหรือไม่? ฉันเห็นเฉพาะการฝึกอบรมล่วงหน้าในเครื่องสร้างรหัสอัตโนมัติหรือเครื่องโบลต์แมนที่ จำกัด เท่านั้น

1
เหตุผลที่ใช้งานง่ายที่อยู่เบื้องหลังการหมุนเวียนในการวิเคราะห์ปัจจัย / PCA คืออะไรและจะเลือกการหมุนที่เหมาะสมได้อย่างไร
คำถามของฉัน อะไรคือเหตุผลที่เข้าใจง่ายที่อยู่เบื้องหลังการหมุนของปัจจัยในการวิเคราะห์ปัจจัย (หรือส่วนประกอบใน PCA) ความเข้าใจของฉันคือถ้าตัวแปรถูกโหลดอย่างเท่าเทียมกันในองค์ประกอบด้านบน (หรือปัจจัย) แล้วแน่นอนว่ามันยากที่จะแยกความแตกต่างขององค์ประกอบ ดังนั้นในกรณีนี้เราสามารถใช้การหมุนเพื่อให้ได้ความแตกต่างของส่วนประกอบที่ดีขึ้น ถูกต้องหรือไม่ ผลที่ตามมาจากการหมุนคืออะไร สิ่งนี้มีผลกระทบอะไรบ้าง วิธีการเลือกการหมุนที่เหมาะสม? มีการหมุนมุมฉากและการหมุนเอียง วิธีเลือกระหว่างสิ่งเหล่านี้กับความหมายของตัวเลือกนี้คืออะไร กรุณาอธิบายโดยใช้สมการทางคณิตศาสตร์อย่างน้อยที่สุด คำตอบที่แพร่กระจายเพียงไม่กี่คำคือคณิตศาสตร์อย่างหนัก แต่ฉันกำลังมองหาเหตุผลและกฎง่ายๆ

8
ตกลงเพื่อลบค่าผิดปกติจากข้อมูลหรือไม่
ฉันมองหาวิธีที่จะลบค่าผิดปกติออกจากชุดข้อมูลและฉันพบคำถามนี้ ในความคิดเห็นและคำตอบสำหรับคำถามนี้บางคนกล่าวว่าเป็นการปฏิบัติที่ไม่ดีที่จะลบค่าผิดปกติออกจากข้อมูล ในชุดข้อมูลของฉันฉันมีค่าผิดปกติหลายอย่างที่น่าจะเกิดจากข้อผิดพลาดในการวัด แม้ว่าบางส่วนจะไม่ฉันก็ไม่มีวิธีตรวจสอบเป็นกรณี ๆ ไปเนื่องจากมีจุดข้อมูลมากเกินไป มีความถูกต้องทางสถิติมากกว่าเพียงแค่ลบค่าผิดปกติหรือไม่ หรือถ้าไม่วิธีแก้ปัญหาอื่นอาจเป็นอย่างไร หากฉันเพิ่งออกจากจุดเหล่านั้นพวกเขามีอิทธิพลต่อเช่นค่าเฉลี่ยในทางที่ไม่สะท้อนความเป็นจริง (เพราะส่วนใหญ่เป็นข้อผิดพลาดอยู่แล้ว) แก้ไข: ฉันกำลังทำงานกับข้อมูลสื่อกระแสไฟฟ้าของผิวหนัง ค่าที่สุดขีดส่วนใหญ่เกิดจากสิ่งประดิษฐ์เช่นมีคนดึงสายไฟ แก้ไข 2: ความสนใจหลักของฉันในการวิเคราะห์ข้อมูลคือการตรวจสอบว่ามีความแตกต่างระหว่างสองกลุ่ม
33 outliers 

2
ความแตกต่างระหว่างระยะทาง Bhattacharyya และ KL divergence
ฉันกำลังมองหาคำอธิบายที่ใช้งานง่ายสำหรับคำถามต่อไปนี้: ในสถิติและทฤษฎีข้อมูลความแตกต่างระหว่างระยะทาง Bhattacharyya และความแตกต่างของ KL เป็นมาตรการของความแตกต่างระหว่างการแจกแจงความน่าจะเป็นแบบแยกสองอันคืออะไร พวกเขาไม่มีความสัมพันธ์อย่างแท้จริงและวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็นสองแบบในลักษณะที่แตกต่างกันโดยสิ้นเชิงหรือไม่?

7
วันเกิดที่ขัดแย้งกับบิด (ใหญ่): ความน่าจะเป็นของการแบ่งปันวันเกิดที่แน่นอนเดียวกันกับพันธมิตร?
ฉันแบ่งปันวันเกิดเดียวกันกับแฟนของฉันวันเดียวกัน แต่ปีเดียวกันการเกิดของเราแยกจากกันเพียง 5 ชั่วโมงหรือมากกว่านั้น ฉันรู้ว่าโอกาสที่จะได้พบคนที่เกิดในวันเดียวกันนั้นค่อนข้างสูงและฉันรู้ว่ามีคนไม่กี่คนที่ฉันแบ่งปันวันเกิดของฉันแม้ว่าฉันจะได้อ่านเกี่ยวกับวันเกิดของบุคคลที่ผิดธรรมดา ปีเดียวกันเข้าบัญชี เราได้ถกเถียงกันมาก่อนเกี่ยวกับความน่าจะเป็นและฉันก็ยังไม่พอใจ ประเด็นของฉันคือโอกาสมีน้อยหากคุณพิจารณาถึงความน่าจะเป็นของการมีความสัมพันธ์ (+ การประสบความสำเร็จในระดับ X) ฉันพบว่าจำนวนปัจจัยที่ต้องคำนึงถึงนั้นค่อนข้างกว้าง (มากถึงประเด็นเพศและอายุความพร้อมใช้งานความน่าจะเป็นของการแยกตัวในภูมิภาคของเรา ฯลฯ ) เป็นไปได้ไหมที่จะคำนวณความน่าจะเป็นของบางอย่างเช่นนี้? คุณจะไปเกี่ยวกับมันได้อย่างไร

4
(เพราะเหตุใด) โมเดลที่ติดตั้งมากเกินไปมักจะมีค่าสัมประสิทธิ์จำนวนมากหรือไม่
ฉันจินตนาการว่าสัมประสิทธิ์ของตัวแปรที่ใหญ่กว่าคือยิ่งความสามารถในการรุ่นนั้นต้อง "แกว่ง" ในมิตินั้นให้โอกาสเพิ่มขึ้นเพื่อให้พอดีกับเสียง แม้ว่าฉันคิดว่าฉันมีความรู้สึกที่สมเหตุสมผลของความสัมพันธ์ระหว่างความแปรปรวนในแบบจำลองและค่าสัมประสิทธิ์ขนาดใหญ่ แต่ฉันไม่มีความรู้สึกที่ดีเท่ากับว่าทำไมพวกเขาถึงเกิดขึ้นในแบบจำลองที่พอดี มันไม่ถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็นอาการของการบรรจุเกินและการหดตัวของสัมประสิทธิ์เป็นเทคนิคที่ใช้ในการลดความแปรปรวนในแบบจำลองหรือไม่? การทำให้เป็นมาตรฐานผ่านการหดตัวของสัมประสิทธิ์ดูเหมือนว่าจะทำงานบนหลักการที่ว่าค่าสัมประสิทธิ์ขนาดใหญ่เป็นผลมาจากตัวแบบที่มีการ overfitted แต่บางทีฉันอาจตีความแรงจูงใจที่อยู่เบื้องหลังเทคนิค สัญชาตญาณของฉันที่ค่าสัมประสิทธิ์ขนาดใหญ่มักจะมีอาการของการสะสมมากเกินไปมาจากตัวอย่างต่อไปนี้: สมมติว่าเราต้องการให้พอดีกับจุดที่ทุกคนนั่งอยู่บนแกน x เราสามารถสร้างพหุนามที่มีการแก้ปัญหาเป็นจุดเหล่านี้:(x-x_n) สมมติว่าจุดที่เราอยู่ที่xเทคนิคนี้ให้ค่าสัมประสิทธิ์ทั้งหมด> = 10 (ยกเว้นหนึ่งค่าสัมประสิทธิ์) เมื่อเราเพิ่มคะแนนมากขึ้น (และเพิ่มระดับพหุนาม) ขนาดของสัมประสิทธิ์เหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วF ( x ) = ( x - x 1 ) ( x - x 2 ) . . . ( x - x n - 1 ) ( x - …

2
องศาอิสระในการทดสอบ Hosmer-Lemeshow
สถิติการทดสอบสำหรับการทดสอบHosmer-Lemeshow (HLT) สำหรับความดีของพอดี (GOF) ของแบบจำลองการถดถอยโลจิสติกถูกกำหนดดังนี้: ตัวอย่างจะถูกแบ่งออกเป็น deciles, D_1, D_2, \ dots, D_ {d} , ต่อหนึ่ง decile คำนวณปริมาณต่อไปนี้:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , คือจำนวนที่สังเกตได้ของจำนวนคดีที่เป็นบวกใน decile DdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)คือจำนวนที่สังเกตได้จากจำนวนลบในช่วงDdDdD_d ; E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_iคือจำนวนคดีโดยประมาณที่เป็นบวกในช่วงDdDdD_d ; E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)คือจำนวนผู้ติดลบโดยประมาณในช่วงDdDdD_d ; …

3
การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM?
ฉันกำลังมองหาแนวทางในการตีความพล็อตที่เหลือของแบบจำลอง GLM โดยเฉพาะปัวซอง, ทวินามลบ, โมเดลทวินาม เราคาดหวังอะไรจากแปลงเหล่านี้เมื่อแบบจำลองนั้น "ถูกต้อง"? (ตัวอย่างเช่นเราคาดว่าความแปรปรวนจะเพิ่มขึ้นเมื่อค่าที่คาดการณ์เพิ่มขึ้นเมื่อใช้กับแบบจำลองปัวซอง) ฉันรู้ว่าคำตอบนั้นขึ้นอยู่กับรุ่น การอ้างอิงใด ๆ (หรือประเด็นทั่วไปที่ควรพิจารณา) จะเป็นประโยชน์ / ได้รับการชื่นชม


5
เมทริกซ์ความแปรปรวนร่วมตัวอย่างเป็นสมมาตรและแน่นอนแน่นอนเสมอใช่หรือไม่
เมื่อคำนวณเมทริกซ์ความแปรปรวนร่วมของตัวอย่างจะมีการรับประกันว่าจะได้เมทริกซ์สมมาตรและบวกแน่นอนหรือไม่ ปัจจุบันปัญหาของฉันมีตัวอย่างของเวกเตอร์สังเกต 4600 และ 24 มิติ

2
ทำความเข้าใจกับค่า p
ฉันรู้ว่ามีวัสดุมากมายที่อธิบายค่า p อย่างไรก็ตามแนวคิดไม่ใช่เรื่องง่ายที่จะเข้าใจอย่างแน่นหนาโดยไม่ต้องชี้แจงเพิ่มเติม นี่คือคำจำกัดความของ p-value จาก Wikipedia: p-value คือความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่จะสังเกตได้จริงโดยสมมติว่าสมมติฐานว่างเป็นจริง ( http://en.wikipedia.org/wiki/P-value ) คำถามแรกของฉันเกี่ยวข้องกับการแสดงออก "อย่างน้อยที่สุดเท่าที่สังเกตได้จริง ๆ " ความเข้าใจของฉันเกี่ยวกับตรรกะที่ใช้ p-value มีดังต่อไปนี้: ถ้า p-value มีขนาดเล็กมันไม่น่าเป็นไปได้ที่การสังเกตจะเกิดขึ้นโดยสมมุติฐานว่างและเราอาจต้องการสมมติฐานทางเลือกเพื่ออธิบายการสังเกต หากค่า p-value ไม่เล็กอาจเป็นไปได้ว่าการสังเกตเกิดขึ้นเพียงสมมติว่าสมมติฐานว่างเปล่าและไม่จำเป็นต้องใช้สมมติฐานทางเลือกเพื่ออธิบายการสังเกต ดังนั้นถ้ามีคนต้องการยืนยันสมมติฐานเขา / เธอต้องแสดงว่าค่า p ของสมมติฐานว่างนั้นเล็กมาก เมื่อคำนึงถึงมุมมองนี้ความเข้าใจของฉันเกี่ยวกับนิพจน์ที่ไม่ชัดเจนคือ p-value คือmin[P(X&lt;x),P(x&lt;X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)]ถ้า PDF ของสถิติเป็น unimodal โดยที่XXXคือสถิติทดสอบและxxxคือค่าที่ได้จากการสังเกต ถูกต้องหรือไม่ ถ้ามันถูกต้องมันยังใช้กับ PDF bimodal ของสถิติได้หรือไม่? หากยอดเขาสองอันของ PDF ถูกแยกออกจากกันอย่างดีและค่าที่สังเกตนั้นอยู่ที่ไหนสักแห่งในบริเวณความหนาแน่นของความน่าจะเป็นต่ำระหว่างสองยอดเขา p-value ช่วงใดให้ความน่าจะเป็น คำถามที่สองเป็นเรื่องเกี่ยวกับความหมายของ p-value จาก …

5
SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่
ฉันมีชุดข้อมูลสตรีมมิ่งตัวอย่างสามารถใช้ได้ทีละชุด ฉันจะต้องทำการจำแนกประเภทหลายคลาสกับพวกเขา ทันทีที่ฉันป้อนตัวอย่างการฝึกอบรมให้กับกระบวนการเรียนรู้ฉันต้องทิ้งตัวอย่าง ในขณะเดียวกันฉันยังใช้รุ่นล่าสุดในการทำนายข้อมูลที่ไม่มีป้ายกำกับ เท่าที่ฉันรู้เครือข่ายประสาทสามารถทำการเรียนรู้ด้วยการส่งตัวอย่างหนึ่งครั้งและดำเนินการแพร่กระจายไปข้างหน้าและการสนับสนุนการย้อนหลังในตัวอย่าง SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างและยกเลิกตัวอย่างได้ทันทีหรือไม่?

1
วิธีการฝึกอบรมและตรวจสอบความถูกต้องของโมเดลโครงข่ายประสาทเทียมใน R
ฉันใหม่กับการสร้างแบบจำลองด้วยเครือข่ายประสาท แต่ฉันจัดการเพื่อสร้างเครือข่ายประสาทด้วยจุดข้อมูลที่มีอยู่ทั้งหมดที่เหมาะกับข้อมูลที่สังเกตได้ดี เครือข่ายประสาทเทียมทำใน R ด้วยแพ็คเกจ nnet: require(nnet) ##33.8 is the highest value mynnet.fit &lt;- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay = 0.1, maxit = 1000) mynnet.predict &lt;- predict(mynnet.fit)*33.80 mean((mynnet.predict - MyData$DOC)^2) ## mean squared error was 16.5 ข้อมูลที่ฉันกำลังวิเคราะห์มีลักษณะดังต่อไปนี้โดยที่ DOC เป็นตัวแปรที่จะต้องมีแบบจำลอง (มีการสังเกตประมาณ 17,000): Q GW_level Temp t_sum …

4
ต้นกำเนิดของเกณฑ์“ 5
รายงานข่าวกล่าวว่าเซิร์นจะมีการประกาศในวันพรุ่งนี้ว่าฮิกส์โบซอนได้รับการตรวจทดลอง 5 หลักฐาน อ้างอิงจากบทความ:σσ\sigma 5 เท่ากับโอกาส 99.99994% ที่ข้อมูลที่เครื่องตรวจจับ CMS และ ATLAS กำลังเห็นไม่ใช่แค่เสียงสุ่ม - และมีโอกาส 0.00006% ที่พวกเขาได้รับการกระพริบ 5 σเป็นความมั่นใจที่จำเป็นสำหรับบางสิ่งบางอย่างที่จะระบุว่าเป็น“ การค้นพบทางวิทยาศาสตร์” อย่างเป็นทางการσσ\sigmaσσ\sigma สิ่งนี้ไม่ได้เข้มงวดมากนัก แต่ดูเหมือนว่านักฟิสิกส์ใช้วิธีการทางสถิติแบบ "การทดสอบสมมติฐาน" มาตรฐานโดยตั้งค่าเป็น0.0000006ซึ่งสอดคล้องกับz = 5 (แบบสองด้าน)? หรือมีความหมายอื่น ๆ บ้าง?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 แน่นอนว่าในทางวิทยาศาสตร์ส่วนใหญ่การตั้งค่าอัลฟ่าเป็น 0.05 จะทำเป็นประจำ นี่จะเทียบเท่ากับหลักฐาน"two- " ถึงแม้ว่าฉันไม่เคยได้ยินชื่อนี้มาก่อน มีสาขาอื่น ๆ (นอกเหนือจากฟิสิกส์ของอนุภาค) ที่คำจำกัดความที่เข้มงวดกว่าของอัลฟ่าเป็นมาตรฐานหรือไม่? ใครทราบข้อมูลอ้างอิงสำหรับวิธีการที่ห้าσกฎได้รับการยอมรับจากฟิสิกส์ของอนุภาค?σσ\sigmaσσ\sigma ปรับปรุง:ฉันถามคำถามนี้ด้วยเหตุผลง่ายๆ หนังสือของฉันชีวสถิติที่ใช้งานง่าย (เช่นหนังสือสถิติส่วนใหญ่) มีส่วนที่อธิบายว่ากฎ "P &lt;0.05" ตามปกติคืออะไร ฉันต้องการเพิ่มตัวอย่างของเขตข้อมูลทางวิทยาศาสตร์ที่จำเป็นต้องใช้ค่าที่น้อยกว่า (มาก!) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.