สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ฉันต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมืองตามข่าว
ฉันมีโครงการด้านนี้ที่ฉันรวบรวมข้อมูลเว็บไซต์ข่าวท้องถิ่นในประเทศของฉันและต้องการสร้างดัชนีอาชญากรรมและดัชนีความไม่มั่นคงทางการเมือง ฉันได้ครอบคลุมส่วนการดึงข้อมูลของโครงการแล้ว แผนของฉันคือการทำ: การแยกหัวข้อที่ไม่ได้รับอนุญาต ใกล้การตรวจจับรายการที่ซ้ำกัน การจำแนกประเภทและระดับเหตุการณ์ภายใต้การดูแล (อาชญากรรม / การเมือง - สูง / ปานกลาง / ต่ำ) ฉันจะใช้ python และ sklearn และได้ทำการวิจัยขั้นตอนวิธีที่ฉันสามารถใช้สำหรับงานเหล่านั้นแล้ว ฉันคิดว่า 2. สามารถให้ความเกี่ยวข้องกับเรื่องเล่าแก่ฉันได้: ยิ่งมีกระดาษข่าวจำนวนมากเผยแพร่เกี่ยวกับเรื่องราวหรือหัวข้อที่เกี่ยวข้องมากขึ้นสำหรับวันนั้น ขั้นตอนต่อไปของฉันคือการสร้างดัชนีรายเดือนรายสัปดาห์และรายวัน (ทั่วประเทศและต่อเมือง) ตามคุณลักษณะที่ฉันมีและฉันหลงทางเล็กน้อยเพราะ "ความไวต่อความไม่เสถียร" อาจเพิ่มขึ้นตามเวลา ฉันหมายถึงดัชนีจากเหตุการณ์ความไม่มั่นคงที่สำคัญของปีที่แล้วอาจน้อยกว่าดัชนีสำหรับปีนี้ นอกจากนี้หากใช้ระดับคงที่ 0-100 หรือไม่ ต่อมาฉันต้องการที่จะสามารถทำนายเหตุการณ์ที่เกิดขึ้นตามสิ่งนี้เช่นว่าการสืบทอดเหตุการณ์ในสัปดาห์ที่ผ่านมาจะนำไปสู่เหตุการณ์ที่สำคัญหรือไม่ แต่ตอนนี้ฉันจะมีความสุขกับการแบ่งประเภทการทำงานและสร้างแบบจำลองดัชนี ฉันขอขอบคุณตัวชี้ไปที่กระดาษการอ่านหรือความคิดที่เกี่ยวข้อง ขอบคุณ PD: ขออภัยหากคำถามไม่ได้อยู่ที่นี่ อัปเดต : ฉันยังไม่ได้ "สร้าง" แต่เมื่อเร็ว ๆ นี้มีข่าวเกี่ยวกับกลุ่มนักวิทยาศาสตร์ที่ทำงานในระบบเพื่อทำนายเหตุการณ์โดยใช้คลังข่าวและเผยแพร่กระดาษที่เกี่ยวข้องการทำเหมืองเว็บเพื่อทำนายเหตุการณ์ในอนาคต (PDF )

2
ใช้เครือข่ายประสาทเทียมสำหรับการซื้อขายในตลาดหลักทรัพย์
ฉันดำดิ่งสู่สนามของเครือข่ายประสาทและฉันก็ติดใจกับพวกเขา ในที่สุดฉันก็ได้พัฒนากรอบแอปพลิเคชันสำหรับการทดสอบระบบการค้าในตลาดหุ้นและตอนนี้ฉันจะใช้โครงข่ายประสาทเทียมแรกของฉัน ง่ายมากและดั้งเดิมไม่ได้มีไว้สำหรับการซื้อขายจริงเพียงเพื่อเริ่ม ฉันแค่อยากรู้ว่าวิธีการของฉันเป็นวิธีการที่ดีหรือไม่ และถ้าคุณเห็นว่าฉันพลาดอะไรบางอย่าง (หรือฉันผิดไปจากบางอย่าง) หรือคุณมีความคิดว่าอะไรที่สามารถช่วยนักต้มตุ๋นในสาขาเครือข่ายประสาทในการซื้อขายในตลาดนั่นจะทำให้ฉันมีความสุขมาก :) ฉันมี 40 อินพุตมูลค่าตลาดจากตลาดหลักทรัพย์ (S&P e-mini แต่นั่นไม่สำคัญ) สำหรับอินพุต 40 อันนี้ฉันรู้ 2 ตัวเลข ฉันจะได้รับเงินเท่าไหร่หรือมียอดสั่งซื้อลดลง ฉันจะได้รับรายได้เท่าไหร่หรือมียอดขายลดลง เนื่องจากวิธีการแลกเปลี่ยนตลาดหุ้นตัวเลขทั้งสองสามารถเป็นลบ / บวกแสดงว่าฉันสามารถสูญเสีย / รับเงินสำหรับการซื้อและขาย (เนื่องจากการค้าสามารถแนบคำสั่ง "การ จำกัด การสูญเสีย" หรือ "การกำหนดเป้าหมาย" เช่น STOP, LIMIT ฯลฯ ซึ่งทำงานแตกต่างกัน) แต่ถ้าเป็นเช่นนั้นมันเป็นข้อบ่งชี้ว่าฉันไม่ควรสั่งซื้อเลยแม้ว่าคำสั่งซื้อและขายจะให้ตัวเลขเป็นบวก ฉันคิดว่าฟังก์ชั่นการเปิดใช้งานที่ดีที่สุดที่จะใช้คือ ... สิ่ง sigmoid แต่มีช่วงตั้งแต่ -1 ถึง 1 (ฉันพบว่ามันมีชื่อเรียกหลายชื่อบนอินเทอร์เน็ต ... bipolar sigmoid, …

2
มีคู่มือสไตล์สำหรับกราฟสถิติสำหรับงานนำเสนอหรือไม่
ฉันกำลังมองหาคำแนะนำ / แหล่งข้อมูล / คำแนะนำเกี่ยวกับวิธีจัดรูปแบบกราฟที่ดีที่สุดสำหรับงานนำเสนอ จากประสบการณ์ฉันรู้ว่ากราฟที่สร้างขึ้นสำหรับสิ่งพิมพ์ไม่ดีนักเมื่อแสดงด้วย beamer ข้อความมักมีขนาดเล็กเกินไปเส้นไม่หนาพอ ฯลฯ เป็นความคิดที่ดีที่จะใช้ไฟล์. eps / .pdf และดันเข้าไปในงานนำเสนอโดยตรง มีคำแนะนำสไตล์ใดบ้างที่แนะนำเมื่อพูดถึงการนำเสนอกราฟให้กับผู้ชมจำนวนมากด้วยเครื่องฉายแสงหรือไม่?

2
ความเป็นอิสระของสารตกค้างในการทดสอบ / จำลองทางคอมพิวเตอร์?
ฉันทำการประเมินทางคอมพิวเตอร์โดยใช้วิธีการที่แตกต่างกันของการปรับแบบจำลองที่ใช้ในวิทยาศาสตร์ Palaeo ฉันมีชุดฝึกอบรมแบบ ish ขนาดใหญ่ดังนั้นฉันจึงสุ่ม (ชุดชั้นในแบบสุ่มแบ่งชั้น) แล้ววางชุดทดสอบ ผมติดตั้งวิธีการแตกต่างกันไปตัวอย่างการฝึกอบรมชุดและการใช้ม.ส่งผลให้รูปแบบที่ผมคาดการตอบสนองสำหรับตัวอย่างการทดสอบชุดและคำนวณ RMSEP มากกว่ากลุ่มตัวอย่างที่อยู่ในชุดทดสอบ นี้เป็นหนึ่งในการทำงานม.ม.mม.ม.m ฉันทำกระบวนการนี้ซ้ำหลายครั้งทุกครั้งที่ฉันเลือกชุดฝึกอบรมที่แตกต่างกันโดยการสุ่มตัวอย่างชุดทดสอบใหม่ หลังจากทำสิ่งนี้แล้วฉันต้องการตรวจสอบว่าวิธีใดวิธีมีประสิทธิภาพ RMSEP ที่ดีขึ้นหรือแย่ลง ฉันต้องการเปรียบเทียบวิธีการจับคู่แบบฉลาด ๆม.ม.m วิธีการของฉันได้รับเพื่อให้พอดีกับผลกระทบที่ผสม (LME) รูปแบบเชิงเส้นที่มีผลกระทบสุ่มเดียวสำหรับการเรียกใช้ ฉันใช้lmer()จากแพ็คเกจlme4เพื่อให้พอดีกับรุ่นและฟังก์ชั่นของฉันจากแพ็คเกจmultcompเพื่อทำการเปรียบเทียบหลายอย่าง แบบจำลองของฉันเป็นหลัก lmer(RMSEP ~ method + (1 | Run), data = FOO) ที่methodบ่งชี้วิธีการที่ถูกนำมาใช้ในการสร้างแบบจำลองพยากรณ์สำหรับชุดทดสอบและRunเป็นตัวบ่งชี้สำหรับแต่ละโดยเฉพาะอย่างยิ่งการเรียกของ "ทดลอง" ของฉัน คำถามของฉันเกี่ยวกับส่วนที่เหลือของ LME ให้ผลแบบสุ่มเดียวสำหรับRunฉันสมมติว่าค่า RMSEP สำหรับการทำงานนั้นมีความสัมพันธ์กับระดับหนึ่ง แต่ไม่เกี่ยวข้องระหว่างการวิ่งบนพื้นฐานของความสัมพันธ์ที่ชักนำให้เกิดผลแบบสุ่ม ข้อสันนิษฐานเกี่ยวกับความเป็นอิสระระหว่างการรันนี้มีผลหรือไม่? หากไม่มีวิธีที่จะอธิบายสิ่งนี้ในโมเดล LME หรือฉันควรมองหาการวิเคราะห์ทางสถิติประเภทอื่นเพื่อตอบคำถามของฉัน?

1
pdf ของผลิตภัณฑ์ของตัวแปรสุ่มอิสระสองตัวคือปกติและไคสแควร์
pdf ของผลิตภัณฑ์ของตัวแปรสุ่มอิสระ X และ Y คืออะไรหาก X และ Y เป็นอิสระ X คือการแจกแจงแบบปกติและ Y เป็นการแจกแจงแบบไคสแควร์ Z = XY ถ้าXXXมีการแจกแจงปกติX∼N(μx,σ2x)X∼N(μx,σx2)X\sim N(\mu_x,\sigma_x^2) fX(x)=1σx2π−−√e−12(x−μxσx)2fX(x)=1σx2πe−12(x−μxσx)2f_X(x)={1\over\sigma_x\sqrt{2\pi}}e^{-{1\over2}({x-\mu_x\over\sigma_x})^2} และYYYมีการกระจาย Chi-square กับkkkระดับของเสรีภาพ Y∼χ2kY∼χk2Y\sim \chi_k^2 fY(y)=y(k/2)−1e−y/22k/2Γ(k2)u(y)fY(y)=y(k/2)−1e−y/22k/2Γ(k2)u(y)f_Y(y)={y^{(k/2)-1}e^{-y/2}\over{2^{k/2}\Gamma({k\over2})}}u(y) whreu(y)u(y)u(y)เป็นฟังก์ชั่นหน่วยขั้นตอน ทีนี้ pdf ของคืออะไรถ้าXและYเป็นอิสระ?ZZZXXXYYY วิธีหนึ่งในการหาคำตอบคือใช้ผลลัพธ์ที่รู้จักกันดีของ Rohatgi (1976, p.141) หากเป็น pdf ร่วมของXและYของ RV ต่อเนื่อง, ไฟล์ PDF ของZคือ f Z ( z ) = ∫ ∞ …

3
แบบจำลองผลกระทบผสมทวินามลบที่ไม่พองศูนย์ใน R
มีแพ็คเกจดังกล่าวที่ให้การประมาณค่าแบบจำลองผลกระทบผสมทวินามลบศูนย์ใน R หรือไม่? โดยที่ฉันหมายถึง: Zero-inflation ที่คุณสามารถระบุรูปแบบทวินามสำหรับศูนย์เงินเฟ้อเช่นในฟังก์ชัน zeroinfl ในแพ็คเกจ pscl: zeroinfl (y ~ X | Z, dist = "negbin") โดยที่ Z คือสูตรสำหรับตัวแบบเงินเฟ้อศูนย์ การแจกแจงทวินามลบสำหรับส่วนการนับของโมเดล เอฟเฟกต์สุ่มที่ระบุคล้ายกับฟังก์ชัน lmer ของแพ็คเกจ lme4 ฉันเข้าใจว่า glmmADMB สามารถทำสิ่งนั้นได้ทั้งหมดยกเว้นสูตรสำหรับอัตราเงินเฟ้อที่เป็นศูนย์ไม่สามารถระบุได้ (เป็นเพียงการสกัดกั้นนั่นคือ Z คือเพียง 1) แต่มีแพ็คเกจอื่นที่สามารถทำได้ทั้งหมดหรือไม่ ฉันจะขอบคุณมากสำหรับความช่วยเหลือของคุณ!

2
ทางเลือกในการแปลงตะแกรง / โมเสคสำหรับตารางฉุกเฉิน
ครั้งหนึ่งฉันเคยเจอพล็อตประเภทหนึ่งสำหรับข้อมูลเชิงหมวดหมู่ (เช่นตารางฉุกเฉิน) บนอินเทอร์เน็ตซึ่งฉันชอบจริง ๆ แต่ฉันไม่เคยพบมันอีกเลยและไม่รู้ด้วยซ้ำว่าเป็นชื่ออะไร มันเป็นเหมือนพล็อตตะแกรงโดยที่ความสูงของแถวและความกว้างของคอลัมน์นั้นถูกปรับสัดส่วนเมื่อเทียบกับความน่าจะเป็นที่ขอบ ดังนั้นแต่ละกล่องจะถูกปรับสัดส่วนให้สอดคล้องกับความถี่สัมพัทธ์ที่คาดหวังภายใต้ความเป็นอิสระ อย่างไรก็ตามมันแตกต่างจากพล็อตตะแกรงในที่นั้นแทนที่จะพล็อตการฟักข้ามในแต่ละกล่องมันพล็อตจุด (เช่นใน scatterplot) ที่ตำแหน่งสุ่มเลือกจากชุด bivariate สำหรับการสังเกตแต่ละครั้ง ด้วยวิธีนี้ความหนาแน่นของคะแนนจะแสดงให้เห็นว่าการนับที่สังเกตได้นั้นตรงกับจำนวนที่คาดหวังมากเพียงใด นั่นคือถ้าความหนาแน่นมีความคล้ายคลึงกันในทุกช่องโมเดลแบบ null นั้นสมเหตุสมผล ) อาจไม่น่าเป็นไปได้มากนักภายใต้โมเดลว่าง เนื่องจากมีการพล็อตจุดแทนการฟักไข่จึงมีความสอดคล้องและเข้าใจง่ายระหว่างองค์ประกอบการวางแผนและการนับที่สังเกตซึ่งไม่จำเป็นต้องเป็นจริงสำหรับแปลงตะแกรง (ดูด้านล่าง) ยิ่งไปกว่านั้นการวางตำแหน่งของคะแนนแบบสุ่มให้ความรู้สึก 'อินทรีย์' นอกจากนี้สีสามารถใช้เพื่อเน้นกล่อง / เซลล์ที่แตกต่างอย่างมากจากตัวแบบ null และพล็อตเมทริกซ์สามารถใช้เพื่อตรวจสอบความสัมพันธ์แบบคู่ระหว่างตัวแปรต่าง ๆ มากมายดังนั้นจึงสามารถรวมข้อดีของพล็อตที่คล้ายกัน ฉัน, Jผม,Ji,j ไม่มีใครรู้ว่าพล็อตนี้เรียกว่าอะไร? มีแพ็คเกจ / ฟังก์ชั่นที่จะทำสิ่งนี้ได้อย่างง่ายดายใน R หรือซอฟต์แวร์อื่น ๆ (เช่น Mondrian)? ฉันไม่สามารถหาอะไรเช่นนั้นในซีดี แน่นอนว่ามันยากที่จะเขียนโค้ดตั้งแต่เริ่มต้น แต่นั่นอาจเป็นความเจ็บปวด นี่เป็นตัวอย่างง่ายๆของพล็อตตะแกรงสังเกตว่ามันง่ายที่จะเห็นว่าจำนวนนับที่คาดไว้สำหรับหมวดหมู่ที่แตกต่างกันควรเล่นในรูปแบบ null แต่ยากที่จะกระทบยอดฟักข้ามกับตัวเลขจริงทำให้พล็อตที่ไม่ใช่ค่อนข้างง่ายต่อการอ่านและน่ารังเกียจ: B ~B A …

1
มีวิธีการที่แข็งแกร่งจริง ๆ ดีกว่า?
ฉันมีสองกลุ่มวิชา A และ B แต่ละกลุ่มมีขนาดประมาณ 400 และประมาณ 300 ตัวทำนาย เป้าหมายของฉันคือการสร้างแบบจำลองการทำนายสำหรับตัวแปรการตอบสนองแบบไบนารี ลูกค้าของฉันต้องการเห็นผลของการใช้แบบจำลองที่สร้างขึ้นจาก A บน B (ในหนังสือของเขาที่ชื่อว่า "กลยุทธ์การสร้างแบบจำลองการถดถอย" @ Frankankarrell กล่าวว่าดีกว่าที่จะรวมชุดข้อมูลสองชุดและสร้างแบบจำลองบนนั้น พลังและความแม่นยำ --- ดูหน้า 90, การตรวจสอบความถูกต้องภายนอกฉันมักจะเห็นด้วยกับเขาโดยพิจารณาว่าการรวบรวมประเภทข้อมูลที่ฉันมีมีราคาแพงมากและใช้เวลานาน แต่ฉันไม่มีทางเลือกเกี่ยวกับสิ่งที่ลูกค้าต้องการ .) ตัวทำนายของฉันหลายคนมีความสัมพันธ์สูงและเบ้มาก ฉันใช้การถดถอยโลจิสติกเพื่อสร้างแบบจำลองการทำนายของฉัน นักทำนายของฉันส่วนใหญ่มาจากกลศาสตร์ ยกตัวอย่างเช่นเวลารวมเรื่องที่อยู่ภายใต้ความเครียดสูงกว่าเกณฑ์สำหรับช่วงเวลาสำหรับค่าต่างๆของและ&lt;t_2 เป็นที่ชัดเจนว่าจากคำจำกัดความของพวกเขาหลายครั้งรวมกันเกี่ยวกับพีชคณิตซึ่งกันและกัน ผู้ทำนายหลายคนที่ไม่เกี่ยวข้องกับพีชคณิตมีความเกี่ยวข้องเนื่องจากลักษณะของพวกเขา: วัตถุที่อยู่ภายใต้ความเครียดสูงในช่วงเวลามักจะอยู่ภายใต้ความเครียดสูงในช่วงเวลาแม้ว่าαα\alpha[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2]α &gt; 0α&gt;0\alpha > 00 ≤ t1&lt; t20≤เสื้อ1&lt;เสื้อ20 \leq t_1 < t_2[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2][ …

3
ตัวแปรที่ต่อเนื่องขึ้นอยู่กับตัวแปรอิสระลำดับ
ด้วยตัวแปรy ที่ขึ้นต่อเนื่องและตัวแปรอิสระรวมถึงตัวแปรลำดับX 1ฉันจะพอดีกับตัวแบบเชิงเส้นได้Rอย่างไร? มีเอกสารเกี่ยวกับรูปแบบประเภทนี้หรือไม่?

3
จะประมาณค่าได้อย่างไรเมื่อมีเพียงสถิติสรุปเท่านั้น
นี่เป็นส่วนหนึ่งที่ได้รับแรงบันดาลใจจากคำถามต่อไปนี้และการสนทนาที่ตามมา สมมติว่าตัวอย่าง IID สังเกตXi∼F(x,θ)Xi∼F(x,θ)X_i\sim F(x,\theta) ) เป้าหมายคือการประมาณการθθθ\thetaแต่ตัวอย่างดั้งเดิมไม่สามารถใช้ได้ สิ่งที่เรามีแทนสถิติของกลุ่มตัวอย่างบางT1,...,TkT1,...,TkT_1,...,T_k . สมมติว่าkkkได้รับการแก้ไข เราจะประมาณθθ\thetaอย่างไร ในกรณีนี้การประมาณความน่าจะเป็นสูงสุดคืออะไร?

3
การใช้การถดถอยของสันเขา: การเลือกกริดอัจฉริยะสำหรับ ?
ฉันกำลังใช้ Ridge Regression ในโมดูล Python / C และฉันเจอปัญหา "น้อย" นี้ แนวคิดก็คือฉันต้องการตัวอย่างองศาอิสระที่มีประสิทธิภาพมากกว่าหรือน้อยกว่าระยะห่างเท่ากัน (เช่นพล็อตในหน้า 65 ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" ) เช่นตัวอย่าง: ที่เป็นค่าลักษณะเฉพาะของเมทริกซ์จากเพื่อ P วิธีง่ายๆในการตั้งค่าขีด จำกัด แรกคือให้ (สมมติว่า\ lambda _ {\ max} \ gg d_i ^ 2 ) โดยที่cdf(λ)=∑i=1pd2id2i+λ,df(λ)=∑i=1pdi2di2+λ,\mathrm{df}(\lambda)=\sum_{i=1}^{p}\frac{d_i^2}{d_i^2+\lambda},d2idi2d_i^2XTXXTXX^TXdf(λmax)≈0df(λmax)≈0\mathrm{df}(\lambda_{\max})\approx 0df(λmin)=pdf(λmin)=p\mathrm{df}(\lambda_{\min})=pλmax=∑pid2i/cλmax=∑ipdi2/c\lambda_{\max}=\sum_i^p d_i^2/cλmax≫d2iλmax≫di2\lambda_{\max} \gg d_i^2cccเป็นค่าคงที่ขนาดเล็กและแสดงถึงระดับอิสระขั้นต่ำที่คุณต้องการสุ่มตัวอย่าง (เช่นc=0.1c=0.1c=0.1 ) ขีด จำกัด ที่สองเป็นของหลักสูตรλmin=0λmin=0\lambda_{\min}=0 0 ตามชื่อเรื่องแล้วฉันต้องตัวอย่างλλ\lambdaจากλminλmin\lambda_{\min}ถึงλmaxλmax\lambda_{\max}ในระดับหนึ่งซึ่งdf(λ)df(λ)\mathrm{df}(\lambda)ถูกสุ่มตัวอย่าง (โดยประมาณ) พูดใน0.10.10.1ช่วงจากcccถึงppp ... มีวิธีง่ายๆในการทำเช่นนี้หรือไม่? ฉันคิดว่าการแก้สมการdf(λ)df(λ)\mathrm{df}(\lambda)สำหรับแต่ละλλ\lambdaโดยใช้วิธี …

6
ตรวจสอบคุณสมบัติความจำของลูกโซ่มาร์คอฟ
ฉันสงสัยว่าชุดลำดับที่สังเกตเป็นห่วงโซ่มาร์คอฟ ... X=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AAD⋮BCA⋮E⎞⎠⎟⎟⎟⎟X=(ACDDBACBAACADA⋮⋮⋮⋮⋮⋮⋮BCADABE)X=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&D &A\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & E\\ \end{array}\right) แต่วิธีการที่ฉันสามารถตรวจสอบว่าพวกเขาแน่นอนเคารพความจำทรัพย์สินของP(Xi=xi|Xj=xj)?P(Xi=xi|Xj=xj)?P(X_i=x_i|X_j=x_j)? หรืออย่างน้อยที่สุดก็พิสูจน์ว่าพวกเขาเป็นมาร์คอฟในธรรมชาติ? หมายเหตุเหล่านี้เป็นลำดับสังเกตสังเกตุ ความคิดใด ๆ แก้ไข เพียงเพื่อเพิ่มจุดมุ่งหมายคือการเปรียบเทียบชุดลำดับที่คาดการณ์จากคนที่สังเกต ดังนั้นเราขอขอบคุณความคิดเห็นเกี่ยวกับวิธีที่ดีที่สุดในการเปรียบเทียบสิ่งเหล่านี้ เมทริกซ์การเปลี่ยนลำดับที่หนึ่งMij=xij∑mxikMij=xij∑mxikM_{ij}=\displaystyle \frac{x_ij}{\sum^mx_{ik}}โดยที่ m = A..E ระบุ M=⎛⎝⎜⎜⎜⎜⎜⎜0.18340.46970.18270.23780.24580.30770.11360.24040.18180.17880.07690.00760.22120.06290.11730.14790.25000.19230.33570.17880.28400.15910.16350.18180.2793⎞⎠⎟⎟⎟⎟⎟⎟M=(0.18340.30770.07690.14790.28400.46970.11360.00760.25000.15910.18270.24040.22120.19230.16350.23780.18180.06290.33570.18180.24580.17880.11730.17880.2793) M=\left(\begin{array}{c …


4
หนึ่งกราฟจะแสดงผลลัพธ์ของการจัดอันดับแบบอัตนัยได้อย่างไร
ฉันกำลังมองหาวิธีที่จะเห็นภาพการจัดอันดับอัตนัยแยกจากการทดสอบที่ไม่ใช่พารามิเตอร์ของฉัน ฉันขอให้ผู้เข้าร่วม 12 คนจัดอันดับ 8 รายการที่แตกต่างกันตามเกณฑ์ความรู้สึกส่วนตัวที่แตกต่างกัน (จัดอันดับแยกกันสำหรับแต่ละรายการ) สำหรับการจัดอันดับชุดใด ๆ ฉันกำลังมองหาวิธีที่ดีในการมองเห็นแนวโน้มระดับสูงของการจัดอันดับ ฉันได้ลองทั้งบาร์และเรดาร์ในการจัดอันดับโดยเฉลี่ยและฉันเห็นคนอีกคนหนึ่งใช้พล็อตกระจาย / บอลลูนมากกว่าจำนวนการตอบสนองต่ออันดับ แต่ฉันไม่แน่ใจว่าสิ่งใดที่สื่อถึงภาพรวมที่ดีที่สุด ฉันสามารถใช้การจัดอันดับค่าเฉลี่ย 8 หรือการนับ 8 ของการจัดอันดับต่อรายการ แก้ไข: ตัวอย่างเช่น: แต่ละคอลัมน์เป็นรายการแต่ละแถวเป็นการจัดอันดับของแต่ละคนในแปดรายการ ไม่ใช่ข้อตกลงที่แข็งแกร่งเป็นพิเศษในตัวอย่างนี้ แต่โดยทั่วไปต้องการเข้าใจวิธีที่ดีที่สุดในการถ่ายทอดแนวโน้มโดยรวม Item: A B C D E F G H Rater: 1 6 8 1 7 3 4 2 5 2 1 3 8 7 6 5 …

2
บ่อยและนักบวช
Robby McKilliam พูดในความคิดเห็นในโพสต์นี้ : ควรชี้ให้เห็นว่าจากมุมมองของผู้ใช้บ่อยไม่มีเหตุผลที่คุณไม่สามารถรวมความรู้ก่อนหน้านี้เข้ากับโมเดลได้ ในแง่นี้มุมมองที่ใช้บ่อยจะง่ายกว่าคุณมีเพียงรุ่นและข้อมูลบางส่วนเท่านั้น ไม่จำเป็นต้องแยกข้อมูลก่อนหน้าออกจากตัวแบบ นอกจากนี้ที่นี่ @jbowman บอกว่าผู้ใช้บ่อยใช้การทำให้เป็นมาตรฐานโดยฟังก์ชั่นค่าใช้จ่าย / การลงโทษในขณะที่ชาวเบย์สามารถทำสิ่งนี้ได้ก่อน: ผู้ใช้บ่อยตระหนักว่าการทำให้เป็นมาตรฐานนั้นดีและใช้กันอย่างแพร่หลายในทุกวันนี้และนักบวชแบบเบย์สามารถตีความได้อย่างง่ายดายว่าเป็นการทำให้เป็นระเบียบ ดังนั้นคำถามของฉันคือผู้ใช้งานทั่วไปสามารถรวมรูปแบบของสิ่งที่ Bayesians ระบุว่าเป็นนักบวชได้หรือไม่? ยกตัวอย่างเช่นการทำให้เป็นมาตรฐานฟังก์ชั่นค่าใช้จ่าย / การลงโทษได้รวมเข้ากับแบบจำลองจริง ๆ หรือนี่คือวิธีการที่แท้จริงในการปรับแก้ปัญหา (รวมถึงทำให้เป็นเอกลักษณ์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.