สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
เมื่อเกิน / ต่ำกว่าการสุ่มตัวอย่างคลาสที่ไม่สมดุลการเพิ่มความแม่นยำจะแตกต่างจากการลดค่าใช้จ่ายในการจำแนกประเภทหรือไม่?
ครั้งแรกของทั้งหมดผมอยากจะอธิบายรูปแบบบางอย่างร่วมกันว่าหนังสือการทำเหมืองข้อมูลที่ใช้อธิบายวิธีการจัดการกับสมดุลชุดข้อมูล โดยทั่วไปส่วนหลักจะมีชื่อว่าชุดข้อมูลที่ไม่สมดุลและครอบคลุมส่วนย่อยทั้งสองนี้: การจำแนกประเภทที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง ดูเหมือนว่าการเผชิญหน้ากับปัญหาในชั้นเรียนที่หายากคุณสามารถทำการจำแนกและการสุ่มตัวอย่างที่มีความอ่อนไหวด้านราคา ฉันคิดว่าควรใช้เทคนิคที่มีความอ่อนไหวด้านต้นทุนหากคลาสที่หายากนั้นเป็นเป้าหมายของการจัดหมวดหมู่และการจัดประเภทที่ไม่ถูกต้องของบันทึกของคลาสนั้นนั้นมีค่าใช้จ่ายสูง ในทางกลับกันเทคนิคการสุ่มตัวอย่างเช่นการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำกว่าจะมีประโยชน์หากเป้าหมายของการจัดหมวดหมู่นั้นมีความแม่นยำโดยรวมที่ดี ความเชื่อนี้มาจากเหตุผลของMetaCostซึ่งเป็นวิธีทั่วไปในการทำให้ลักษณนามมีความอ่อนไหวต่อต้นทุน: หากใครต้องการทำให้ลักษณนามมีความอ่อนไหวต่อราคาเพื่อที่จะลงโทษข้อผิดพลาดของคลาสที่หายาก . ลักษณนามพูดอย่างลวก ๆ พยายามที่จะปรับให้เข้ากับชั้นเรียนอื่นและมันจะกลายเป็นเฉพาะกับชั้นเรียนที่หายาก นี่คือสิ่งที่ตรงกันข้ามกับการสุ่มตัวอย่างของคลาสที่หายากซึ่งเป็นวิธีที่มักจะแนะนำเพื่อจัดการกับปัญหานี้ การสุ่มตัวอย่างของคลาสที่หายากหรือการสุ่มตัวอย่างต่ำกว่าคลาสอื่นนั้นมีประโยชน์ในการปรับปรุงความแม่นยำโดยรวม ได้โปรดจะดีถ้าคุณยืนยันความคิดของฉัน ระบุสิ่งนี้คำถามทั่วไปที่เผชิญกับชุดข้อมูลที่ไม่สมดุลคือ: ฉันควรจะลองชุดข้อมูลที่นับว่าเป็นระเบียนที่หายากมากที่สุด คำตอบของฉันคือในกรณีที่คุณกำลังมองหาความแม่นยำ: ตกลง คุณสามารถทำได้ทั้งค้นหาตัวอย่างคลาสที่หายากมากขึ้นหรือลบบางระเบียนของคลาสอื่น ในกรณีที่คุณกำลังมุ่งเน้นไปที่คลาสที่หายากด้วยเทคนิคที่มีความอ่อนไหวด้านต้นทุนฉันจะตอบว่า: คุณสามารถหาตัวอย่างคลาสที่หายากได้มากขึ้นเท่านั้น แต่คุณไม่ควรลบระเบียนของคลาสอื่น ในกรณีหลังคุณจะไม่สามารถปล่อยให้ตัวจําแนกปรับให้เข้ากับชั้นเรียนอื่นและข้อผิดพลาดการจำแนกคลาสที่หายากอาจเพิ่มขึ้น คุณจะตอบอย่างไร

4
วิธีแยกบริบททางสถิติ
ประการแรกฉันคิดว่าไม่ใช่สมาชิกที่ทำงานอยู่ในไซต์ที่น่าสนใจนี้ทั้งหมดเป็นนักสถิติ มิฉะนั้นคำถามที่ถูกถามดังนี้ไม่มีเหตุผลใด ๆ ! ฉันเคารพพวกเขาแน่นอน แต่ฉันต้องการคำอธิบายที่ใช้งานได้มากกว่าแนวความคิด ฉันเริ่มต้นด้วยตัวอย่างจากWikipediaเพื่อกำหนดpoint process: ให้ S เป็นพื้นที่ขนาดกะทัดรัดที่นับได้ในพื้นที่ Hausdorff ที่สองซึ่งติดตั้ง Borel σ-algebra B (S) เขียนสำหรับชุดของการนับจำนวน จำกัด เฉพาะที่บน S และNสำหรับพีชคณิต smallest ที่เล็กที่สุดในNที่แสดงผลทุกจุดนับ ... วัดได้NN\mathfrak{N}NN\mathcal{N}NN\mathfrak{N} สำหรับฉันแล้วมันไม่มีความหมาย คำอธิบายในบริบททางวิศวกรรมเป็นที่เข้าใจมากขึ้นสำหรับฉัน ความคิดเห็น:ส่วนใหญ่ฉันพบว่าคำอธิบายของ Wikipedia ไร้ประโยชน์เนื่องจากข้อความที่ซับซ้อนคล้ายกัน(อย่างน้อยสำหรับฉัน) จากประสบการณ์ของฉันมีหนังสืออ้างอิงเพียงสองประเภทสำหรับสถิติ: a)ง่ายมากข)ซับซ้อนมาก! การอ่านทั้งคู่ไม่มีประโยชน์สำหรับฉันเลย! คำถาม: คุณมีทางออกสำหรับปัญหานี้หรือไม่? หรือประสบการณ์ที่คล้ายกัน? สำหรับผู้ที่พบว่าโพสต์นี้มีประโยชน์มีประโยชน์ในการตรวจสอบด้วย: การอ้างอิงสำหรับการให้คำปรึกษานักสถิติเพื่อให้ลูกค้าซึ่งกล่าวถึงหัวข้อที่เกี่ยวข้องจากมุมมองที่แตกต่างกัน


8
อะไรคือ“ อัลกอริธึมร้อนแรง” สำหรับการเรียนรู้ของเครื่อง?
นี่เป็นคำถามที่ไร้เดียงสาจากคนที่เริ่มเรียนรู้การเรียนรู้ของเครื่อง ฉันกำลังอ่านหนังสือ "การเรียนรู้ของเครื่อง: มุมมองอัลกอริทึม" จากหนังสือเมื่อวานนี้ ฉันพบว่ามันมีประโยชน์ในฐานะหนังสือเกริ่นนำ แต่ตอนนี้ฉันอยากจะไปสู่อัลกอริธึมขั้นสูงผู้ที่ให้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ฉันส่วนใหญ่สนใจในชีวสารสนเทศศาสตร์: การรวมกลุ่มของเครือข่ายทางชีวภาพและการค้นหารูปแบบในลำดับทางชีวภาพโดยเฉพาะอย่างยิ่งนำไปใช้กับการวิเคราะห์นิวคลีโอไทด์ polymorphism (SNP) เดียว คุณช่วยแนะนำให้ฉันอ่านรีวิวหรือหนังสือได้ไหม?

2
มีความแตกต่างในวิธีการแบบเบย์และวิธี EDA เป็นประจำหรือไม่?
กล่าวอย่างง่ายมาก: มีความแตกต่างในวิธีการแบบเบย์และความถี่ในการวิเคราะห์ข้อมูลเชิงสำรวจหรือไม่? ฉันรู้ว่าไม่มีอคติโดยธรรมชาติในวิธีการ EDA เช่นเดียวกับฮิสโตแกรมคือฮิสโตแกรม, Scatterplot เป็น scatterplot, ฯลฯ และฉันไม่พบตัวอย่างของความแตกต่างในวิธีการสอนหรือนำเสนอ EDA (โดยไม่สนใจบทความเชิงทฤษฎีโดย A. Gelman) . ในที่สุดฉันดู CRAN ผู้ตัดสินทุกสิ่งที่นำไปใช้: ฉันไม่พบแพ็คเกจที่ปรับให้เข้ากับวิธีการแบบเบย์ อย่างไรก็ตามฉันคิดว่าประวัติย่ออาจมีบางคนที่สามารถแสดงความเห็นเกี่ยวกับเรื่องนี้ ทำไมต้องมีความแตกต่าง สำหรับผู้เริ่ม: เมื่อระบุการแจกแจงที่เหมาะสมก่อนใครควรตรวจสอบสิ่งนี้ด้วยตาเปล่าหรือไม่? เมื่อสรุปข้อมูลและแนะนำว่าควรใช้โมเดลประจำหรือ Bayesian EDA ไม่ควรแนะนำทิศทางใดให้ไป ทั้งสองวิธีมีความแตกต่างอย่างชัดเจนในวิธีการจัดการกับแบบจำลองการผสม การระบุว่าตัวอย่างที่น่าจะมาจากการผสมของประชากรนั้นมีความท้าทายและเกี่ยวข้องโดยตรงกับวิธีการที่ใช้ในการประมาณค่าพารามิเตอร์การผสม ทั้งสองวิธีรวมโมเดล Stochastic และการเลือกแบบจำลองนั้นมาจากการทำความเข้าใจข้อมูล ข้อมูลที่ซับซ้อนมากขึ้นหรือตัวแบบที่ซับซ้อนมากขึ้นทำให้ EDA มีเวลามากขึ้น ด้วยความแตกต่างดังกล่าวระหว่างโมเดล Stochastic หรือกระบวนการสร้างจึงมีความแตกต่างในกิจกรรม EDA ดังนั้นจึงไม่ควรมีความแตกต่างที่เกิดขึ้นจากวิธี Stochastic ที่แตกต่างกันใช่หรือไม่ หมายเหตุ 1: ฉันไม่ได้กังวลเกี่ยวกับปรัชญาของ "ค่าย" - ฉันต้องการพูดถึงช่องว่างใด ๆ ในชุดเครื่องมือและวิธีการ …

1
การตีความระยะทางจากไฮเปอร์เพลนใน SVM
ฉันมีข้อสงสัยเล็กน้อยในการทำความเข้าใจ SVMs อย่างสังหรณ์ใจ สมมติว่าเราได้ฝึกอบรมรูปแบบ SVM สำหรับการจำแนกประเภทโดยใช้เครื่องมือมาตรฐานบางอย่างเช่น SVMLight หรือ LibSVM เมื่อเราใช้แบบจำลองนี้เพื่อทำนายข้อมูลทดสอบแบบจำลองจะสร้างไฟล์ที่มีค่า "อัลฟา" สำหรับการทดสอบแต่ละจุด หากค่าอัลฟาเป็นค่าบวกจุดทดสอบเป็นของคลาส 1 มิฉะนั้นจะเป็นของคลาส 2 ทีนี้เราสามารถพูดได้หรือไม่ว่าจุดทดสอบที่มีค่า "อัลฟ่า" มากกว่านั้นเป็นของคลาสที่สอดคล้องกัน คล้ายกับคำถามแรกเมื่อเราได้รับการฝึกอบรม SVM SV อยู่ใกล้กับเครื่องบินมากเกินไป นั่นหมายความว่า SV อยู่ในชั้นเรียนนั้นด้วยความน่าจะเป็นสูงหรือไม่? เราสามารถเชื่อมโยงความน่าจะเป็นของจุดที่อยู่ในชั้นเรียนด้วยระยะทางจาก "ไฮเปอร์เพลน" ได้หรือไม่? ค่า "อัลฟา" แทนระยะห่างจาก "ไฮเปอร์เพล" หรือไม่? ขอบคุณสำหรับข้อมูลของคุณ

3
จะใช้ฟังก์ชันทดสอบ Levene ใน R ได้อย่างไร?
ฉันเป็นมือใหม่สำหรับสถิติและ R และฉันมีปัญหากับการใช้ฟังก์ชัน Levene (ฉันต้องการตรวจสอบความเท่าเทียมกันของความแปรปรวนของสองตัวอย่าง) เอกสารบอกว่าฉันควรจะทำงาน: levene.test (y, กลุ่ม) แต่ฉันไม่รู้ว่าควรใส่อะไรเป็นกลุ่ม y? ฉันมีสองตัวอย่างที่แตกต่างกันซึ่งฉันต้องการตรวจสอบความเท่าเทียมกันของความแปรปรวน ฉันควรใส่ค่าตัวอย่างหนึ่งค่าเป็น y และค่าที่สองเป็นพารามิเตอร์กลุ่มหรือไม่ คำใบ้ใด ๆ

3
วิธีการปรับขนาดไวโอลินสำหรับการเปรียบเทียบ?
ฉันกำลังพยายามวาดไวโอลินและสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดที่ยอมรับได้สำหรับการปรับขนาดพวกมันข้ามกลุ่มหรือไม่ นี่คือสามตัวเลือกที่ฉันได้ลองใช้mtcarsชุดข้อมูลR (Motor Trend Cars จากปี 1973 พบได้ที่นี่ ) ความกว้างเท่ากัน ดูเหมือนจะเป็นสิ่งที่กระดาษต้นฉบับ * ทำและสิ่งที่ R vioplotทำ ( ตัวอย่าง ) ดีสำหรับการเปรียบเทียบรูปร่าง พื้นที่ที่เท่าเทียมกัน ให้ความรู้สึกถูกต้องเนื่องจากแต่ละพล็อตเป็นพล็อตความน่าจะเป็นดังนั้นพื้นที่ของแต่ละอันควรเท่ากับ 1.0 ในพื้นที่ประสานงานบางแห่ง ดีสำหรับการเปรียบเทียบความหนาแน่นภายในแต่ละกลุ่ม แต่ดูเหมือนจะเหมาะสมกว่าหากมีการวางทับ พื้นที่ถ่วงน้ำหนัก ชอบพื้นที่เท่ากัน แต่ถ่วงน้ำหนักตามจำนวนการสังเกต 6 สูบค่อนข้างบางลงเนื่องจากมีรถยนต์น้อยกว่า ดีสำหรับการเปรียบเทียบความหนาแน่นข้ามกลุ่ม * พล็อตไวโอลิน: Synergis พล็อตกล่องความหนาแน่นของการติดตาม (DOI: 10.2307 / 2685478)

1
การสร้างค่าจากการแจกแจงแบบเกาส์หลายตัวแปร
ฉันกำลังพยายามที่จะจำลองค่าของNNNมิติตัวแปรสุ่มXXXที่มีการแจกแจงแบบปกติหลายตัวแปรที่มีค่าเฉลี่ยเวกเตอร์และความแปรปรวนเมทริกซ์Sμ=(μ1,...,μN)Tμ=(μ1,...,μN)T\mu = (\mu_1,...,\mu_N)^TSSS ผมหวังที่จะใช้วิธีการคล้ายกับวิธีการผกผัน CDF หมายความว่าผมต้องการที่จะเป็นครั้งแรกสร้างมิติเครื่องแบบตัวแปรสุ่มแล้วเสียบเข้าไปใน CDF ผกผันของการกระจายนี้เพื่อที่จะสร้างมูลค่าXNNNUUUXXX ฉันกำลังมีปัญหาเพราะขั้นตอนที่ไม่ได้เป็นเอกสารที่ดีและมีความแตกต่างเล็กน้อยระหว่างฟังก์ชั่น mvnrnd ใน MATLABและคำอธิบายที่ผมพบว่าในวิกิพีเดีย ในกรณีของฉันฉันเลือกพารามิเตอร์ของการแจกแจงแบบสุ่มด้วย โดยเฉพาะอย่างยิ่งผมสร้างแต่ละหมายความว่าจากการกระจายชุด(20,40) ฉันสร้างเมทริกซ์ความแปรปรวนร่วมSโดยใช้ขั้นตอนต่อไปนี้: U ( 20 , 40 )μiμi\mu_iU(20,40)U(20,40)U(20,40)SSS สร้างเมทริกซ์สามเหลี่ยมล่างที่โดยที่L ( i , i ) = 1สำหรับi = 1 .. NและL ( i , j ) = U ( - 1 , 1 )สำหรับ i < jLLLL(i,i)=1L(i,i)=1L(i,i) = …

2
การเลือกโมเดล Box-Jenkins
ขั้นตอนการคัดเลือกแบบจำลอง Box-Jenkins ในการวิเคราะห์อนุกรมเวลาเริ่มต้นขึ้นโดยดูที่ฟังก์ชันการหาค่าความสัมพันธ์และฟังก์ชั่นความสัมพันธ์แบบกึ่งอัตโนมัติบางส่วนของชุดข้อมูล พล็อตเหล่านี้สามารถแนะนำและqที่เหมาะสมในโมเดลARMA ( p , q ) ขั้นตอนดำเนินการต่อโดยขอให้ผู้ใช้ใช้เกณฑ์ AIC / BIC เพื่อเลือกแบบจำลองที่เป็นทางเลือกมากที่สุดในบรรดารุ่นที่สร้างแบบจำลองที่มีเงื่อนไขข้อผิดพลาดของสัญญาณรบกวนสีขาวพีพีpQQq( p , q)(พี,Q)(p,q) ฉันสงสัยว่าขั้นตอนเหล่านี้ของการตรวจสอบด้วยภาพและการเลือกแบบจำลองตามเกณฑ์นั้นมีผลต่อข้อผิดพลาดมาตรฐานโดยประมาณของรุ่นสุดท้ายอย่างไร ฉันรู้ว่าขั้นตอนการค้นหาจำนวนมากในโดเมนแบบตัดขวางอาจมีอคติข้อผิดพลาดมาตรฐานลดลงเช่น ในขั้นตอนแรกการเลือกจำนวนล่าช้าที่เหมาะสมโดยการดูข้อมูล (ACF / PACF) ส่งผลต่อข้อผิดพลาดมาตรฐานสำหรับรุ่นอนุกรมเวลาอย่างไร ฉันเดาว่าการเลือกรูปแบบตามคะแนน AIC / BIC จะมีผลกระทบคล้ายกับวิธีการแบบตัดขวาง จริง ๆ แล้วฉันไม่ทราบเกี่ยวกับพื้นที่นี้มากนักดังนั้นความคิดเห็นใด ๆ ก็จะได้รับการชื่นชมในจุดนี้เช่นกัน สุดท้ายหากคุณจดบันทึกเกณฑ์ที่แม่นยำซึ่งใช้สำหรับแต่ละขั้นตอนคุณสามารถบูตกระบวนการทั้งหมดเพื่อประเมินข้อผิดพลาดมาตรฐานและกำจัดข้อกังวลเหล่านี้ได้หรือไม่

2
ตัวอย่างการทำเหมืองข้อความด้วย R (แพ็คเกจ TM)
ฉันใช้เวลาสามวันกับเพื่อนtmหลังจากอ่านกระดาษร่างโดยเพื่อนที่เขาสำรวจคลังข้อความด้วย UCINET แสดงคลาวด์ข้อความกราฟเครือข่ายสองโหมดและการแยกย่อยค่าแบบเดี่ยว (พร้อมกราฟิกโดยใช้ Stata) ฉันทำงานภายใต้ปัญหาจำนวนมาก: ใน Mac OS X มีปัญหากับ Java ที่อยู่หลังไลบรารีเช่น Snowball (Stemming) หรือ Rgraphviz (กราฟ) สามารถชี้ให้คนที่ออกแพคเกจไม่ได้ - ผมมองที่tm, wordfishและwordscores, และความรู้เกี่ยวกับ NLTK - แต่การวิจัยถ้าเป็นไปได้ด้วยรหัสบนข้อมูลต้นฉบับเดิมที่ประสบความสำเร็จในการใช้tmหรือสิ่งอื่นใดในการวิเคราะห์ข้อมูลเช่นการอภิปรายของรัฐสภาหรือเอกสารนิติบัญญัติ? ฉันไม่สามารถค้นหาปัญหาได้มากนักและแม้แต่รหัสน้อยกว่าเพื่อเรียนรู้จาก โครงการของฉันคือการอภิปรายในรัฐสภาสองเดือนโดยมีตัวแปรเหล่านี้แจ้งไว้ในไฟล์ CSV: เซสชันรัฐสภาลำโพงกลุ่มรัฐสภาข้อความการแทรกแซงด้วยปากเปล่า ฉันกำลังมองหาความแตกต่างระหว่างลำโพงและโดยเฉพาะอย่างยิ่งระหว่างกลุ่มรัฐสภาในการใช้คำที่หายากและหายากน้อยเช่น "การพูดคุยด้านความปลอดภัย" กับ "การพูดคุยเสรีภาพ"
14 r  text-mining 

3
สร้างน้ำหนักที่กระจายอย่างสม่ำเสมอซึ่งรวมเป็นเอกภาพหรือไม่?
เป็นเรื่องปกติที่จะใช้ตุ้มน้ำหนักในการใช้งานเช่นการสร้างแบบจำลองการผสมและการรวมฟังก์ชั่นพื้นฐานเป็นเส้นตรง น้ำหนักwiwiw_iมักจะต้องเชื่อฟังwi≥wi≥w_i ≥ 0 และ 1 ฉันต้องการสุ่มเลือกเวกเตอร์น้ำหนักจากการกระจายเวกเตอร์ดังกล่าวอย่างสม่ำเสมอ∑iwi=1∑iwi=1\sum_{i} w_i=1w=(w1,w2,…)w=(w1,w2,…)\mathbf{w} = (w_1, w_2, …) อาจเป็นการดึงดูดให้ใช้โดยที่ U (0, 1) อย่างไรก็ตามตามที่กล่าวไว้ในความคิดเห็นด้านล่างการกระจายของ\ mathbf {w }ไม่เหมือนกันwi=ωi∑jωjwi=ωi∑jωjw_i = \frac{\omega_i}{\sum_{j} \omega_j}ωi∼ωi∼\omega_i \simww\mathbf{w} อย่างไรก็ตามเนื่องจากข้อ จำกัด∑iwi=1∑iwi=1\sum_{i} w_i=1ดูเหมือนว่ามิติของปัญหาคือn−1n−1n-1และควรจะเลือกww\mathbf{w}โดยเลือกพารามิเตอร์n−1n−1n-1ตาม การกระจายและการคำนวณ\ mathbf {w} ที่สอดคล้องกันww\mathbf{w}จากพารามิเตอร์เหล่านั้น (เพราะเมื่อมีการระบุน้ำหนักn−1n−1n-1น้ำหนักที่เหลือจะถูกกำหนดอย่างสมบูรณ์) ปัญหาดูเหมือนจะคล้ายกับปัญหาการเลือกจุดทรงกลม (แต่แทนที่จะเลือก 3 เวกเตอร์ที่ norm เป็นเอกภาพฉันต้องการเลือก -vector ซึ่ง norm เป็นเอกภาพ) n ℓ 1ℓ2ℓ2ℓ_2nnnℓ1ℓ1ℓ_1 ขอบคุณ!

1
วิธีการคำนวณข้อผิดพลาดการคาดการณ์ (ช่วงความมั่นใจ) สำหรับช่วงเวลาต่อเนื่อง?
ฉันมักจะต้องคาดการณ์ระยะเวลาในอนาคตในชุดข้อมูลรายเดือน สูตรพร้อมที่จะคำนวณช่วงความเชื่อมั่นที่อัลฟาสำหรับช่วงเวลาต่อไปในอนุกรมเวลา แต่สิ่งนี้ไม่รวมถึงวิธีการปฏิบัติในช่วงที่สองและที่สามเป็นต้น ฉันมองเห็นด้วยสายตาว่าหากการคาดการณ์ใด ๆ ถูกสร้างกราฟด้วยช่วงความเชื่อมั่นสูงและต่ำโดยทั่วไปช่วงเวลาเหล่านั้นควรเพิ่มขึ้นหรือลดลงเมื่อเทียบกับการคาดคะเนเฉลี่ยเนื่องจากความไม่แน่นอนคือแรงสะสม สมมติว่าฉันมียอดขายต่อหน่วยของเมษายน = 10 พฤษภาคม = 8 มิถุนายน = 11 กรกฎาคม = 13 และไม่มีบริบทอื่น ๆ เช่นข้อมูลตามฤดูกาลหรือข้อมูลประชากร เราจำเป็นต้องคาดการณ์ (แม้ว่าจะเป็นคนตาบอด) สิงหาคม, กันยายน, ตุลาคม คุณจะใช้วิธีใด และที่สำคัญที่นี่คุณจะวัดความเชื่อมั่นในเดือนกันยายนและตุลาคมได้อย่างไร ขออภัยที่อาจเป็นคำถามง่าย ๆ สำหรับผู้เชี่ยวชาญบางคน - ฉันขุดมาไกลเพื่อหาคำตอบที่ชัดเจนและฉันแน่ใจว่านี่เป็นสิ่งที่มือสมัครเล่นทุกคนอย่างที่ฉันชอบที่จะเข้าใจ

1
วิธีปรับแต่งการปรับให้เรียบใน mgcv GAM model
ฉันพยายามหาวิธีควบคุมพารามิเตอร์การปรับให้เรียบใน mgcv: แบบจำลอง gam ฉันมีตัวแปรทวินามฉันกำลังพยายามสร้างแบบจำลองเป็นฟังก์ชันหลักของพิกัด x และ y บนกริดคงที่รวมถึงตัวแปรอื่น ๆ ที่มีอิทธิพลน้อยกว่า ในอดีตฉันได้สร้างรูปแบบการถดถอยในท้องถิ่นที่ดีพอสมควรโดยใช้แพ็คเกจ locfit และค่า (x, y) อย่างไรก็ตามฉันต้องการลองรวมตัวแปรอื่น ๆ เข้ากับโมเดลและดูเหมือนว่าโมเดลเสริมทั่วไป (GAM) มีความเป็นไปได้ที่ดี หลังจากดูแพ็คเกจเกมและ mgcv ซึ่งทั้งสองอย่างมีฟังก์ชั่น GAM ฉันเลือกใช้หลังเนื่องจากมีความคิดเห็นจำนวนมากในเธรดรายการจดหมายดูเหมือนจะแนะนำ ข้อเสียอย่างหนึ่งก็คือดูเหมือนว่ามันจะไม่สนับสนุนการถดถอยในท้องถิ่นอย่างราบรื่นเช่นเหลืองหรือ locfit ในการเริ่มต้นฉันแค่ต้องการลองทำซ้ำประมาณโมเดล locfit โดยใช้เพียงพิกัด (x, y) ฉันลองด้วยการทำให้ผลิตภัณฑ์เรียบเนียนทั้งปกติและเทนเซอร์: my.gam.te <- gam(z ~ te(x, y), family=binomial(logit), data=my.data, scale = -1) my.gam.s <- gam(z ~ s(x, …
14 r  smoothing  mgcv 

3
หรือ
ไม่มีใครใช้L1L1L_1หรือL.5L.5L_.5ตัวชี้วัดสำหรับการจัดกลุ่มมากกว่าL2L2L_2 ? Aggarwal และคณะ, เกี่ยวกับพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูง กล่าวว่า (ในปี 2001) L1L1L_1เป็นที่นิยมมากกว่าอย่างต่อเนื่องจากนั้น Euclidean distance metro L2L2L_2สำหรับการใช้งานการขุดข้อมูลขนาดสูง และอ้างว่าL.5L.5L_.5หรือL.1L.1L_.1สามารถทำได้ดีกว่า เหตุผลในการใช้L1L1L_1หรือL.5L.5L_.5อาจเป็นเชิงทฤษฎีหรือเชิงทดลองเช่นความอ่อนไหวต่อค่าผิดปกติ / เอกสารของKabánหรือโปรแกรมที่ทำงานบนข้อมูลจริงหรือสังเคราะห์ (ทำซ้ำได้) ตัวอย่างหรือรูปภาพจะช่วยปรีชาของคนธรรมดาของฉัน คำถามนี้เป็นคำถามติดตามคำตอบบ๊อบ Durrant ไป เมื่อ-is-ใกล้ที่สุด-เพื่อนบ้านที่มีความหมายต่อวัน ดังที่เขากล่าวตัวเลือกของpppจะเป็นทั้งข้อมูลและแอพพลิเคชั่น อย่างไรก็ตามรายงานจากประสบการณ์จริงจะเป็นประโยชน์ หมายเหตุได้เพิ่มอังคาร 7 มิถุนายน: ฉันพบ "การวิเคราะห์ข้อมูลทางสถิติตาม L1-norm และวิธีการที่เกี่ยวข้อง", Dodge ed., 2002, 454p, is 37n 3764369205 - เอกสารการประชุมนับสิบ ทุกคนสามารถวิเคราะห์ความเข้มข้นของระยะทางสำหรับคุณสมบัติเด่นของ iid ได้หรือไม่? เหตุผลหนึ่งที่ทำให้เอ็กซ์โปเนนเชียลคือ ; อื่น (ไม่ใช่ผู้เชี่ยวชาญ) คือการกระจายสูงสุดของเอนโทรปี≥ 0; …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.