คำถามติดแท็ก large-data

'ข้อมูลขนาดใหญ่' หมายถึงสถานการณ์ที่จำนวนการสังเกต (จุดข้อมูล) มีขนาดใหญ่จนจำเป็นต้องเปลี่ยนแปลงวิธีการที่นักวิเคราะห์ข้อมูลคิดหรือดำเนินการวิเคราะห์ (เพื่อไม่ให้สับสนกับ 'ความมีมิติสูง')

12
ฉันจะแปลงข้อมูลที่ไม่เป็นลบรวมถึงศูนย์ได้อย่างไร
หากฉันมีข้อมูลในเชิงบวกอย่างมากฉันมักจะบันทึก แต่ฉันควรทำอย่างไรกับข้อมูลที่ไม่ใช่ค่าลบที่มีค่าเป็นศูนย์ที่เอียงอย่างมาก ฉันเห็นการเปลี่ยนแปลงสองอย่างที่ใช้: เข้าสู่ระบบ( x + 1 )log⁡(x+1)\log(x+1)ซึ่งมีคุณสมบัติเรียบร้อยที่ 0 แมปกับ 0 เข้าสู่ระบบ( x + c )log⁡(x+c)\log(x+c)โดยที่ c ถูกประมาณหรือตั้งค่าเป็นค่าบวกที่น้อยมาก มีวิธีอื่นอีกไหม? มีเหตุผลที่ดีไหมที่จะชอบวิธีการหนึ่งมากกว่าวิธีอื่น?

14
ชุดข้อมูลขนาดใหญ่ไม่เหมาะสมสำหรับการทดสอบสมมติฐานหรือไม่?
ในบทความล่าสุดของAmstat Newsผู้เขียน (Mark van der Laan และ Sherri Rose) ระบุว่า "เรารู้ว่าสำหรับกลุ่มตัวอย่างที่มีขนาดใหญ่เพียงพอทุกการศึกษารวมถึงที่สมมติฐานว่างเปล่าไม่มีผลจริง - จะประกาศ ผลกระทบอย่างมีนัยสำคัญทางสถิติ ". ฉันก็ไม่รู้เหมือนกัน มันเป็นเรื่องจริงเหรอ? หมายความว่าการทดสอบสมมติฐานไม่มีประโยชน์สำหรับชุดข้อมูลขนาดใหญ่หรือไม่?

5
ทักษะใดที่จำเป็นสำหรับการวิเคราะห์ทางสถิติขนาดใหญ่
งานสถิติหลายงานขอประสบการณ์กับข้อมูลขนาดใหญ่ ทักษะทางสถิติและการคำนวณประเภทใดที่จำเป็นสำหรับการทำงานกับชุดข้อมูลขนาดใหญ่ ตัวอย่างเช่นวิธีการสร้างแบบจำลองการถดถอยที่ให้ชุดข้อมูลที่มีตัวอย่าง 10 ล้านตัวอย่าง

7
อุตสาหกรรมเทียบกับความท้าทายของ Kaggle การรวบรวมการสังเกตเพิ่มเติมและการเข้าถึงตัวแปรเพิ่มเติมสำคัญกว่าการสร้างแบบจำลองแฟนซีหรือไม่
ฉันหวังว่าชื่อจะอธิบายได้ด้วยตนเอง ใน Kaggle ผู้ชนะส่วนใหญ่ใช้การสแต็คที่มีโมเดลพื้นฐานหลายร้อยครั้งเพื่อบีบ MSE เพิ่มอีกสองสาม% ความแม่นยำ ... โดยทั่วไปจากประสบการณ์ของคุณการสร้างแบบจำลองที่มีความสำคัญเช่นการวางซ้อน vs เพียงรวบรวมข้อมูลเพิ่มเติมและคุณสมบัติอื่น ๆ สำหรับข้อมูลหรือไม่

8
การสุ่มตัวอย่างเกี่ยวข้องในเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่
หรือมากกว่านั้น "มันจะเป็น"? ข้อมูลขนาดใหญ่ทำให้สถิติและความรู้ที่เกี่ยวข้องมีความสำคัญมากขึ้น แต่ดูเหมือนว่าจะมีผลต่อทฤษฎีการสุ่มตัวอย่าง ฉันเห็นโฆษณานี้ใน 'บิ๊กดาต้า' และไม่สามารถช่วยสงสัยได้ว่า "ทำไม" ฉันต้องการวิเคราะห์ทุกอย่าง ? ไม่มีเหตุผลสำหรับ "ทฤษฎีการสุ่มตัวอย่าง" ที่จะออกแบบ / นำมาใช้ / ประดิษฐ์ / ค้นพบหรือไม่? ฉันไม่เข้าใจการวิเคราะห์ 'ประชากร' ทั้งหมดของชุดข้อมูล เพียงเพราะคุณสามารถทำได้ไม่ได้หมายความว่าคุณควรจะ (ความโง่เขลาเป็นสิทธิพิเศษ แต่คุณไม่ควรละเมิด :) ดังนั้นคำถามของฉันคือสิ่งนี้: มีความเกี่ยวข้องทางสถิติในการวิเคราะห์ชุดข้อมูลทั้งหมดหรือไม่ สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือลดข้อผิดพลาดให้น้อยที่สุดหากคุณสุ่มตัวอย่าง แต่ค่าใช้จ่ายในการลดข้อผิดพลาดนั้นคุ้มหรือไม่ "คุณค่าของข้อมูล" คุ้มค่ากับความพยายามเวลาที่ต้องเสียไป ฯลฯ ในการวิเคราะห์ข้อมูลขนาดใหญ่บนคอมพิวเตอร์คู่ขนานขนาดใหญ่หรือไม่? แม้ว่าจะมีคนวิเคราะห์ประชากรทั้งหมดผลลัพธ์ก็น่าจะเดาได้ดีที่สุดโดยมีความน่าจะเป็นที่สูงขึ้น อาจจะสูงกว่าการสุ่มตัวอย่างเล็กน้อย (หรือมากกว่านั้นอีก) ความเข้าใจที่ได้จากการวิเคราะห์ประชากรกับการวิเคราะห์ตัวอย่างนั้นแตกต่างกันอย่างกว้างขวางหรือไม่? หรือเราควรยอมรับว่า "เวลามีการเปลี่ยนแปลง"? การสุ่มตัวอย่างเป็นกิจกรรมอาจมีความสำคัญน้อยลงหากให้พลังงานในการคำนวณที่เพียงพอ :) หมายเหตุ: ฉันไม่ได้พยายามที่จะเริ่มการโต้วาที แต่กำลังมองหาคำตอบที่จะเข้าใจว่าทำไมข้อมูลขนาดใหญ่ถึงทำในสิ่งที่มันทำ (เช่นวิเคราะห์ทุกอย่าง) และไม่สนใจทฤษฎีการสุ่มตัวอย่าง (หรือไม่?)

10
อัลกอริทึมที่ดีสำหรับการประมาณค่ามัธยฐานของชุดข้อมูลที่อ่านครั้งเดียวขนาดใหญ่คืออะไร?
ฉันกำลังมองหาอัลกอริทึมที่ดี (หมายถึงการคำนวณขั้นต่ำสุดข้อกำหนดด้านการจัดเก็บขั้นต่ำ) เพื่อประมาณค่ามัธยฐานของชุดข้อมูลที่ใหญ่เกินกว่าจะจัดเก็บได้เช่นว่าแต่ละค่าสามารถอ่านได้ครั้งเดียวเท่านั้น ไม่มีขอบเขตของข้อมูลที่สามารถสันนิษฐานได้ การประมาณนั้นดีตราบใดที่ทราบความแม่นยำ ตัวชี้ใด ๆ

10
Big Data คืออะไร
ฉันถูกถามคำถามหลายต่อหลายครั้ง: Big-Data คืออะไร ทั้งนักเรียนและญาติของฉันที่เก็บเรื่องปากต่อปากเกี่ยวกับสถิติและ ML ฉันพบโพสต์ CVนี้ และฉันรู้สึกว่าฉันเห็นด้วยกับคำตอบเดียวที่นั่น หน้าวิกิพีเดียยังมีความคิดเห็นบางอย่างกับมัน แต่ผมไม่แน่ใจว่าผมเห็นด้วยจริงๆกับทุกอย่างที่มี แก้ไข: (ผมรู้สึกว่าหน้าวิกิพีเดียขาดในการอธิบายวิธีการที่จะแก้ไขปัญหานี้และกระบวนทัศน์ที่ผมพูดถึงด้านล่าง) ฉันเพิ่งเข้าร่วมการบรรยายโดยEmmanuel Candèsซึ่งเขาได้แนะนำกระบวนทัศน์ Big-Data เป็น รวบรวมข้อมูลก่อนถามคำถามในภายหลัง⇒⇒\Rightarrow นี่คือความแตกต่างที่สำคัญจากการวิจัยที่ขับเคลื่อนด้วยสมมติฐานซึ่งคุณกำหนดสมมติฐานขึ้นมาก่อนแล้วจึงรวบรวมข้อมูลเพื่อพูดอะไรบางอย่างเกี่ยวกับมัน เขาเข้าไปมีส่วนร่วมในประเด็นการหาปริมาณความน่าเชื่อถือของสมมติฐานที่เกิดจากการสอดแนมข้อมูล สิ่งสำคัญที่ฉันนำออกมาจากการบรรยายของเขาคือเราต้องเริ่มควบคุมFDR จริง ๆและเขานำเสนอวิธีการน็อคออฟให้ทำเช่นนั้น ฉันคิดว่า CV ควรมีคำถามว่า Big-Data คืออะไรและคำจำกัดความของคุณคืออะไร ฉันรู้สึกว่ามี"คำจำกัดความ" ที่แตกต่างกันมากมายซึ่งเป็นการยากที่จะเข้าใจว่ามันคืออะไรหรืออธิบายให้ผู้อื่นทราบหากไม่มีมติทั่วไปเกี่ยวกับสิ่งที่มันประกอบด้วย ฉันรู้สึกว่า"คำนิยาม / กระบวนทัศน์ / คำอธิบาย" ที่จัดทำโดยCandèsเป็นสิ่งที่ใกล้เคียงที่สุดที่ฉันเห็นด้วยความคิดของคุณคืออะไร? แก้ไข 2:ฉันรู้สึกว่าคำตอบควรให้อะไรมากกว่าคำอธิบายของข้อมูลเอง มันควรเป็นการรวมกันของข้อมูล / วิธีการ / กระบวนทัศน์ แก้ไข 3:ฉันรู้สึกว่าการสัมภาษณ์กับ Michael Jordan นี้สามารถเพิ่มบางสิ่งลงในตารางได้เช่นกัน EDIT4:ฉันตัดสินใจเลือกคำตอบที่ได้รับการโหวตสูงสุดว่าเป็นคำตอบที่ถูกต้อง แม้ว่าฉันคิดว่าคำตอบทั้งหมดเพิ่มบางสิ่งบางอย่างในการสนทนาและฉันเองรู้สึกว่านี่เป็นคำถามของกระบวนทัศน์ของวิธีการที่เราสร้างสมมติฐานและทำงานกับข้อมูล ฉันหวังว่าคำถามนี้จะทำหน้าที่เป็นแหล่งอ้างอิงสำหรับผู้ที่กำลังมองหาข้อมูลขนาดใหญ่ …
44 large-data 

2
วิธีการสรุปที่ถูกต้องจาก "ข้อมูลขนาดใหญ่"?
"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน? ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้) คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ …

6
ขนาดผลเป็นสมมติฐานสำหรับการทดสอบอย่างมีนัยสำคัญ
วันนี้ที่สโมสรวารสารที่ผ่านการตรวจสอบความถูกต้องของไขว้ (ทำไมคุณไม่อยู่ที่นั่น?) @mbq ถาม: คุณคิดว่าพวกเรา (นักวิทยาศาสตร์ด้านข้อมูลสมัยใหม่) รู้หรือไม่ว่าความหมายสำคัญคืออะไร? และเกี่ยวข้องกับความมั่นใจในผลลัพธ์ของเราอย่างไร @ มิเชลตอบว่าบางคน (รวมถึงฉัน) มักจะทำ: ฉันค้นหาแนวคิดของความสำคัญ (ตามค่า p) มีประโยชน์น้อยลงเรื่อย ๆ เมื่อฉันทำงานต่อไป ตัวอย่างเช่นฉันสามารถใช้ชุดข้อมูลที่มีขนาดใหญ่มากดังนั้นทุกอย่างมีความสำคัญทางสถิติ ( p &lt; .01พี&lt;.01p<.01 ) นี่อาจเป็นคำถามที่งี่เง่า แต่ไม่ใช่ปัญหาที่การทดสอบสมมติฐานใช่หรือไม่ ถ้าคุณทดสอบสมมุติฐานว่าง "A เท่ากับ B" คุณก็รู้คำตอบคือ "ไม่" ชุดข้อมูลที่ใหญ่กว่าจะนำคุณเข้าใกล้ข้อสรุปที่แท้จริงอย่างหลีกเลี่ยงไม่ได้เท่านั้น ฉันเชื่อว่ามันคือเดมิงที่เคยยกตัวอย่างกับสมมติฐาน "จำนวนขนที่อยู่ทางด้านขวาของลูกแกะเท่ากับจำนวนขนที่อยู่ทางซ้าย" แน่นอนว่าไม่ใช่ สมมติฐานที่ดีกว่าคือ "A ไม่แตกต่างจาก B มากกว่ามาก" หรือในตัวอย่างเนื้อแกะ "จำนวนขนที่ด้านข้างของแกะไม่แตกต่างกันเกิน X%" มันสมเหตุสมผลหรือไม่

5
ชุดข้อมูลฟรีสำหรับการจำแนกมิติที่สูงมาก [ปิด]
อะไรคือข้อมูลที่มีอยู่ได้อย่างอิสระที่กำหนดไว้สำหรับการจัดหมวดหมู่ที่มีมากกว่า 1000 คุณสมบัติ (หรือจุดตัวอย่างถ้ามีเส้นโค้ง)? มีวิกิชุมชนเกี่ยวกับชุดข้อมูลฟรีอยู่แล้ว: การ ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ แต่ที่นี่จะเป็นการดีหากมีรายการที่เน้นที่สามารถใช้งานได้สะดวกยิ่งขึ้นนอกจากนี้ฉันขอเสนอกฎต่อไปนี้: หนึ่งโพสต์ต่อชุดข้อมูล ไม่มีลิงก์ไปยังชุดของชุดข้อมูล แต่ละชุดข้อมูลจะต้องเชื่อมโยงกับ ชื่อ (จะคิดออกว่ามันเป็นเรื่องเกี่ยว) และเชื่อมโยงไปยังชุดที่ (R ชุดข้อมูลสามารถตั้งชื่อที่มีชื่อแพคเกจ) จำนวนฟีเจอร์ (สมมติว่ามันคือp ) ขนาดของชุดข้อมูล (สมมุติว่ามันคือn ) และจำนวนเลเบล / คลาส (สมมติว่ามันคือk ) อัตราความผิดพลาดทั่วไปจากประสบการณ์ของคุณ (ระบุอัลกอริธึมที่ใช้เป็นคำ) หรือจากครอก (ในกรณีนี้ลิงก์กระดาษ)

3
การถดถอยพหุนามใช้ scikit เรียนรู้
ฉันพยายามใช้ scikit เรียนรู้สำหรับการถดถอยพหุนาม จากสิ่งที่ฉันอ่านการถดถอยพหุนามเป็นกรณีพิเศษของการถดถอยเชิงเส้น ฉันกำลังกระโดดนั่นอาจเป็นหนึ่งในโมเดลเชิงเส้นทั่วไปของ scikit สามารถกำหนดพารามิเตอร์เพื่อให้พอดีกับชื่อพหุนามคำสั่งที่สูงขึ้น แต่ฉันไม่เห็นตัวเลือกสำหรับการทำเช่นนั้น ฉันจัดการเพื่อใช้ Support Vector Regressor กับ poly kernel ซึ่งทำงานได้ดีกับชุดย่อยของข้อมูลของฉัน แต่ใช้เวลานานมากในการพอดีกับชุดข้อมูลที่มีขนาดใหญ่กว่าดังนั้นฉันยังต้องการค้นหาบางสิ่งได้เร็วขึ้น (แม้ว่าการซื้อขายจะมีความแม่นยำ) ฉันขาดอะไรบางอย่างชัดเจนที่นี่?

9
เครื่องมือซอฟต์แวร์สถิติและการขุดข้อมูลสำหรับการจัดการกับชุดข้อมูลขนาดใหญ่
ปัจจุบันฉันต้องวิเคราะห์ระเบียนประมาณ 20 ล้านรายการและสร้างแบบจำลองการทำนาย จนถึงตอนนี้ฉันได้ลอง Statistica, SPSS, RapidMiner และ R ในบรรดา Statistica เหล่านี้ดูเหมือนจะเหมาะสมที่สุดในการจัดการกับ data mining และส่วนต่อประสานผู้ใช้ RapidMiner นั้นมีประโยชน์มาก แต่ดูเหมือนว่า Statistica, RapidMiner และ SPSS นั้นเหมาะสำหรับชุดข้อมูลขนาดเล็ก . ใครช่วยแนะนำเครื่องมือที่ดีสำหรับชุดข้อมูลขนาดใหญ่? ขอบคุณ!

1
การเรียนรู้ที่ล้ำสมัย
ฉันทำงานกับชุดข้อมูลขนาดใหญ่เมื่อเร็ว ๆ นี้และพบว่ามีเอกสารจำนวนมากเกี่ยวกับวิธีการสตรีม หากต้องการตั้งชื่อไม่กี่: Follow-the-Regularized-Leader และ Mirror Descent: Equalence Theorems และ L1 Normalization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) สตรีมการเรียนรู้: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) เพกาซัส: ซอฟท์แวร์ย่อย GrAdient โดยประมาณครั้งแรกสำหรับ SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf หรือที่นี่: SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่ สตรีมมิ่งป่าสุ่ม ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf ) อย่างไรก็ตามฉันไม่สามารถค้นหาเอกสารใด ๆ เกี่ยวกับวิธีเปรียบเทียบกับเอกสารอื่น ๆ ทุกบทความที่ฉันอ่านดูเหมือนจะทำการทดลองกับชุดข้อมูลที่แตกต่างกัน ฉันรู้เกี่ยวกับ sofia-ml, vowpal wabbit แต่ดูเหมือนว่าจะใช้วิธีการน้อยมากเมื่อเทียบกับวิธีการที่มีอยู่จำนวนมาก! อัลกอริธึมที่ใช้กันทั่วไปน้อยกว่านั้นมีประสิทธิภาพไม่เพียงพอหรือไม่? มีกระดาษพยายามทบทวนวิธีการให้มากที่สุดหรือไม่?

1
วิธีการมองเห็นตารางฉุกเฉินที่กระจัดกระจายอย่างมาก?
ฉันมีสองตัวแปร: ชื่อยา (DN) และเหตุการณ์ไม่พึงประสงค์ที่เกี่ยวข้อง (AE) ที่เกี่ยวข้องซึ่งมีความสัมพันธ์แบบกลุ่มต่อกลุ่ม ชื่อยา 33,556 รายการและเหตุการณ์ไม่พึงประสงค์ 9,516 รายการ ขนาดตัวอย่างประมาณ 5.8 ล้านข้อสังเกต ฉันต้องการศึกษาและเข้าใจความสัมพันธ์ / ความสัมพันธ์ระหว่าง DN และ AE ฉันกำลังคิดเกี่ยวกับวิธีการมองภาพชุดนี้ใน R เพราะจะดีกว่าที่จะดูรูปภาพ ฉันไม่แน่ใจว่าจะทำอย่างไร ...

3
ขั้นตอนแรกสำหรับข้อมูลขนาดใหญ่ ( , )
สมมติว่าคุณกำลังวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีการสังเกตการณ์นับพันล้านครั้งต่อวันซึ่งการสังเกตแต่ละครั้งมีตัวแปรเบาบางและตัวแปรเชิงซ้อนและตัวเลขซ้ำซ้อนสองพันรายการ สมมติว่ามีปัญหาการถดถอยหนึ่งปัญหาการจำแนกเลขฐานสองที่ไม่สมดุลและอีกหนึ่งภารกิจของ "ค้นหาว่าตัวทำนายใดที่สำคัญที่สุด" ความคิดของฉันสำหรับวิธีการแก้ไขปัญหาคือ: ติดตั้งโมเดลการทำนายบางอย่างกับกลุ่มตัวอย่างย่อยที่มีขนาดใหญ่ขึ้นและใหญ่ขึ้น (สุ่ม) จนกระทั่ง: การติดตั้งและตรวจสอบความถูกต้องของโมเดลกลายเป็นเรื่องยากในการคำนวณ (เช่นการใช้แล็ปท็อปของฉันช้าไม่มีเหตุผล R ไม่มีหน่วยความจำเหลือ ฯลฯ ) หรือ การฝึกอบรมและทดสอบ RMSE หรือค่าความแม่นยำ / การเรียกคืนมีความเสถียร หากข้อผิดพลาดในการฝึกอบรมและการทดสอบไม่คงที่ (1. ) ให้ใช้โมเดลที่ง่ายกว่าและ / หรือใช้โมเดลรุ่นมัลติคอร์หรือมัลติโหนดและรีสตาร์ทตั้งแต่ต้น หากการฝึกอบรมและการทดสอบข้อผิดพลาดเสถียร (2. ): หาก (เช่นฉันยังคงสามารถเรียกใช้อัลกอริทึมบนเนื่องจากยังไม่ใหญ่เกินไป) พยายามปรับปรุงประสิทธิภาพโดยการขยายพื้นที่ของฟีเจอร์หรือใช้โมเดลที่ซับซ้อนมากขึ้นและรีสตาร์ทตั้งแต่ต้นยังไม่มีข้อความs u b s e t≪ Nยังไม่มีข้อความsยูขsอีเสื้อ«ยังไม่มีข้อความN_{subset} \ll NXs u b s e tXsยูขsอีเสื้อX_{subset} หากเป็น 'ใหญ่' และการดำเนินการวิเคราะห์เพิ่มเติมนั้นมีค่าใช้จ่ายสูงให้วิเคราะห์ความสำคัญและสิ้นสุดของตัวแปรยังไม่มีข้อความs u b s …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.