ซอฟต์แวร์สำหรับการสำรวจข้อมูลที่เรียบง่าย แต่มีประสิทธิภาพ


20

ในความพยายามของฉันในการต่อสู้กับการทำร้ายร่างกายของสเปรดชีตฉันมักจะประกาศข่าวประเสริฐในการผลักดันเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นซอฟต์แวร์สถิติจริง (R, Stata และอื่น ๆ ) เมื่อเร็ว ๆ นี้ฉันถูกท้าทายในมุมมองนี้โดยคนที่ระบุว่าพวกเขาจะไม่เรียนรู้ที่จะทำรายการ ฉันต้องการมอบเครื่องมือวิเคราะห์ข้อมูลที่ไม่จำเป็นต้องมีการเขียนโปรแกรม (แต่เป็นการดีที่จะขยายการเขียนโปรแกรมหากพวกเขาตัดสินใจที่จะจุ่มนิ้วเท้าลงไปในน้ำในภายหลัง) มีแพ็คเกจอะไรบ้างสำหรับการสำรวจข้อมูลที่ฉันสามารถแนะนำได้อย่างตรงไปตรงมา?


5
@ gsk3 - คำถามที่น่าสนใจ ฉันคาดเดาว่า "programaphobe" นี้ไม่ต้องจัดการกับสเปรดชีตที่ซับซ้อนใช่ไหม บางทีเขา / เธอต้องการที่จะดำเนินชีวิตตามอุดมการณ์และอาสาสมัครของพวกเขาเพื่อทำงานอย่างหนักกับสเปรดชีตด้วยตัวเอง? :)
ความน่าจะเป็นทาง

@probabilityislogic: "programaphobe" จัดการกับพวกเขาเมื่อพวกเขาทำให้เกิดปัญหา แต่มีเคล็ดลับในการจัดการกับผลลัพธ์ทั้งหมด ฉันได้ลองใช้อาร์กิวเมนต์ anti-spread ชีทคลาสสิกเพื่อประโยชน์เล็กน้อย (ดีมีประโยชน์เพราะพวกเขายินดีพิจารณารูปแบบการแก้ปัญหานี้!)
Ari B. Friedman

@ gsk3 - อ่าาาาา, มันไม่ใช่โปรแกรมที่เป็นปัญหา, แต่คน ๆ นี้จะไม่เป็น "ผู้เชี่ยวชาญ" อีกต่อไปและจะต้องเริ่มจากจุดต่ำสุด?
ความน่าจะเป็นเชิง

2
@probabilityislog - ฉันคิดว่าต้นทุนที่จมลงเป็นปัญหาส่วนใหญ่ใช่ ค่าใช้จ่ายเหล่านี้บางอย่างนั้นไม่ต้องสงสัยเลยว่าสังคมและบางอย่างก็คือการสูญเสียเวลาและประสิทธิภาพขณะที่พวกเขาเรียนรู้วิธีการทำสิ่งใหม่ ๆ
Ari B. Friedman

3
ฉันคิดว่าการ์ตูนเรื่องนี้อาจนำเสนอสถานการณ์ที่เหมาะสม หากบุคคลที่คุณอ้างถึงถูกตั้งค่าไว้ไม่เหมาะกับการเขียนโปรแกรมนี่อาจเป็นสิ่งที่ไม่เหมาะสมสำหรับคุณ กลยุทธ์ที่ดีกว่าอาจชี้ให้เห็นข้อบกพร่องของการวิเคราะห์โดยใช้สเปรดชีต ลองตัวอย่างในไฟล์ Excel ใหม่เพื่อป้อนค่าและและรวมพวกเขา (ใช้งานได้กับ Excel 2007) จากนั้นอธิบายว่าไม่มีแพ็คเกจสถิติที่เคารพตนเองจะให้ข้อผิดพลาดที่คล้ายกันโดยไม่มีการเตือนและทำงานจากที่ 11116114
mpiktas

คำตอบ:


7

ฉันเขียนโปรแกรมใน Python 95% ของงานของฉันและส่วนที่เหลือใน R หรือ MATLAB หรือ IDL / PV-WAVE (และ SAS เร็ว ๆ นี้) แต่ฉันอยู่ในสภาพแวดล้อมที่เลือกผลลัพธ์ได้บ่อยครั้งซึ่งเป็นตัวขับเคลื่อนที่สำคัญสำหรับการวิเคราะห์ดังนั้นฉันจึงมักใช้เครื่องมือแบบจุดและคลิกเช่นกัน จากประสบการณ์ของฉันไม่มีเครื่องมือ GUI เดียวที่แข็งแกร่งและยืดหยุ่นสำหรับการวิเคราะห์เช่นเดียวกับที่ไม่มีภาษาเดียว โดยปกติแล้วฉันจะรวบรวมชุดของซอฟต์แวร์ฟรีและเชิงพาณิชย์ดังต่อไปนี้

ฉันไม่ได้ใช้ JMP, Stata, Statistica ฯลฯ แต่ต้องการ

การใช้เครื่องมือเหล่านี้เกี่ยวข้องกับการเรียนรู้ GUIs ที่แตกต่างกันและการสร้างแบบจำลองนามธรรมจำนวนมากซึ่งเป็นความเจ็บปวดในเวลานั้น แต่ให้ฉันได้รับผลลัพธ์ที่เร็วขึ้นในภายหลัง ฉันอยู่ในเรือลำเดียวกันกับ OP เพราะในขณะที่คนส่วนใหญ่ที่ฉันทำงานด้วยนั้นฉลาดมากพวกเขาไม่สนใจที่จะเรียนรู้ภาษาหรือ GUI และแอปพลิเคชั่นคำศัพท์เฉพาะหลายอย่าง ดังนั้นฉันจึงลาออกไปยอมรับว่า Excel ขับเคลื่อนการวิเคราะห์ 90% ในโลกธุรกิจ ดังนั้นฉันกำลังมองหาที่จะใช้สิ่งต่าง ๆ เช่นpyinexเพื่อให้ฉันมีการวิเคราะห์ที่ดีขึ้นในเลเยอร์การนำเสนอ Excel เดียวกันกับที่เพื่อนร่วมงานส่วนใหญ่คาดหวัง

การปรับปรุง: ต่อไปลงชุดรูปแบบ Do-modelling-programming-but-make-Excel-the-Presentation ฉันเพิ่งเจอเว็บไซต์ของผู้ชายคนนี้ที่นำเสนอกราฟิคสไตล์ Tufte เพื่อฝังในเซลล์ Excel ยอดเยี่ยมและฟรี!


1
ฉันจะบอกว่า JMP ค่อนข้างดี แม้ว่าหนึ่งใน R เชี่ยวชาญจะมีบางครั้งที่ JMP เป็นวิธีที่เร็วกว่าในการนำทางและวิเคราะห์ข้อมูล
Iterator

8

เท่าที่การวิเคราะห์ข้อมูลเชิงสำรวจ (อาจโต้ตอบ) ฉันขอแนะนำให้ดูที่:

  • Wekaเดิมทีมีเป้าหมายสำหรับแอปพลิเคชั่นการขุดข้อมูล
  • Mondrianสำหรับการแสดงข้อมูลแบบโต้ตอบ
  • KNIMEซึ่งอาศัยแนวคิดของการสร้างกระแสข้อมูลและเข้ากันได้กับ Weka และ R

ทั้งสามยอมรับข้อมูลในarffหรือcsvรูปแบบ

ในมุมมองของฉัน Stata ไม่จำเป็นต้องมีความเชี่ยวชาญด้านการเขียนโปรแกรมมากมาย นี่เป็นส่วนหนึ่งของความน่าดึงดูดใจในความเป็นจริง: การวิเคราะห์ขั้นพื้นฐานส่วนใหญ่สามารถทำได้โดยการกระทำของผู้ใช้แบบจุดและคลิกพร้อมกล่องโต้ตอบสำหรับปรับแต่งพารามิเตอร์เฉพาะพูดสำหรับการทำนายในแบบจำลองเชิงเส้น เช่นเดียวกันถึงแม้ว่าจะน้อยกว่าถึง R เมื่อคุณใช้ GUI ภายนอกเช่นRcmdr , Deducer ฯลฯ ตามที่กล่าวโดย @ gsk3


+1 สำหรับ Stata คุณสามารถทำพื้นฐานทั้งหมดได้ด้วยการใช้ point-n-click แต่มันก็แยกคำสั่งที่ point-n-click สร้างขึ้นเพื่อให้คุณสามารถเรียนรู้ / แก้ไขได้ นอกจากนี้ยังเป็นเหมือนสเปรดชีตในวิธีที่คุณเชื่อมต่อกับข้อมูลแม้ว่าคุณจะไม่ใส่สูตรไว้ในเซลล์แน่นอน
Wayne

8

บางคนคิดว่าการเขียนโปรแกรมเป็นเพียงการป้อนคำสั่งบรรทัดคำสั่ง เมื่อถึงจุดนั้นบางทีคุณอาจหลงทางเล็กน้อยในการสนับสนุนพวกเขา อย่างไรก็ตามหากพวกเขาใช้สเปรดชีตแล้วพวกเขาก็ต้องป้อนสูตร เหล่านี้คล้ายกับคำสั่งบรรทัดคำสั่ง หากพวกเขาหมายความว่าพวกเขาไม่ต้องการทำการเขียนโปรแกรมใด ๆ ในแง่ของการวิเคราะห์เชิงตรรกะและอัตโนมัติคุณสามารถบอกพวกเขาได้ว่าพวกเขายังสามารถทำการวิเคราะห์ใน R หรือ Stata ได้โดยไม่ต้องเขียนโปรแกรมใด ๆ เลย

หากพวกเขาสามารถทำสถิติของพวกเขาในสเปรดชีต ... ทุกสิ่งที่พวกเขาต้องการจะทำ ... จากนั้นการวิเคราะห์ทางสถิติทั้งหมดที่พวกเขาต้องการที่จะบรรลุสามารถทำได้โดยไม่ต้อง 'โปรแกรม' ใน R หรือ Stata เช่นกัน พวกเขาสามารถจัดเรียงและจัดการข้อมูลในสเปรดชีตจากนั้นเพียงส่งออกเป็นข้อความ จากนั้นทำการวิเคราะห์โดยไม่ต้องเขียนโปรแกรมใด ๆ เลย

นั่นเป็นวิธีที่ฉันทำอินโทร R บางครั้ง ไม่จำเป็นต้องเขียนโปรแกรมเพื่อทำการวิเคราะห์ข้อมูลที่คุณสามารถทำได้ในสเปรดชีต

หากคุณทำให้พวกมันติดงอมแงมก็แค่หมุนปลาช้าๆ ... :) ในอีกไม่กี่ปีข้างหน้าพวกเขาก็เห็นว่าพวกเขาเป็นโปรแกรมเมอร์ที่ดี

คุณอาจต้องการแสดงเอกสารนี้ให้เพื่อนร่วมงานของคุณหรืออย่างน้อยก็อ่านด้วยตัวคุณเองเพื่อให้คะแนนของคุณดีขึ้น


1
จุดที่ดี แต่มีข้อควรระวังบางประการที่นี่: Excel มีเคล็ดลับเครื่องมือที่ปรากฏขึ้นเมื่อป้อนสูตรในเซลล์และทำให้ง่ายขึ้นในการ "โปรแกรม" งานง่าย ๆ นอกจากนี้โอกาสที่จะเป็นบุคคลที่อยู่ถัดจากคุณสามารถช่วยได้หากคุณติดขัดเนื่องจากมีผู้ใช้ Excel จำนวนมาก และมีการติดตั้ง Excel การโน้มน้าวใจผู้คนให้ลองใช้ R เกี่ยวข้องกับการช่วยพวกเขาตั้งค่าและเรียนรู้วิธีใช้ประโยชน์จากซอฟต์แวร์โอเพนซอร์ซ (และฟอรัมใดที่ต้องการค้นหาซึ่งควรใช้แพ็คเกจ bootstrap อันใดมากมาย) การเขียนโปรแกรมอยู่ในความรู้สึกส่วนที่ง่าย มันเป็นระบบนิเวศที่เป็นส่วนที่ยาก
Josh Hemann

นอกจากนี้ยังไม่มีปัญหาการจัดรูปแบบที่แท้จริงใน Excel ... ใน R บางครั้งแพ็คเกจหนึ่งใช้ xts อีกหนึ่ง data.frames ... มันเป็นระเบียบสำหรับมือใหม่นั่นคือความจริง
RockScience

fRed ฉันยอมรับว่าอาจมีปัญหาในการจัดรูปแบบข้อมูล แต่โปรดจำไว้ว่าคำตอบของฉันมีคุณสมบัติตามการวิเคราะห์ที่สามารถทำได้แล้วในสเปรดชีต นั่นไม่ใช่การวิเคราะห์ที่หลากหลายและโดยทั่วไปจะอยู่ในรูปแบบข้อมูลเดียว
จอห์น

มี "การเขียนโปรแกรม" ที่มีค่าใช้จ่ายมากกว่า R กับ Excel และสิ่งเหล่านี้เป็นสิ่งที่ทำให้ผู้ใช้คลั่งไคล้ ถ้า R มี GUI บากด้านบนคล้ายกับตาราง Pivot บางที แต่ก่อนหน้านั้น ...
ราล์ฟวินเทอร์เมื่อ

8

ฉันจะใส่สนามเข้าไปที่นี่เพื่อ JMP ฉันมีเหตุผลสองสามข้อว่าทำไมเครื่องมือการสำรวจข้อมูลที่ไม่ใช่การเขียนโปรแกรมที่ฉันต้องการ:

  1. เครื่องมือสร้างภาพที่ดีจริงๆ พื้นฐานประเภท EDA พื้นฐานที่สุดมันดีเท่า R และง่ายต่อการใช้งานมากในการสร้างบางสิ่งบางอย่างที่ใกล้เคียงกับพล็อตสิ่งพิมพ์ที่พร้อมพิมพ์ นอกจากนี้ยังมีเครื่องมือสร้างภาพที่ยืดหยุ่นอย่างมากดังนั้นคุณสามารถบิดและโค้งงอข้อมูลของคุณเพื่อรับเรื่องราวทั้งหมด
  2. ทรงพลังอย่างน่าประหลาดใจ ฉันใช้เวลาจนกระทั่ง ... ปีที่ 4 ของผู้สำเร็จการศึกษาเพื่อค้นหาสิ่งที่ JMP ไม่สามารถทำได้ทันที นั่นไม่เลวเลย
  3. Scriptability นี่เป็นเรื่องใหญ่สำหรับฉัน จุดอ่อนหลักของ GUIs คือยากที่จะทำซ้ำสิ่งที่คุณทำ JMP ช่วยให้คุณสามารถสคริปต์ GUI - และการสร้างสคริปต์เหล่านั้นเป็นจุดที่น่าสนใจและคลิก

+1 สำหรับ JMP มันเป็นสถิติขั้นพื้นฐานที่ดีที่สุดที่ฉันเคยใช้
Zach

1
ตกลง (เห็นด้วยกับข้อที่ 1) ในบางวิธีมันจะดีกว่า R สำหรับสิ่งของ EDA และสามารถแทรกลงในเวิร์กโฟลว์ซ้ำได้อย่างดี หากมีใครทำงานอยู่แล้วโดยไม่มี R แล้ว JMP เป็นวิธีที่เหมาะสมในการทำงานโดยไม่ต้องเพิ่ม R เพราะมันสามารถเชื่อมโยงไปยัง R โปรแกรมเมอร์ R สามารถสร้างเครื่องมือที่เชื่อมต่อกับ JMP ทำให้ Eloi, errr ผู้ใช้ดำเนินการต่อ ที่จะเชื่อว่าทุกสิ่งเป็นเพียงสำรวย
Iterator

6

ฉันสามารถแนะนำ Tableau เป็นเครื่องมือที่ดีสำหรับการสำรวจข้อมูลและการสร้างภาพข้อมูลเนื่องจากวิธีการต่าง ๆ ที่คุณสามารถสำรวจและดูข้อมูลได้เพียงแค่ลากและวาง กราฟมีความคมชัดพอสมควรและคุณสามารถส่งออกเป็น PDF ได้อย่างง่ายดายเพื่อวัตถุประสงค์ในการนำเสนอ หากคุณต้องการคุณสามารถขยายได้ด้วย "การเขียนโปรแกรม" ฉันใช้เครื่องมือนี้เป็นประจำพร้อมกับ "R" และ SAS และพวกเขาทั้งหมดทำงานร่วมกันได้ดี


3

ดังที่จอห์นกล่าวว่าการสำรวจข้อมูลไม่จำเป็นต้องเขียนโปรแกรมมากในอาร์นี่คือรายการคำสั่งการสำรวจข้อมูลที่คุณสามารถมอบให้กับผู้คน (ฉันเพิ่งมากับสิ่งนี้คุณสามารถขยายได้อย่างแน่นอน)

ส่งออกข้อมูลจากแพ็คเกจใด ๆ ก็ได้ (การส่งออกข้อมูลตัวเลขโดยไม่มีเครื่องหมายอัญประกาศสะดวก) จากนั้นอ่านข้อมูลใน R

ChickWeight=read.csv('chickweight.csv')

ทำโต๊ะ

table(ChickWeight$Diet)

ให้ R เดากราฟิกประเภทใดที่จะให้คุณ บางครั้งมันก็ใช้งานได้ดีมาก

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

ฟังก์ชั่นการพล็อตจำนวนมากทำงานได้ค่อนข้างง่ายกับตัวแปรเดี่ยว

hist(ChickWeight$weight)

การเซตย่อย

plot(subset(ChickWeight,Diet=='2'))

ไวยากรณ์คล้าย SQL ในกรณีที่ผู้คนคุ้นเคยกับสิ่งนั้น (เพิ่มเติมที่นี่ )

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA (แน่นอนว่าคุณมีตัวแปรมากกว่าสองตัว)

princomp(~ ChickWeight$weight + ChickWeight$Time)

3

นี่เป็นความโศกเศร้ามากกว่าคำตอบ ...

ซอฟต์แวร์ที่ดีที่สุดที่ฉันเคยเห็นคือArcซึ่งสร้างขึ้นจาก Xlisp-Stat เป็นซอฟต์แวร์ที่ยอดเยี่ยมสำหรับการสำรวจข้อมูลที่มีกราฟิกแบบอินเทอร์แอคทีฟจำนวนมากรวมทั้งความสามารถในการอนุมานทางสถิติมากมาย ในความคิดของฉันไม่มีสิ่งใดใกล้เคียงกับความสะดวกในการใช้งานสำหรับการสำรวจข้อมูลและความสามารถในการขยายเพิ่มเติมด้วยโปรแกรม Lisp ในความคิดของฉันการโต้ตอบใน R เพิ่งเริ่มใช้ในรูปแบบเช่นอาร์คสิบปีต่อมา และเท่าที่ฉันรู้ว่ายังไม่มีใครใช้ความสามารถเหล่านี้เพื่อสร้างส่วนต่อประสานที่มีประโยชน์ใกล้เคียงกับ Arc

น่าเสียดายที่มันไม่เคยติดอยู่ดังนั้นนักพัฒนาจึงเปลี่ยนมาทำงานเกือบทั้งหมดใน R; ได้รับการอัปเดตครั้งล่าสุดในเดือนกรกฎาคมปี 2004 เวอร์ชั่น PC และ Linux / Unix ยังคงใช้งานได้และอาจคุ้มค่ากับการลองทั้งนี้ขึ้นอยู่กับความต้องการของคุณ สำหรับ Macs ตัวเลือกที่ดีที่สุดคือลองรุ่น Linux / Unix ภายใต้ X11 ฉันได้รับการทำงานในระบบสองระบบด้วยวิธีนี้ เวอร์ชั่น Mac ที่กล่าวถึงในเว็บไซต์ใช้งานได้กับ "Classic" Mac เท่านั้น

ฉันจะพูดถึงMondrianสั้น ๆซึ่งฉันได้ลองเพียงชั่วครู่ แต่ดูเหมือนว่าจะมีการโต้ตอบเชิงกราฟิกที่ยอดเยี่ยมสำหรับการสำรวจข้อมูลแม้ว่า (อย่างที่ฉันจำได้) ก็ไม่มีวิธีที่ง่ายในการขยายความสามารถหรือทำการอนุมานเชิงสถิติ


ไม่เคยได้ยินเกี่ยวกับอาร์ค แต่จะลองดู ขอบคุณ
Ari B. Friedman

1
(+1) ดีใจที่ได้ยินจากโลก Lisp อีกครั้ง ฉันเป็นแฟนตัวยงของ xlispstat (และขอขอบคุณที่ Luke Tierney กระตือรือร้นในโครงการ R)
chl

3

ระบบซอฟต์แวร์ใหม่ที่มีแนวโน้มสำหรับจุดประสงค์นี้คือDeducerซึ่งสร้างขึ้นบนสุดของอาร์ แต่น่าเสียดายที่เป็นเรื่องใหม่ฉันสงสัยว่ามันยังไม่ครอบคลุมคำถามที่ผู้คนอาจถาม แต่มันตรงตามความต้องการ เกณฑ์น้ำของคนนำไปสู่แพคเกจที่แท้จริงพวกเขาควรตัดสินใจในภายหลัง

ฉันเคยใช้ JMP ในอดีตซึ่งมีการโต้ตอบที่ดีกับมัน ฉันกังวลว่าอินเทอร์เฟซบางอย่างอาจซับซ้อนเกินไปสำหรับวัตถุประสงค์เหล่านี้ และมันก็ไม่ปลอดซึ่งทำให้ผู้ลี้ภัยสเปรดชีตที่อาจเกิดขึ้นลองได้อย่างง่ายดาย


นอกจากนี้ยังมีRattleที่ดูค่อนข้างจะแวว


เกี่ยวกับ JMP - หากฉันไม่เข้าใจผิดมีรุ่นทดลองและใบอนุญาตด้านการศึกษาที่ไม่สมเหตุสมผล
Iterator

3

สำหรับการสำรวจว่ามีข้อมูลใดบ้างและทำการล้างข้อมูลใน Google Refine เดิมตอนนี้Open Refineเป็น GUI ที่ดีทีเดียว มันมีประสิทธิภาพมากกว่าสำหรับการเตรียมการและการทำความสะอาดมากกว่าสิ่งอื่นเช่น Excel จากนั้นสลับไปยังสิ่งที่ต้องการ R-Commander สำหรับการวิเคราะห์ของคุณ


2

ทุกคนที่ตอบ R หรือ "GUIs" ใด ๆ ไม่ได้อ่านคำถาม

มีโปรแกรมที่ออกแบบมาเป็นพิเศษสำหรับสิ่งนี้และเรียกว่า JMP ใช่มันมีราคาแพงถึงแม้ว่าจะมีการทดลองใช้ฟรีและราคาถูกอย่างไม่น่าเชื่อสำหรับนักเรียนหรือเจ้าหน้าที่วิทยาลัย (เช่นถูก $ 50)

นอกจากนี้ยังมี RapidMiner ซึ่งเป็น GUI สำหรับเวิร์กโฟลว์สำหรับการทำเหมืองข้อมูลและการวิเคราะห์ทางสถิติ ฟรีและโอเพ่นซอร์ส


1
@ Neil ทำไมมันเป็นเช่นนั้น? OP ระบุ "แต่นึกคิดซึ่งจะขยายไปสู่การเขียนโปรแกรม ... " R ได้รับการเสียบในเชิงพาณิชย์เกือบทั้งหมด (เช่น SPSS, JMP, Statistica) หรือซอฟต์แวร์สถิติฟรี (Knime, Rapidminer) และ Rserve สามารถใช้เป็นแบ็กเอนด์เพื่อสื่อสารกับ R (เช่นกับซอฟต์แวร์ plink สำหรับการศึกษาทางพันธุกรรม) และมันถูกใช้เพื่อจุดประสงค์นี้ JMP รุ่นทดลองใช้ฟรีไม่อนุญาตให้คุณทำงานกับชุดข้อมูลภายนอกฉันผิดหรือเปล่า (ที่น่าสนใจเราทุกคนที่ตอบ R, และซอฟแวร์ทางเลือกที่ถูก downvoted.)
CHL

ฉันชอบ R และชอบมัน แต่คนที่ต้องการเรียนรู้สถิติ / การจัดกลุ่มข้อมูลและไม่รู้วิธีการเขียนโปรแกรมใช้งานไม่ได้จริงๆ และฉันได้เล่นกับ guis ทั้งหมดและพวกเขาก็น่ากลัวเมื่อเทียบกับ jmp ฉันแค่รอวันที่ R ได้รับ gui เช่น jmp จากนั้นทั้งหมดจะเป็นจักรวาลที่ดี
Neil McGuigan

-1 สำหรับข้อเสนอแนะที่ผู้คนไม่ได้อ่านคำถามก่อนที่จะตอบและไม่ได้ให้ข้อโต้แย้งที่แท้จริงว่าทำไม R จึงแย่กว่า JMP หรือ RapidMiner โปรดทราบว่าโดยทั่วไปฉันยอมรับว่า R ไม่ใช่คำตอบสำหรับทุกสิ่ง แต่หัวข้อนี้ค่อนข้างขัดแย้งกับศักยภาพในการได้รับที่น่ารังเกียจจริงๆ ดังนั้นการลงคะแนนเสียง
mpiktas

R ยอดเยี่ยม แต่ก็ไม่ง่าย นั่นคือสิ่งที่เขาขอในชื่อ
Neil McGuigan

@ Neil, ใช่ แต่คุณสามารถยืนยันว่าไม่มีสิ่งเช่นการสำรวจข้อมูลที่ง่าย แต่แข็งแกร่ง
mpiktas

1

เครื่องมือนี้เป็นที่นิยมในอุตสาหกรรมของฉัน (แม้ว่าจะไม่ใช่เฉพาะอุตสาหกรรมโดยการออกแบบ): http://www.umetrics.com/simca

จะช่วยให้คุณทำการวิเคราะห์ตัวแปรหลายตัวแปรแบบแฝง (PCA และ PLS) และรวมถึงแผนการแปลง / การคำนวณผู้เข้าร่วมทั้งหมดและเครื่องมือการสอบสวนเช่นแผนการแปลงความสำคัญของตัวแปรการคำนวณ Q2 เป็นต้น

มันมักจะใช้กับชุดข้อมูลอุตสาหกรรมที่มีความสัมพันธ์สูงและมีความสัมพันธ์กันสูงซึ่งวิธีการประเภท OLS / MLR นั้นไม่เหมาะสม (เช่นข้อมูลจากเซ็นเซอร์ของเรือข้อมูลบันทึก ฯลฯ )

มันทำงานในสภาพแวดล้อม GUI อย่างสมบูรณ์และผู้ใช้ไม่จำเป็นต้องเขียนโค้ดบรรทัดเดียว น่าเสียดายที่มันไม่ฟรีและไม่สามารถขยายผ่านการเขียนโปรแกรม


1

ในความคิดของฉันหากคุณไม่ได้รหัสด้วยตนเองคุณมีแนวโน้มที่จะเกิดข้อผิดพลาดและเข้าใจผิดเกี่ยวกับผลลัพธ์

ฉันคิดว่าคุณควรแนะนำให้จ้างนักสถิติที่มีทักษะการใช้คอมพิวเตอร์

หากต้องทำสิ่งเดียวกันเสมอคุณสามารถใช้เครื่องมือขนาดเล็ก (กล่องดำ) ที่จะทำสิ่งนั้นได้ แต่ฉันไม่แน่ใจว่าสิ่งนี้ยังคงเรียกว่าการสำรวจข้อมูล


1
ฉันเห็นด้วยกับความรู้สึกไม่มากก็น้อย แต่ฉันไม่คิดว่ามุมมองที่มีความคิดสูงนี้เป็นไปได้จริง ๆ ในหลาย ๆ สถานการณ์
Ari B. Friedman

1

ฉันจะแนะนำแพ็คเกจ R ของ John Fox ที่เรียกว่า R commander:

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

มันสร้างส่วนต่อประสานผู้ใช้ที่คล้ายกับ SPSS (หรือสิ่งที่คล้ายกัน) ซึ่งเหมาะสำหรับผู้เริ่มต้นและไม่ต้องการให้ผู้ใช้ป้อนรหัสใด ๆ เลย มันทำผ่านกล่องแบบหล่นลง (คุณสามารถย่อส่วน R console ในขณะทำงานได้)

สำหรับฉันข้อดีของแพคเกจนี้คือคุณสามารถใช้ประโยชน์จากความสามารถในการคำนวณทั้งหมดของ R ในขณะที่มีส่วนต่อประสานผู้ใช้ที่ทำงานได้อย่างสมบูรณ์สำหรับผู้เริ่มต้น


1

เครื่องมือที่มีประโยชน์อีกอย่างหนึ่งสำหรับ Windows คือSpotfire - ฉันพบว่ามันค่อนข้างมีประโยชน์สำหรับการดูฮิสโทแกรมและแผนการกระจายอย่างรวดเร็วสำหรับตัวแปรเดี่ยวและคู่ เครื่องมือการวิจัยที่ช่วยให้คุณจัดอันดับตัวแปรเดี่ยวและคู่ตามสถิติอย่างง่าย - Hierarchical Clustering Explorerจาก HCIL มันดีสำหรับการค้นหาตัวแปร / คู่ของตัวแปรที่น่าสนใจที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.