คำถามติดแท็ก dataframe

กรอบข้อมูลเป็นโครงสร้างข้อมูลแบบตาราง โดยทั่วไปจะมีข้อมูลที่แถวคือการสังเกตและคอลัมน์เป็นตัวแปรประเภทต่างๆ ในขณะที่ "data frame" หรือ "dataframe" เป็นคำที่ใช้สำหรับแนวคิดนี้ในหลายภาษา (R, Apache Spark, deedle, Maple, pandas library ใน Python และ DataFrames library ใน Julia) "table" เป็นคำที่ใช้ใน MATLAB และ SQL

11
จะแบ่งคอลัมน์ออกเป็นสองคอลัมน์ได้อย่างไร?
ฉันมีกรอบข้อมูลที่มีหนึ่งคอลัมน์และฉันต้องการแยกออกเป็นสองคอลัมน์โดยมีส่วนหัวคอลัมน์หนึ่งเป็น ' fips'และอีกคอลัมน์หนึ่ง'row' dataframe ของฉันdfมีลักษณะเช่นนี้: row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL ฉันไม่ทราบวิธีใช้df.row.str[:]เพื่อให้บรรลุเป้าหมายในการแบ่งเซลล์แถว ฉันสามารถใช้เพื่อเพิ่มคอลัมน์ใหม่และเติมมันมีdf['fips'] = hello helloความคิดใด ๆ fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 …
197 python  dataframe  pandas 

7
เพิ่มป้าย x และ y ลงในพล็อตแพนด้า
สมมติว่าฉันมีรหัสต่อไปนี้ที่พล็อตเรื่องง่าย ๆ โดยใช้นุ่น: import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') ฉันจะตั้งค่า x และ y-label ได้อย่างง่ายดายในขณะที่รักษาความสามารถในการใช้ colormaps ที่เฉพาะเจาะจงได้อย่างไร ฉันสังเกตเห็นว่าplot()wrapper สำหรับ pandas DataFrames ไม่ได้ใช้พารามิเตอร์เฉพาะสำหรับสิ่งนั้น

4
Python python กรองน่านจากการเลือกข้อมูลของคอลัมน์ของสตริง
โดยไม่ใช้groupbyฉันจะกรองข้อมูลโดยไม่ได้NaNอย่างไร สมมติว่าฉันมีเมทริกซ์ที่ลูกค้าจะเติมใน 'N / A', 'n / a' หรือรูปแบบใด ๆ ของมันและอื่น ๆ ปล่อยให้มันว่างเปล่า: import pandas as pd import numpy as np df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'], 'rating': [3., 4., 5., np.nan, np.nan, np.nan], 'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]}) nbs = df['name'].str.extract('^(N/A|NA|na|n/a)') nms=df[(df['name'] != nbs) …
190 python  pandas  dataframe 

4
เพิ่มคอลัมน์ไปยัง dataframe ด้วยค่าคงที่
ฉันมี dataframe ที่มีอยู่ซึ่งฉันต้องการเพิ่มคอลัมน์เพิ่มเติมซึ่งจะมีค่าเดียวกันสำหรับทุกแถว df ที่มีอยู่: Date, Open, High, Low, Close 01-01-2015, 565, 600, 400, 450 ใหม่ df: Name, Date, Open, High, Low, Close abc, 01-01-2015, 565, 600, 400, 450 ฉันรู้วิธีผนวกคอลัมน์ซีรีย์ / ดาต้าเฟรมที่มีอยู่ แต่นี่เป็นสถานการณ์ที่แตกต่างกันเพราะทั้งหมดที่ฉันต้องการคือการเพิ่มคอลัมน์ 'ชื่อ' และตั้งค่าทุกแถวเป็นค่าเดียวกันในกรณีนี้ 'abc'
187 python  pandas  dataframe 

8
ฉันจะสร้างรายการเฟรมข้อมูลได้อย่างไร
ฉันจะสร้างรายการเฟรมข้อมูลได้อย่างไรและฉันจะเข้าถึงเฟรมข้อมูลแต่ละรายการจากรายการได้อย่างไร ตัวอย่างเช่นฉันจะวางเฟรมข้อมูลเหล่านี้ในรายการได้อย่างไร d1 <- data.frame(y1 = c(1, 2, 3), y2 = c(4, 5, 6)) d2 <- data.frame(y1 = c(3, 2, 1), y2 = c(6, 5, 4))
186 r  list  dataframe  r-faq 



3
วิธีรับ N แถวสุดท้ายของ DataFrame แพนด้า?
ฉันมีดาต้าดาต้าแพนด้าdf1และdf2(df1 คือ vanila dataframe, df2 ถูกจัดทำดัชนีโดย 'STK_ID' & 'RPT_Date'): >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143 NaN 2 000568 20060930 9.49 13.854 NaN 3 000568 20061231 15.84 19.262 NaN 4 000568 20070331 17.00 6.803 NaN 5 000568 20070630 26.31 …
175 python  pandas  dataframe 

3
วิธีการรวมหลายเงื่อนไขเพื่อเซตย่อย data-frame โดยใช้“ หรือ”?
ฉันมี data.frame ใน R ฉันต้องการลองสองเงื่อนไขที่แตกต่างกันในสองคอลัมน์ที่แตกต่างกัน แต่ฉันต้องการให้รวมเงื่อนไขเหล่านี้ ดังนั้นฉันต้องการใช้ "หรือ" เพื่อรวมเงื่อนไข ฉันใช้ไวยากรณ์ต่อไปนี้มาก่อนด้วยความสำเร็จมากมายเมื่อฉันต้องการใช้เงื่อนไข "และ" my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] แต่ฉันไม่ทราบวิธีการใช้ 'หรือ' ข้างต้น
174 r  conditional  dataframe 

8
สำหรับแต่ละแถวใน R dataframe
ฉันมี dataframe และสำหรับแต่ละแถวใน dataframe นั้นฉันต้องทำการค้นหาที่ซับซ้อนและผนวกข้อมูลบางส่วนเข้ากับไฟล์ dataFrame มีผลลัพธ์ทางวิทยาศาสตร์สำหรับหลุมที่เลือกจาก 96 แผ่นหลุมที่ใช้ในการวิจัยทางชีววิทยาดังนั้นฉันต้องการทำบางสิ่งเช่น: for (well in dataFrame) { wellName <- well$name # string like "H1" plateName <- well$plate # string like "plate67" wellID <- getWellID(wellName, plateName) cat(paste(wellID, well$value1, well$value2, sep=","), file=outputFile) } ในโลกแห่งกระบวนการของฉันฉันจะทำสิ่งที่ชอบ: for (row in dataFrame) { #look up stuff using data from …
173 r  dataframe  rows 

8
วิธีการพิมพ์ DataFrame นุ่นโดยไม่มีดัชนี
ฉันต้องการพิมพ์ดาต้าเฟรมทั้งหมด แต่ไม่ต้องการพิมพ์ดัชนี นอกจากนี้หนึ่งคอลัมน์คือประเภทวันที่และเวลาฉันต้องการพิมพ์เวลาไม่ใช่วันที่ ชื่อไฟล์ดูเหมือนว่า: User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 ฉันต้องการพิมพ์เป็น User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

12
เรียกใช้ฟังก์ชั่นคล้ายกับการเรียกใช้ในแต่ละแถวของ dataframe ที่มีหลายอาร์กิวเมนต์จากแต่ละแถว
ฉันมีชื่อไฟล์ที่มีหลายคอลัมน์ สำหรับแต่ละแถวใน dataframe ฉันต้องการเรียกใช้ฟังก์ชันบนแถวและอินพุตของฟังก์ชันใช้หลายคอลัมน์จากแถวนั้น ตัวอย่างเช่นสมมติว่าฉันมีข้อมูลนี้และ testFunc ซึ่งยอมรับสอง args: > df <- data.frame(x=c(1,2), y=c(3,4), z=c(5,6)) > df x y z 1 1 3 5 2 2 4 6 > testFunc <- function(a, b) a + b สมมติว่าฉันต้องการใช้ testFunc นี้กับคอลัมน์ x และ z ดังนั้นสำหรับแถวที่ 1 ฉันต้องการ 1 + 5 และสำหรับแถวที่ 2 ฉันต้องการ …
168 r  dataframe 

7
แปลง Panda DataFrame เป็นพจนานุกรม
ฉันมี DataFrame สี่คอลัมน์ ฉันต้องการแปลง DataFrame นี้เป็นพจนานุกรมหลาม ฉันต้องการองค์ประกอบของคอลัมน์แรกจะเป็นkeysและองค์ประกอบของคอลัมน์อื่น ๆ ในปี valuesพ.ศ. DataFrame: ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 ผลลัพธ์ควรเป็นดังนี้: พจนานุกรม: {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

7
ใช้ Pandas เพื่อ pd.read_excel () สำหรับหลายแผ่นงานของสมุดงานเดียวกัน
ฉันมีไฟล์สเปรดชีตขนาดใหญ่ (.xlsx) ที่ฉันกำลังประมวลผลโดยใช้ python python มันเกิดขึ้นที่ฉันต้องการข้อมูลจากสองแท็บในไฟล์ขนาดใหญ่นั้น หนึ่งในแท็บมีข้อมูลมากมายและอีกแท็บหนึ่งมีเพียงไม่กี่ตารางเซลล์ เมื่อฉันใช้pd.read_excel ()บนแผ่นงานใด ๆฉันรู้สึกว่าไฟล์ทั้งหมดถูกโหลด (ไม่ใช่แค่แผ่นงานที่ฉันสนใจ) ดังนั้นเมื่อฉันใช้วิธีสองครั้ง (หนึ่งครั้งสำหรับแต่ละแผ่นงาน) ฉันต้องประสบกับเวิร์กบุ๊กทั้งเล่มที่อ่านเป็นสองเท่า (แม้ว่าเราจะใช้แผ่นงานที่ระบุเท่านั้น) ฉันใช้มันผิดหรือถูก จำกัด ด้วยวิธีนี้หรือไม่? ขอบคุณ!

6
Pandas DataFrame Group โดยสองคอลัมน์และรับการนับ
ฉันมี dataframe นุ่นในรูปแบบต่อไปนี้: df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] DF: col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 …
166 python  pandas  dataframe 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.