Bye Bye Moore

猫マンション建築の野望を胸に零細事業主として資本主義の荒波に漕ぎ出したアラサー男の技術メモ

Python用データ分析ライブラリPandaをつかう その3:CSVデータの読み込み方を変える

shuzo-kino.hateblo.jp
の続きです。
オプションを設定してやることで、使うカラムを絞ったり、
特定のカラムをindexとして転用できてりします。
lambdaを使えるのが地味にポイント高いですね。

実際のところ

import pandas as pd
import numpy as np

csv = pd.read_csv('sample.csv', usecols=lambda x: x.upper() in ['COUNTY', 'VOTES'])
print(csv)
#  county  votes
#0  Clark      5
#1  Clark      0
#2  Clark      7

csv2 = pd.read_csv('sample.csv', 
		usecols=lambda x: x.upper() in ['PRECINCT','COUNTY', 'VOTES'], 
		index_col=2)
print(csv2)
#      county  precinct
#votes                 
#5      Clark         1
#0      Clark         2
#7      Clark         3

csv3 = csv2.sort_index()
print(csv3.values)
#[['Clark' 2]
# ['Clark' 1]
# ['Clark' 3]]

他にも、不正な行にエラーを出す等々いろんなオプションがあり楽はできそうです。