pandas データフレーム追加の高速化

python

csvやexcel等直接データフレームで読み込める形式でデータが準備されていれば良いですが、テキストファイルから、必要なデータに処理してデータフレームに格納していくこともあると思います

その場合、下記のようにデータフレームを作って1行ずつ追加していきます。

for line in lines:
    <テキスト処理>
    df.loc[no] = f
    no += 1

ただ、この場合データ追加に時間がかかります。処理するテキストファイルが大きい場合には一旦リストに格納しておいてから、データフレーム化する事で高速化する事ができます。1000行の処理で、5秒→0.02秒まで改善する事ができたのでおすすめです

for line in lines:
    <テキスト処理>
    d.append(f)
 
df = pd.DaraFrame(d)
タイトルとURLをコピーしました