pandas データフレーム追加の高速化

python

csvやexcel等直接データフレームで読み込める形式でデータが準備されていれば良いですが、テキストファイルから、必要なデータに処理してデータフレームに格納していくこともあると思います

その場合、下記のようにデータフレームを作って1行ずつ追加していきます。

for line in lines:
    <テキスト処理>
    df.loc[no] = f
    no += 1

ただ、この場合データ追加に時間がかかります。処理するテキストファイルが大きい場合には一旦リストに格納しておいてから、データフレーム化する事で高速化する事ができます。1000行の処理で、5秒→0.02秒まで改善する事ができたのでおすすめです

for line in lines:
    <テキスト処理>
    d.append(f)
 
df = pd.DaraFrame(d)
python
スポンサーリンク
この記事を書いた人

運営者について

当サイトは、個人が運営する学習・記録ブログです。

AI・データサイエンス・自動化を中心に、
Python、G検定・DS検定の学習内容や、
実際に試しながら整理した知識をまとめています。

特定の企業や団体に属さない個人サイトとして、
学習過程で得た気づきや判断の整理を目的に運営しています。

「知識はあるが、どう使えばよいか分からない」
「情報が多く、判断に迷ってしまう」
といった状態を減らすことを目的に発信しています。

専門家として教える立場ではなく、
自分自身がつまずき、試し、整理してきた過程をそのまま共有するスタイルです。

用語の暗記やテクニックの紹介よりも、
・なぜそう考えるのか
・どの順番で判断するのか
・どこで迷いやすいのか
といった思考の整理を重視しています。

学び場をフォローする
学び場をフォローする
タイトルとURLをコピーしました