daskデータフレームの列をDoc2VecのTaggedDocumentに変換します

2
ZdWhite 2019-06-20 07:38.

イントロ

現在、daskをgensimと組み合わせて使用​​してNLPドキュメントの計算を実行しようとしていますが、コーパスを「TaggedDocument」に変換するときに問題が発生します。

私はこの問題を解決するために非常に多くの異なる方法を試したので、私は私の試みをリストします。

この問題に対処しようとするたびに、わずかに異なる問題が発生します。

最初にいくつかの最初の与えられた。

データ

df.info()
<class 'dask.dataframe.core.DataFrame'>
Columns: 5 entries, claim_no to litigation
dtypes: object(2), int64(3)
  claim_no   claim_txt I                                    CL ICC lit
0 8697278-17 battery comprising interior battery active ele... 106 2 0

必要な出力

>>tagged_document[0]
>>TaggedDocument(words=['battery', 'comprising', 'interior', 'battery', 'active', 'elements', 'battery', 'cell', 'casing', 'said', 'cell', 'casing', 'comprising', 'first', 'casing', 'element', 'first', 'contact', 'surface', 'second', 'casing', 'element', 'second', 'contact', 'surface', 'wherein', 'assembled', 'position', 'first', 'second', 'contact', 'surfaces', 'contact', 'first', 'second', 'casing', 'elements', 'encase', 'active', 'materials', 'battery', 'cell', 'interior', 'space', 'wherein', 'least', 'one', 'gas', 'tight', 'seal', 'layer', 'arranged', 'first', 'second', 'contact', 'surfaces', 'seal', 'interior', 'space', 'characterized', 'one', 'first', 'second', 'contact', 'surfaces', 'comprises', 'electrically', 'insulating', 'void', 'volume', 'layer', 'first', 'second', 'contact', 'surfaces', 'comprises', 'formable', 'material', 'layer', 'fills', 'voids', 'surface', 'void', 'volume', 'layer', 'hermetically', 'assembled', 'position', 'form', 'seal', 'layer'], tags=['8697278-17'])
>>len(tagged_document) == len(df['claim_txt'])

エラー番号1ジェネレーターは許可されていません

def read_corpus_tag_sub(df,corp='claim_txt',tags=['claim_no']):
    for i, line in enumerate(df[corp]):
        yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), (list(df.loc[i,tags].values)))

tagged_document = df.map_partitions(read_corpus_tag_sub,meta=TaggedDocument)
tagged_document = tagged_document.compute()

TypeError:タイプジェネレータのオブジェクトをシリアル化できませんでした。

ジェネレーターを使用している間、これを回避する方法が見つかりませんでした。これに対する修正は素晴らしいでしょう!これは通常のパンダには完全にうまく機能するためです。

エラー番号2各パーティションの最初の要素のみ

def read_corpus_tag_sub(df,corp='claim_txt',tags=['claim_no']):
    for i, line in enumerate(df[corp]):
        return gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), (list(df.loc[i,tags].values)))

tagged_document = df.map_partitions(read_corpus_tag_sub,meta=TaggedDocument)
tagged_document = tagged_document.compute()

これは、関数が反復しない(私は知っている)が、目的の形式を提供するが、各パーティションの最初の行のみを返すため、少し馬鹿げています。

エラー番号3の関数呼び出しが100%CPUでハングする

def read_corpus_tag_sub(df,corp='claim_txt',tags=['claim_no']):
    tagged_list = []
    for i, line in enumerate(df[corp]):
        tagged = gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), (list(df.loc[i,tags].values)))
        tagged_list.append(tagged)
    return tagged_list

ループ外のリターンをリファクタリングするとわかるように、この関数はハングし、daskクライアントにメモリを構築し、CPU使用率は100%になりますが、タスクは計算されていません。同じ方法で関数を呼び出していることに注意してください。

パンダソリューション

def tag_corp(corp,tag):
    return gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(corp), ([tag]))

tagged_document = [tag_corp(x,y) for x,y in list(zip(df_smple['claim_txt'],df_smple['claim_no']))]

リストコンプ私はこのソリューションをテストしていません

その他のパンダソリューション

tagged_document = list(read_corpus_tag_sub(df))

このソリューションは、何時間にもわたって動きます。しかし、それが終わったときにこのことをやりくりするのに十分な記憶がありません。

結論(?)

私は今スーパーロストを感じています。これが私が見たスレッドのリストです。私は本当に多くの時間を過ごしたばかりで、ばかげた用事をしているような気がします。

  1. ジェネレーターのDaskBag
  2. Daskでテキストを処理する
  3. Daskを使用してパンダの適用をスピードアップ
  4. 1台のマシンですべてのコアを利用してPandasデータフレームでapply()をどのように並列化しますか?
  5. python dask DataFrame、(自明に並列化可能な)行のサポートが適用されますか?
  6. map_partitionsは何をしていますか?
  7. 単純なdaskmap_partitionsの例
  8. ドキュメント

2 answers

4
gojomo 2019-06-21 06:28.

私はDaskAPI /制限に精通していませんが、一般的には次のとおりです。

  • データを(単語、タグ)タプルとして繰り返すことができれば(Doc2Vec/TaggedDocumentステップを無視しても)、Dask側が処理され、それらのタプルをTaggedDocumentインスタンスに変換するのは簡単です。

  • 大規模なデータセットのために、一般的に、あなたはしたくない(とするのに十分なRAMを持っていない場合があります)として、完全なデータセットをインスタンス化listのメモリに-あなたの関与の試みそうlist().append()ポイントまで、作業していて、ローカルメモリを排出することができます(深刻なスワッピングを引き起こす)および/またはデータの終わりに達していない。

大規模なデータセットへの好ましいアプローチは、データを反復するように求められるたびに(Doc2Vecトレーニングには複数のパスが必要になるため)、すべてのアイテムを順番に提供できる反復可能なオブジェクトを作成することですが、データセット全体をインメモリオブジェクト。

このパターンに関する優れたブログ投稿は次のとおりです。Pythonでのデータストリーミング:ジェネレーター、イテレーター、イテレーター

あなたが示したコードを考えると、あなたにとって正しいアプローチは次のようになると思います。

from gensim.utils import simple_preprocess

class MyDataframeCorpus(object):
    def __init__(self, source_df, text_col, tag_col):
        self.source_df = source_df
        self.text_col = text_col
        self.tag_col = tag_col

    def __iter__(self):
        for i, row in self.source_df.iterrows():
            yield TaggedDocument(words=simple_preprocess(row[self.text_col]), 
                                 tags=[row[self.tag_col]])

corpus_for_doc2vec = MyDataframeCorpus(df, 'claim_txt', 'claim_no')
1
MRocklin 2019-06-21 17:28.

そうです、あなたはこのコードに近づいています

def read_corpus_tag_sub(df,corp='claim_txt',tags=['claim_no']):
    for i, line in enumerate(df[corp]):
        yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), (list(df.loc[i,tags].values)))

tagged_document = df.map_partitions(read_corpus_tag_sub,meta=TaggedDocument)

しかし、ご覧のとおり、ジェネレーターの作成はDaskにとってあまり役に立ちません。代わりに、関数にシリーズを返すようにすることができます

def myfunc(df, *args, **kwargs):
    output = []
    for i, line in enumerate(df["my_series"])
        result = ...
        output.append([])
    return pd.Series(output)

または、df.apply単一の行を単一の行に変換する関数を受け取るメソッドを使用することもできます。

また、に切り替えることもできますDASKバッグパンダ/ DASK DATAFRAMEよりも、より自然リストや発電機などのハンドルことを行い、。

Related questions

MORE COOL STUFF

Reba McEntire は、彼女が息子の Shelby Blackstock と共有する「楽しい」クリスマスの伝統を明らかにしました:「私たちはたくさん笑います」

Reba McEntire は、彼女が息子の Shelby Blackstock と共有する「楽しい」クリスマスの伝統を明らかにしました:「私たちはたくさん笑います」

Reba McEntire が息子の Shelby Blackstock と共有しているクリスマスの伝統について学びましょう。

メーガン・マークルは、自然な髪のスタイリングをめぐってマライア・キャリーと結ばれました

メーガン・マークルは、自然な髪のスタイリングをめぐってマライア・キャリーと結ばれました

メーガン・マークルとマライア・キャリーが自然な髪の上でどのように結合したかについて、メーガンの「アーキタイプ」ポッドキャストのエピソードで学びましょう.

ハリー王子は家族との関係を修復できるという「希望を持っている」:「彼は父親と兄弟を愛している」

ハリー王子は家族との関係を修復できるという「希望を持っている」:「彼は父親と兄弟を愛している」

ハリー王子が家族、特にチャールズ王とウィリアム王子との関係について望んでいると主張したある情報源を発見してください。

ワイノナ・ジャッドは、パニックに陥った休暇の瞬間に、彼女がジャッド家の家長であることを認識しました

ワイノナ・ジャッドは、パニックに陥った休暇の瞬間に、彼女がジャッド家の家長であることを認識しました

ワイノナ・ジャッドが、母親のナオミ・ジャッドが亡くなってから初めての感謝祭のお祝いを主催しているときに、彼女が今では家長であることをどのように認識したかを学びましょう.

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セント ヘレナ島のジェイコブズ ラダーは 699 段の真っ直ぐ上る階段で、頂上に到達すると証明書が発行されるほどの難易度です。

The Secrets of Airline Travel Quiz

The Secrets of Airline Travel Quiz

Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?

Where in the World Are You? Take our GeoGuesser Quiz

Where in the World Are You? Take our GeoGuesser Quiz

The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!

バイオニック読書はあなたをより速く読むことができますか?

バイオニック読書はあなたをより速く読むことができますか?

BionicReadingアプリの人気が爆発的に高まっています。しかし、それは本当にあなたを速読術にすることができますか?

米国が選挙に影響を与えるロシアのハックに関するインテリジェンスレポートを発表

米国が選挙に影響を与えるロシアのハックに関するインテリジェンスレポートを発表

写真:ゲッティイメージズ。「最近の米国の選挙に関するロシアの活動と意図の評価」に関するFBI、CIA、およびNSAからの機密解除された文書は、「ロシアのウラジーミル・プーチン大統領が米国大統領選挙に影響を与えるキャンペーンを命じた」と主張している。

La。Manは45年間で収集された500,000ペニーで現金化

La。Manは45年間で収集された500,000ペニーで現金化

ペニーは、2006年7月6日、イリノイ州グレンビューのグレンビューコイン&コレクティブルズに展示されています。合計5,000ドル以上で、News-Starは報告します。

SaartjieBaartmanと黒人女性の身体の所有権について

SaartjieBaartmanと黒人女性の身体の所有権について

19世紀のフランスの版画サラ・バートマンのラベル・ホッテントットウィキメディア・コモンズ黒人女性の体の所有権の認識は、最も醜い歴史の断片に深く織り込まれている問題です。この有毒な考えは、地球の一部に隔離されていません。

マライア・キャリーが大晦日のパフォーマンスでソーシャルメディアのメルトダウンに対応:「ShitHappens」

マライア・キャリーが大晦日のパフォーマンスでソーシャルメディアのメルトダウンに対応:「ShitHappens」

写真:APマライアキャリーは、土曜日の夜にタイムズスクエアでディッククラークスの新年のロッキンイブウィズライアンシークレスト(このショーのタイトルはサウンドチェックを取得できますか?)のパフォーマンス中に、かなり深刻なオーディオの誤動作に苦しんでいました。最悪の問題は、キャリーの「エモーション」のパフォーマンス中に発生しました。トラックがキャリーのボーカルを断続的にしか再生せず、リップシンクをオフにしました。

米国のフィギュア スケートは、チーム イベントでの最終決定の欠如に「苛立ち」、公正な裁定を求める

米国のフィギュア スケートは、チーム イベントでの最終決定の欠如に「苛立ち」、公正な裁定を求める

ロシアのフィギュアスケーター、カミラ・バリエバが関与したドーピング事件が整理されているため、チームは2022年北京冬季オリンピックで獲得したメダルを待っています。

Amazonの買い物客は、わずか10ドルのシルクの枕カバーのおかげで、「甘やかされた赤ちゃんのように」眠れると言っています

Amazonの買い物客は、わずか10ドルのシルクの枕カバーのおかげで、「甘やかされた赤ちゃんのように」眠れると言っています

何千人ものAmazonの買い物客がMulberry Silk Pillowcaseを推奨しており、現在販売中. シルクの枕カバーにはいくつかの色があり、髪を柔らかく肌を透明に保ちます。Amazonで最大46%オフになっている間にシルクの枕カバーを購入してください

パデュー大学の教授が覚醒剤を扱った疑いで逮捕され、女性に性的好意を抱かせる

パデュー大学の教授が覚醒剤を扱った疑いで逮捕され、女性に性的好意を抱かせる

ラファイエット警察署は、「不審な男性が女性に近づいた」という複数の苦情を受けて、12 月にパデュー大学の教授の捜査を開始しました。

コンセプト ドリフト: AI にとって世界の変化は速すぎる

コンセプト ドリフト: AI にとって世界の変化は速すぎる

私たちの周りの世界と同じように、言語は常に変化しています。以前の時代では、言語の変化は数年または数十年にわたって発生していましたが、現在では数日または数時間で変化する可能性があります。

SF攻撃で91歳のアジア人女性が殴られ、コンクリートに叩きつけられた

犯罪擁護派のオークランドが暴力犯罪者のロミオ・ロレンゾ・パーハムを釈放

SF攻撃で91歳のアジア人女性が殴られ、コンクリートに叩きつけられた

認知症を患っている 91 歳のアジア人女性が最近、47 番街のアウター サンセット地区でロメオ ロレンゾ パーハムに襲われました。伝えられるところによると、被害者はサンフランシスコの通りを歩いていたところ、容疑者に近づき、攻撃を受け、暴行を受けました。

ℝ

“And a river went out of Eden to water the garden, and from thence it was parted and became into four heads” Genesis 2:10. ? The heart is located in the middle of the thoracic cavity, pointing eastward.

メリック・ガーランドはアメリカに失敗しましたか?

バイデン大統領の任期の半分以上です。メリック・ガーランドは何を待っていますか?

メリック・ガーランドはアメリカに失敗しましたか?

人々にチャンスを与えることは、人生で少し遅すぎると私は信じています。寛大に。

Language