Javaでストリーム内の文字列を分割しますか?

0
protommxx 2020-04-27 09:15.

テキストファイルを読み、各単語の出現回数を数える割り当てがあります(句読点は無視します)。ストリームを使用する必要はありませんが、使用する練習をしたいと思います。

これまでのところ、これを使用して、テキストファイルを読み取り、各行を文字列に入れ、すべての文字列をリストに入れることができます。

try (Stream<String> p = Files.lines(FOLDER_OF_TEXT_FILES)) {
    list = p.map(line -> line.replaceAll("[^A-Za-z0-9 ]", ""))
            .collect(Collectors.toList());
}

ただし、これまでのところ、すべての行が1つの文字列になるだけなので、リストの各要素は単語ではなく行です。正規表現を使用したStringのsplitメソッドのようなものを使用して、各要素を1つの単語にすることができるストリームを使用する方法はありますか?それとも、ストリーム自体の外でこれを処理する必要がありますか?

7 answers

0
vskjk 2020-04-27 10:03.

私はあなたの質問を誤解するかもしれません。あなただけのカンマで区切られた単語をしたい場合しかし、あなたは交換してくださいコードの下に試すことができline.replaceAll("[^A-Za-z0-9 ]", "")Arrays.asList(line.replaceAll("[^A-Za-z0-9 ]", "").split(" ")).stream().collect(Collectors.joining(","))

再度、リストの結合メソッドを使用して、コンマ区切りの単語の文字列を取得します。

String commaSeperated = list.stream().collect(Collectors.joining(",")) ;

要件に応じて、最終的な文字列に対してさらに操作を実行できます。

0
Arvind Kumar Avinash 2020-04-27 10:36.

replaceAll行に適用する代わりに、次のように行の単語に適用します。

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class Main {
    public static void main(String[] args) {
        String str = "Harry is a good cricketer. Tanya is an intelligent student. Bravo!";
        List<String> words = Arrays.stream(str.split("\\s+")).map(s -> s.replaceAll("[^A-Za-z0-9 ]", ""))
                .collect(Collectors.toList());
        System.out.println(words);
    }
}

出力:

[Harry, is, a, good, cricketer, Tanya, is, an, intelligent, student, Bravo]

注:正規表現は、\\s+スペースで文字列を分割します。

0
WJS 2020-04-27 10:24.

これを試して:

    String fileName = "file.txt";
        try {
        Map<String, Long> wordCount = Files.lines(Path.of(fileName))
                .flatMap(line -> Arrays.stream(line.split("\\s+")))
                     .filter(w->w.matches("[a-zA-Z]+"))
                     .sorted(Comparator.comparing(String::length)
                            .thenComparing(String.CASE_INSENSITIVE_ORDER))  
                        .collect(Collectors.groupingBy(w -> w, 
         LinkedHashMap::new, Collectors.counting()));
        wordCount.entrySet().forEach(System.out::println);
        }catch (Exception e) {
            e.printStackTrace();
        }

これは比較的簡単です。空白で分割し、キーが単語で値がカウントを含む長いマップに配置することで単語をカウントします。

文字だけの単語のみをキャプチャするフィルターを含めました。これが機能する方法はLines、ストリームに入れることです。次に、各行はString.split。を使用して単語に分割されます。これにより配列が作成されるため、flatMapこれらの個々の単語のストリームがすべて1つのストリームに変換され、そこで処理されます。これのCollectors.groupingBy主力は、各キーの特定の方法で値をグループ化することです。この場合、Collectors.counting()キー(つまり単語)が出現するたびにカウントを増やす方法を指定しました。

オプションとして、大文字と小文字を区別せずに、最初に長さで、次にアルファベット順に単語を並べ替えました。

0
MC Emperor 2020-04-27 11:48.

まず、各行について、英数字以外のすべての文字(スペースを除く)を削除してから、スペースで分割するため、すべての要素が1つの単語になります。フラットマッピングしているため、ストリームはすべての単語で構成されます。次に、groupingByコレクターを使用して収集し、counting()ダウンストリームコレクターとして使用します。'LLがで私たちを残していることMap<String, Long>の鍵は言葉であり、値が出現回数であるでした。

list = p
    .flatMap(line -> Arrays.stream(line.replaceAll("[^0-9A-Za-z ]+", "").split("\\s+")))
    .collect(Collectors.groupingBy(Function.identity(), Collectors.counting());
0
Holger 2020-04-27 22:15.

単語を処理する場合、行の境界は関係ないため、行を分割するのではなく、最初にファイルを単語に分割することをお勧めします。次のようなものを使用できます。

Map<String,Long> wordsAndCounts;
try(Scanner s = new Scanner(Paths.get(path))) {
    wordsAndCounts = s.findAll("\\w+")
        .collect(Collectors.groupingBy(MatchResult::group, Collectors.counting()));
}
wordsAndCounts.forEach((w,c) -> System.out.println(w+":\t"+c));

findAll方法でScannerは、Java9以降が必要です。この回答には、findAllJava 8の実装が含まれています。これにより、Java 8で使用でき、標準の方法に切り替えるだけで新しいバージョンに簡単に移行できます。

0
Johannes Kuhn 2020-04-28 06:09.

「テキストファイルを読み、ストリームを使用して各単語を数える」全体については、次のようなものを使用することをお勧めします。

try (Stream<String> lines = Files.lines(FOLDER_OF_TEXT_FILES)) {
    lines.flatMap(l -> Arrays.stream(l.split(" ")))
        .collect(Collectors.groupingBy(Function.identity(), Collectors.counting()));

}

最初にすべてをリストに集める必要はありません。これはインラインで行うことができます。
また、try-with-resourcesを使用したのも良いことです。

0
pero_hero 2020-04-28 05:54.

を使用しPattern.splitAsStreamて文字列をパフォーマンスの高い方法で分割すると同時に、出現回数のマップを作成する前に、単語以外のすべての文字を置き換えることができます。

Pattern splitter = Pattern.compile("(\\W*\\s+\\W*)+");
String fileStr = Files.readString(Path.of(FOLDER_OF_TEXT_FILES));

Map<String, Long> collect = splitter.splitAsStream(fileStr)
        .collect(groupingBy(Function.identity(), counting()));

System.out.println(collect);

非単語文字の分割と削除には(\W*\s+\W*)+、オプションの非単語文字、スペース、そしてオプションの非単語文字を検索するパターンを使用しています。

Related questions

MORE COOL STUFF

Reba McEntire は、彼女が息子の Shelby Blackstock と共有する「楽しい」クリスマスの伝統を明らかにしました:「私たちはたくさん笑います」

Reba McEntire は、彼女が息子の Shelby Blackstock と共有する「楽しい」クリスマスの伝統を明らかにしました:「私たちはたくさん笑います」

Reba McEntire が息子の Shelby Blackstock と共有しているクリスマスの伝統について学びましょう。

メーガン・マークルは、自然な髪のスタイリングをめぐってマライア・キャリーと結ばれました

メーガン・マークルは、自然な髪のスタイリングをめぐってマライア・キャリーと結ばれました

メーガン・マークルとマライア・キャリーが自然な髪の上でどのように結合したかについて、メーガンの「アーキタイプ」ポッドキャストのエピソードで学びましょう.

ハリー王子は家族との関係を修復できるという「希望を持っている」:「彼は父親と兄弟を愛している」

ハリー王子は家族との関係を修復できるという「希望を持っている」:「彼は父親と兄弟を愛している」

ハリー王子が家族、特にチャールズ王とウィリアム王子との関係について望んでいると主張したある情報源を発見してください。

ワイノナ・ジャッドは、パニックに陥った休暇の瞬間に、彼女がジャッド家の家長であることを認識しました

ワイノナ・ジャッドは、パニックに陥った休暇の瞬間に、彼女がジャッド家の家長であることを認識しました

ワイノナ・ジャッドが、母親のナオミ・ジャッドが亡くなってから初めての感謝祭のお祝いを主催しているときに、彼女が今では家長であることをどのように認識したかを学びましょう.

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セントヘレナのジェイコブのはしごを登るのは、気弱な人向けではありません

セント ヘレナ島のジェイコブズ ラダーは 699 段の真っ直ぐ上る階段で、頂上に到達すると証明書が発行されるほどの難易度です。

The Secrets of Airline Travel Quiz

The Secrets of Airline Travel Quiz

Air travel is far more than getting from point A to point B safely. How much do you know about the million little details that go into flying on airplanes?

Where in the World Are You? Take our GeoGuesser Quiz

Where in the World Are You? Take our GeoGuesser Quiz

The world is a huge place, yet some GeoGuessr players know locations in mere seconds. Are you one of GeoGuessr's gifted elite? Take our quiz to find out!

バイオニック読書はあなたをより速く読むことができますか?

バイオニック読書はあなたをより速く読むことができますか?

BionicReadingアプリの人気が爆発的に高まっています。しかし、それは本当にあなたを速読術にすることができますか?

作家のアンバー・ラフィンとジェニー・ヘーゲルが上司のセス・マイヤーズを引き継ぐのを見る

作家のアンバー・ラフィンとジェニー・ヘーゲルが上司のセス・マイヤーズを引き継ぐのを見る

深夜のアンバー・ラフィンとジェニー・ヘーゲルが繰り返し「ジョーク・セス・カント・テル」で戻ってきました。これらのジョークの多くは観客をがっかりさせますが、最初から最後まで素晴らしいです。ルフィンとヘーゲルは黒人女性として自己紹介します。とゲイの女性、それぞれ、したがって、セスマイヤーズが10フィートのポールで触れることができない主題について賢明にクラックすることができます。

ジョンウィック:第3章は2019年5月に劇場への道を容赦なく殺します

ジョンウィック:第3章は2019年5月に劇場への道を容赦なく殺します

(写真:ライオンズゲート)この「キアヌ・リーブスはダッパースーツを着て人々を殺害する」というモチーフ全体が手元にあることをはっきりと知っているライオンズゲートは、スタイリッシュで復讐に燃えるジョン・ウィックのフランチャイズで3回目のリリース日を設定しました。犬をベースにした復讐のためのババ・ヤガの果てしない十字軍を支えるバットシット神話をより深く掘り下げることを約束する3番目のジョン・ウィック映画は、2019年5月17日に設定されました。これまでのところ、それはその日に上陸した唯一の映画です。

このパイロットは、This IsUsの残りの部分に高い基準を設定します

このパイロットは、This IsUsの残りの部分に高い基準を設定します

写真:NBCパイロットは良すぎるのでしょうか?ありそうもないようですが、This IsUsのファンの場合はそうかもしれません。クレイジー、バカ、ラブライターのダン・フォーゲルマンからの待望の新シリーズは、ツイストエンディングを中心に展開しています。シリーズを適切に設定しますが、非常に巧妙に行われているため、改善の余地はあまりありません。

ああ、GIFがついにFacebookで機能する

ああ、GIFがついにFacebookで機能する

ここにいくつかのニュースがあります:あなたは今FacebookにGIFを埋め込むことができます。まあ、技術的には、GIFへのリンクを投稿することができ、Facebookは、他のほとんどすべてのソーシャルネットワークが何年も行ってきたようにアニメーションを作成します。

米国のフィギュア スケートは、チーム イベントでの最終決定の欠如に「苛立ち」、公正な裁定を求める

米国のフィギュア スケートは、チーム イベントでの最終決定の欠如に「苛立ち」、公正な裁定を求める

ロシアのフィギュアスケーター、カミラ・バリエバが関与したドーピング事件が整理されているため、チームは2022年北京冬季オリンピックで獲得したメダルを待っています。

Amazonの買い物客は、わずか10ドルのシルクの枕カバーのおかげで、「甘やかされた赤ちゃんのように」眠れると言っています

Amazonの買い物客は、わずか10ドルのシルクの枕カバーのおかげで、「甘やかされた赤ちゃんのように」眠れると言っています

何千人ものAmazonの買い物客がMulberry Silk Pillowcaseを推奨しており、現在販売中. シルクの枕カバーにはいくつかの色があり、髪を柔らかく肌を透明に保ちます。Amazonで最大46%オフになっている間にシルクの枕カバーを購入してください

パデュー大学の教授が覚醒剤を扱った疑いで逮捕され、女性に性的好意を抱かせる

パデュー大学の教授が覚醒剤を扱った疑いで逮捕され、女性に性的好意を抱かせる

ラファイエット警察署は、「不審な男性が女性に近づいた」という複数の苦情を受けて、12 月にパデュー大学の教授の捜査を開始しました。

コンセプト ドリフト: AI にとって世界の変化は速すぎる

コンセプト ドリフト: AI にとって世界の変化は速すぎる

私たちの周りの世界と同じように、言語は常に変化しています。以前の時代では、言語の変化は数年または数十年にわたって発生していましたが、現在では数日または数時間で変化する可能性があります。

SF攻撃で91歳のアジア人女性が殴られ、コンクリートに叩きつけられた

犯罪擁護派のオークランドが暴力犯罪者のロミオ・ロレンゾ・パーハムを釈放

SF攻撃で91歳のアジア人女性が殴られ、コンクリートに叩きつけられた

認知症を患っている 91 歳のアジア人女性が最近、47 番街のアウター サンセット地区でロメオ ロレンゾ パーハムに襲われました。伝えられるところによると、被害者はサンフランシスコの通りを歩いていたところ、容疑者に近づき、攻撃を受け、暴行を受けました。

Precios accesibles, nuestro aprendizaje desde la perspectiva iOS

Precios accesibles, nuestro aprendizaje desde la perspectiva iOS

Cómo mejoramos la accesibilidad de nuestro componente de precio, y cómo nos marcó el camino hacia nuevos saberes para nuestro sistema de diseño. Por Ana Calderon y Laura Sarmiento Leer esta historia en inglés.

ℝ

“And a river went out of Eden to water the garden, and from thence it was parted and became into four heads” Genesis 2:10. ? The heart is located in the middle of the thoracic cavity, pointing eastward.

Language