Powtórz pliki z folderu i traktować je scala.

Question 1

Mam kilka plików w folderze dla różnych krajów. jak pokazano poniżej

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

teraz muszę taktować te pliki, przetworzyć je według krajów i skopiować do odpowiednich folderów. moja struktura folderów docelowych będzie wyglądać tak

2021-->11-->>GBR

2021-->11-->>ARG

W spark scala/scala pomóżcie mi napisać kod do obsługi pliku według krajów i przenieść do odpowiedniego folderu kraju.

Question 2

To brzmi tak, jakby szukasz partitionBy oznaczono na DataFrameWriter. Z скаладока:

def partitionBy(colNames: String*): DataFrameWriter[T]

Rozbija wniosek według określonej kolumny w systemie plików. Jeśli określony, dane wyjściowe są wyświetlane w systemie plików, podobnego schematu podziału Hive. Na przykład, gdy dzielimy zbiór danych na lata, a następnie przez miesiąc, układ katalogu będzie wyglądać w następujący sposób:

year=2016/month=01/
year=2016/month=02/

Partycjonowanie-jeden z najczęściej stosowanych metod optymalizacji układu fizycznych danych. Zapewnia грубозернистый indeks do pominięcia zbędnych operacji odczytu danych, gdy wnioski zawierają predykaty w podzielonym na partycje kolumnach. Aby podział działało dobrze, liczba różnych wartości w każdej kolumnie zwykle musi być mniejsza niż kilkadziesiąt tysięcy.

To odnosi się do wszystkich plików źródeł danych (na przykład, Parquet, JSON), począwszy od Spark 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

To brzmi tak, jakby szukasz partitionBy oznaczono na DataFrameWriter. Z скаладока:

def partitionBy(colNames: String*): DataFrameWriter[T]

Rozbija wniosek według określonej kolumny w systemie plików. Jeśli określony, dane wyjściowe są wyświetlane w systemie plików, podobnego schematu podziału Hive. Na przykład, gdy dzielimy zbiór danych na lata, a następnie przez miesiąc, układ katalogu będzie wyglądać w następujący sposób:

year=2016/month=01/
year=2016/month=02/

Partycjonowanie-jeden z najczęściej stosowanych metod optymalizacji układu fizycznych danych. Zapewnia грубозернистый indeks do pominięcia zbędnych operacji odczytu danych, gdy wnioski zawierają predykaty w podzielonym na partycje kolumnach. Aby podział działało dobrze, liczba różnych wartości w każdej kolumnie zwykle musi być mniejsza niż kilkadziesiąt tysięcy.

To odnosi się do wszystkich plików źródeł danych (na przykład, Parquet, JSON), począwszy od Spark 2.1.0.

czy w każdym przypadku, aby uzyskać jak 2016/01, i czy pomoże foreach przedawkować jeden plik po drugim
muszę taktować jeden za drugim plik w ramkę danych i skopiować go do dużego obiektu binarnego

Powtórz pliki z folderu i traktować je scala.

Pytanie

Najlepsza odpowiedź

W innych językach

Ta strona jest w innych językach

Popularne w tej kategorii

Najczęściej zadawane pytania w tej kategorii