2019.08.03

pyspark wordcount 예제

이 예제에서 첫 번째 위치는 단어 수를 저장하므로 가장 자주 발생하는 단어가 RDD에서 먼저 발생하도록 단어를 정렬합니다 – False 매개 변수는 정렬 순서를 내림차순으로 설정합니다 (위의 예제에서 맵을 통과하고 ByKey RDD를 줄입니다. 변환은 MapReduce 패러다임의 애호가들에게 즉시 인식할 수 있습니다. Spark는 맵의 효율적인 병렬 응용 프로그램을 지원하고 데이터를 여러 파티션으로 나누어 작업을 줄입니다. 위의 예에서 각 파일은 기본적으로 하나의 파티션을 생성합니다. Spark가 Hadoop과 같은 기존 프레임워크에 추가하는 것은 여러 맵을 추가하고 작업을 단일 워크플로에 줄이는 기능입니다. 이러한 예제는 Spark API에 대한 간략한 개요를 제공합니다. Spark는 임의의 Java 또는 Python 개체를 포함하는 분산 데이터 집합의 개념을 기반으로 합니다. 외부 데이터에서 데이터 집합을 만든 다음 병렬 작업을 적용합니다. 스파크 API의 구성 블록은 RDD API입니다. RDD API에는 이전 데이터 집합을 기반으로 새 데이터 집합을 정의하는 변환과 클러스터에서 실행하는 작업을 시작하는 작업의 두 가지 유형이 있습니다. Spark의 RDD API 외에도 데이터프레임 API 및 머신 러닝 API와 같은 고급 API가 제공됩니다.

이러한 고급 API는 특정 데이터 작업을 수행하는 간결한 방법을 제공합니다. 이 페이지에서는 RDD API를 사용하는 예제와 높은 수준의 API를 사용하는 예제를 보여 드리겠습니다. HDFS의 폴더/사용자/개발자/구텐베르크 아래에 저장된 문서에 대한 워드카운트를 수행하는 Part 1에 설명된 예제를 기억하십시오. 먼저 일부 문장 부호 문자를 처리하고 텍스트를 소문자로 변환하기 위해 몇 가지 변경 사항을 사용하여 단일 호출에서 변환을 작성합니다. Spark와 함께 배포되는 많은 추가 예제: 이 예제에서는 데이터베이스에 저장된 테이블을 읽고 모든 연령대의 인원수를 계산합니다. 마지막으로 계산된 결과를 JSON 형식으로 S3에 저장합니다. 간단한 MySQL 테이블 “사람”이 예제에서 사용되며 이 테이블에는 “이름” 및 “나이”라는 두 개의 열이 있습니다. pyspark 모듈을 가져오면 특수 키워드 문자열, 로컬 및 응용 프로그램의 이름인 PySparkWordCount에서 전달하는 SparkContext 인스턴스를 만듭니다. 로컬 키워드는 Spark가 프로그램을 실행하는 데 사용되는 것과 동일한 프로세스에서 이 프로그램을 로컬로 실행하도록 지시합니다. 현실적으로 응용 프로그램을 실행해야 하는 Spark 클러스터의 URL을 지정하고 로컬 키워드를 사용하지 않도록 합니다.

SparkContext는 프로그램이 종료될 때 SparkContext를 닫아야 하므로 with 문을 사용하여 만들어집니다.