jericho parser 예제
안녕 난 그냥 엑셀 시트에 예를 들어 태그 사이에 존재하는 텍스트를 저장하고 싶습니다. 어떻게 이것을 달성 할 수 있습니까? hrbrmstr/jericho에서 새로운 릴리스에 대한 알림을 원하십니까? devtools를 사용 하는 경우, 다음 리모컨을 선택 해야: 설명에서 섹션. 패키지가 CRAN에 있을 때까지 아래와 같이 jerichojars설치를 호출 할 수 있습니다 : 예를 들어 : “이것은 링크가있는 텍스트 조각입니다” HTML 조작은 Jericho를 사용하는 것이 매우 쉽습니다. 아래 코드 예제에서 모든 H2 요소에 ID 특성을 추가하여 앵커 탐색을 만들려고합니다. 다시 소스 문서를 만듭니다. 이 소스 문서에서 출력 문서를 만듭니다. 나처럼 HTML에서 몇 가지 태그를 제거할 수 있습니다. 다음은 이를 달성하는 방법을 보여 주는 예제입니다. 구조화 된 `HTML` 콘텐츠는 문서 내에서 데이터 테이블 또는 기타 태그가 지정된 데이터를 구문 분석해야 할 때 유용할 수 있습니다. 그러나 문서를 둘러싸는 태그 의 벽에서 없는 문서에서 “텍스트만”을 얻는 것도 유용합니다. 도구는 마틴 제리코 http://jericho.htmlparser.net/docs/index.html 의해 `제리코 HTML 파서`자바 라이브러리에서 메서드를 래핑 하는 것으로 provied. 마틴의 도서관은 `인터넷 아카이브`를 장식, 많은 규모의 프로젝트에 사용됩니다.
위의 예에서는 태그가 허용되는지 확인한 후 시작 및 끝태그를 제거해야 합니다. 전체 요소를 제거하려는 경우 이러한 태그 내의 텍스트도 제거합니다. API를 사용하면 비어 있는 요소를 확인할 수 있습니다. 중복 빈 요소를 제거하거나 내 경우 starttag가 자체 닫는 태그인지 확인하는 것이 편리할 수 있습니다. 예제에서 볼 수 있듯이 요소의 특성을 조작하는 것은 비교적 쉽습니다. 특성 개체를 사용하면 원본 문서 또는 시작 태그에 있는 특성 목록 개체를 얻을 수 있습니다. 이러한 특성은 수정할 수 없습니다. outputDocument에는 ID 특성을 추가하기 위해 특정 startTag를 새로 만든 H2 start 태그로 바꿀 수 있는 편리한 방법이 있습니다. 가져오기 net.htmlparser.jericho.*; 가져오기 자바 유틸리티.*; 가져오기 java.io.*; 가져오기 java.net.*; 우리의 경우 문자열을 입력으로 하는 새 Source 개체를 정의 합니다. 그러나 입력 스트림 또는 URL을 예로 들어 허용합니다.
소스 개체에는 텍스트를 얼마나 놀라운 추출할 수 있는 메서드 getTextExtractor가 포함되어 있습니다. TextExtractor 클래스는 추출을 구성하는 몇 가지 옵션을 제공합니다. 옵션 중 하나는 지정된 요소에서 텍스트를 제외할 수 있다는 것입니다. 특성을 포함할 수도 있습니다. 해당 특성의 값이 출력에 포함됩니다. 이 게시물에서 나는 여리고를 사용하는 방법을 보여 주었다, 그러나 여리고는 훨씬 더 흥미로운 기능을 가지고. 웹 페이지에서 이러한 기능을 사용하는 방법에 대한 더 많은 예제를 제공합니다. Jericho는 멋지고 깨끗한 API를 제공하며 HTML의 구문 분석이 정말 쉽습니다! jericho : `HTML` 태그의 벽을 스크립트 내부의 사용 가능한 텍스트로 나누기 및 이 세그먼트에 포함된 STYLE 요소는 무시됩니다.
. 출력문서 출력문서 = 새 출력문서(bodySource); outputDocument.remove(세그먼트ToRemove); Maven을 사용하는 경우 다음 종속성을 추가하여 라이브러리를 사용할 수 있습니다. if (sourceUrlString.indexOf(`:`)=-1) sourceUrlString=”파일:”+sourceUrlString; 소스 =새 소스(새 URL(소스UrlString)); 프로젝트에서 여리고를 사용하는 것을 고려하고있는 내 고객은 어떤 회사 (즉, SpringSource 또는 기타)가 여리고 (법적 목적을 위해)에 대한 지원 모델을 제공하는지 알고 싶습니다. 모든 클래스의 전체 개요를 보려면 javadoc을 볼 수 있습니다.
記事を見てくれてありがとうございます!