무료 Java API로 HTML 추출, 구문 분석 및 처리

HTML5 DOM 메서드와 CSS 선택기의 장점을 활용해 URL을 로딩, 파싱, 페치하고, 데이터를 추출하고 조작하는 오픈 소스 Java 라이브러리입니다.

Jsoup은 소프트웨어 개발자가 자신의 Java 애플리케이션 내에서 HTML 관련 작업을 처리할 수 있도록 해주는 매우 강력한 Java 라이브러리입니다. Java에서 웹 스크래핑 및 HTML 파싱에 관해서는 Jsoup이 인기 있고 강력한 라이브러리로 자리 잡았습니다. Jsoup은 HTML 문서에서 데이터를 파싱하고 추출하며, DOM을 조작하고 HTML 구조를 쉽게 탐색할 수 있는 편리하고 직관적인 방법을 제공합니다. Jsoup은 자유로운 MIT 라이센스 하에 배포되는 오픈 소스 프로젝트입니다. Java 라이브러리로서 Jsoup은 기존 Java 프로젝트와 원활하게 통합되어 Java 개발자에게 이상적인 선택이 됩니다.

Jsoup은 소프트웨어 개발자가 HTML 및 XML 문서에서 데이터를 추출하고 조작할 수 있도록 해주는 무료 Java 라이브러리입니다. 이는 Java와 웹 스크래핑 세계 사이의 편리한 다리 역할을 하며, HTML 콘텐츠를 가져오고, 구문 분석하고, 조작하고, 탐색하는 데 필요한 강력한 기능 세트를 제공합니다. 웹 페이지에서 특정 데이터를 추출해야 하거나, 여러 페이지를 스크래핑하거나, HTML 문서의 구조를 수정해야 할 경우, Jsoup은 이러한 작업을 수행할 수 있는 사용자 친화적인 API를 제공합니다.

Jsoup은 초보자에게 친숙하고 배우기 쉬운 깔끔하고 직관적인 API를 제공합니다. HTML을 파싱하고 조작하며 탐색하는 간단한 방법을 통해 개발자는 금방 웹 데이터를 스크래핑할 수 있습니다. 그 확장성 덕분에 소프트웨어 개발자는 라이브러리 위에 맞춤 기능을 구축할 수 있습니다. 사용자 정의 속성, 사용자 정의 필터 및 사용자 정의 탐색기를 지원하여 소프트웨어 개발자가 라이브러리를 특정 요구에 맞게 조정할 수 있습니다. 직관적인 API와 다양한 기능이 결합되어 개발자들 사이에서 인기 있는 선택이 됩니다. 데이터를 추출하든, DOM을 조작하든, 복잡한 HTML 시나리오를 처리하든, Jsoup은 과정을 간소화하고 강력한 솔루션을 제공합니다.

한눈에 보기

Jsoup 기능 개요.

기능 개요

웹 스크래핑
HTML 파일 조작
HTML에서 이미지 추출
HTML 열기
HTML 읽기
HTML 파싱
HTML 렌더링
HTML 뷰어
HTML을 PDF로
목차 추출
일반 텍스트 추출

Jsoup

Jsoup는 HTML 파일 형식과 산업 표준 형식의 내보내기를 지원합니다.

독자

HTML

작가

TXT, HTML , PDF

Jsoup

플랫폼 독립성

Jsoup은 Java 런타임만 필요합니다.

자바 8 이상.

Jsoup

Jsoup 시작하기

Jsoup을 사용하는 권장 방법은 필요한 Maven 또는 Gradle 구성을 포함하거나 JAR 파일을 프로젝트에 수동으로 가져오는 것입니다. 원활한 작업을 위해 Maven 의존성을 추가해 주세요.

Jsoup Maven 의존성

<dependency>
  
  org.jsoup
  <artifactId>Jsoup</artifactId>
  <version>1.16.1</version>
</dependency>

Gradle을 통해 Jsoup 라이브러리 설치하기

// jsoup HTML parser library @ https://jsoup.org/
implementation 'org.jsoup:jsoup:1.16.1'
Or Vig GitHub
git clone https://github.com/jhy/jsoup.git
cd jsoup
mvn install

수동으로 설치할 수도 있습니다; GitHub 저장소에서 최신 릴리스 파일을 직접 다운로드하세요.

Java API를 사용한 HTML 파일 파싱

오픈 소스 Jsoup 라이브러리의 핵심 기능 중 하나는 Java 애플리케이션 내에서 HTML 문서를 구문 분석할 수 있는 능력입니다. 이 라이브러리는 웹페이지를 가리키는 URL, 원시 HTML 문자열 또는 디스크에서 파일을 직접 로드하여 HTML 문서에서 데이터를 추출할 수 있게 해줍니다. Jsoup를 사용하여 HTML 문서를 구문 분석하려면 소프트웨어 개발자는 Jsoup.parse() 메서드를 활용할 수 있습니다. 이 메서드는 HTML 콘텐츠를 문자열로 받아들이고 구문 분석된 HTML을 나타내는 Document 객체를 반환합니다. 그 후 개발자는 DOM 트리를 탐색하고 선택기 또는 탐색 방법을 사용하여 원하는 요소를 추출할 수 있습니다. 다음 예제는 웹페이지를 DOM으로 구문 분석하고 Java 명령을 사용하여 헤드라인을 선택하는 방법을 보여줍니다.

Java API를 통해 HTML 파일을 파싱하고 헤드라인을 추출하는 방법은?

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

Java를 사용하여 HTML 파일에서 데이터 추출하기

Jsoup 라이브러리는 Java 애플리케이션 내에서 HTML 문서에서 데이터를 로드하고 추출하기 위한 매우 유용한 기능을 포함하고 있습니다. 이 라이브러리는 HTML 요소에서 데이터를 추출하기 위한 직관적인 메서드를 제공합니다. 텍스트 추출, 속성 검색 및 HTML 직렬화를 지원하여 개발자에게 필요한 도구를 제공하여 데이터를 추출하고 조작할 수 있도록 합니다. 이는 웹 스크래핑 기능을 Java 애플리케이션에 통합하는 것을 더 쉽게 만듭니다. 다음 예제는 프로그래머가 Java 애플리케이션 내의 요소에서 속성, 텍스트 및 HTML을 추출하는 방법을 보여줍니다.

Java API를 통해 요소에서 속성, 텍스트 및 HTML 추출하는 방법?

String html = "An example link.";
Document doc = Jsoup.parse(html);
Element link = doc.select("a").first();

String text = doc.body().text(); // "An example link"
String linkHref = link.attr("href"); // "http://example.com/"
String linkText = link.text(); // "example""

String linkOuterH = link.outerHtml(); 
    // "example"
String linkInnerH = link.html(); // "example"

Java API를 통해 HTML 파일 편집 및 조작하기

오픈 소스 Jsoup 라이브러리는 소프트웨어 개발자가 자신의 Java 애플리케이션 내에서 HTML 문서를 손쉽게 로드하고 수정할 수 있도록 합니다. 요소를 추가, 제거 또는 수정하는 것이든, Jsoup은 HTML 구조를 조작하기 위한 편리한 API를 제공합니다. 이 기능은 데이터를 스크랩하고 원하는 형식으로 저장하거나 HTML 콘텐츠를 프로그래밍 방식으로 수정하는 도구를 구축할 때 매우 유용합니다.