1. Produkte
  2.   Textverarbeitung
  3.   Ruby
  4.   Word to Markdown
 
  

Kostenlose Ruby-Bibliothek zur Konvertierung von Microsoft Word in Markdown

Open-Source Ruby Gem, das Softwareentwicklern ermöglicht, Microsoft Word-Dokumente (DOCX oder DOC) zu lesen und in saubere, menschenlesbare Markdown-Dateien zu konvertieren.

Was ist Word to Markdown?

Wenn es um das Erstellen von Inhalten und den Aufbau von Websites geht, ist die Strukturierung Ihres Textes entscheidend. Obwohl Microsoft Word häufig zum Erstellen von Dokumenten verwendet wird, hat sich Markdown als das bevorzugte Format für das Schreiben im Web etabliert. Seine einfache Formatierung, die Kompatibilität mit Versionskontrolle und die Plattformunabhängigkeit haben es zu einer Top‑Wahl für Autoren, Entwickler und Verlage gemacht. Aber was tun, wenn Sie eine Menge Word‑Dokumente haben, die Sie in Ihrem Blog, in Ihren Anleitungen oder auf Ihrer Website einbinden möchten? Der manuelle Konvertierungsprozess kann mühsam und fehleranfällig sein. Hier kommt die Word‑to‑Markdown‑Bibliothek, ein Open‑Source‑Gem von Ben Balter, zur Rettung.

Word to Markdown ist ein leistungsstarkes Werkzeug, das die Konvertierung von .docx‑Dateien in sauberes, lesbares Markdown automatisiert und Ihnen unzählige Stunden manueller Formatierung spart. Im Kern ist es ein Ruby‑Gem, das Microsoft Word‑Dokumente intelligent in Markdown umwandelt. Es ist nicht nur ein einfacher Text‑Extrahierer; es versteht die zugrunde liegende Struktur eines Word‑Dokuments und übersetzt sie in die entsprechende Markdown‑Syntax. Das bedeutet, dass Überschriften, Listen, fett und kursiv formatierter Text und sogar komplexere Elemente wie Bilder und Tabellen während des Konvertierungsprozesses erhalten bleiben. Die Hauptfunktionen umfassen:

  • CLI-Tool für Batch- oder Einzeldateikonvertierung
  • Browser‑basierte Client‑Version
  • Minimale Abhängigkeiten und schnelle Laufzeit
  • Entwickelt, um lesbares Markdown mit Überschriften, Listen, Links, Bildern und sogar Fußnoten zu erzeugen
Previous Next

Erste Schritte mit Word to Markdown

Der empfohlene Weg, Word to Markdown zu installieren, ist die Nutzung von RubyGems. Bitte verwenden Sie den folgenden Befehl für eine reibungslose Installation.

Word to Markdown via RubyGems installieren

gem install word-to-markdown 
You can also download it directly from GitHub.

Word-Docx mit Ruby in Markdown konvertieren

Die Word‑to‑Markdown‑Bibliothek bietet eine beeindruckende Liste unterstützter Konvertierungen und ist damit ein vielseitiges Werkzeug für zahlreiche Anwendungsfälle. Das Gem analysiert .docx‑Dateien (Office Open XML‑Format) und ältere .doc‑Dateien, extrahiert Text, Überschriften, Listen, Links, Tabellen, Bilder und mehr. Die Bibliothek konvertiert grundlegende Textformatierungen nahtlos, sodass Betonungen und Struktur Ihres Inhalts erhalten bleiben. Standardabsätze werden mit korrektem Abstand konvertiert, ebenso wird Text, der in Word fett oder kursiv formatiert ist, mühelos in die jeweilige Markdown‑Syntax übersetzt. Das folgende Beispiel zeigt, wie Softwareentwickler Word‑Dokumente mit grundlegender Textformatierung mittels Ruby‑Bibliothek konvertieren können.

Wie konvertiert man Word-Docx mit grundlegender Formatierung via Ruby in Markdown?

require 'word-to-markdown'

# Create a new WordToMarkdown object with the path to your .docx file
w2m = WordToMarkdown.new("path/to/your/document.docx")

# Convert the document to Markdown
markdown_output = w2m.to_s

# Print the output
puts markdown_output

Bilder- und Link-Extraktion via Ruby

Bilder stellen beim Inhaltstransfer oft ein Problem dar, aber die Word‑to‑Markdown‑Bibliothek behandelt sie problemlos. Die Bibliothek unterstützt das vollständige Extrahieren von Bildern, Tabellen und Links aus Microsoft Word‑Dokumenten innerhalb von Ruby‑Anwendungen. Sie extrahiert die Bilder aus dem Word‑Dokument und erzeugt automatisch die Markdown‑Bildsyntax (![alt text](image_url)). Das folgende Beispiel demonstriert, wie Entwickler Bilder in das Verzeichnis images/ extrahieren und Markdown‑Bildlinks im Ausgabe‑Markdown mit der Ruby‑API einbetten können.

Wie verarbeitet man Bilder in Word-Dokumenten automatisch via Ruby?

options = { extract_images: true, image_output_dir: "images" }
md_with_images = WordToMarkdown.convert("report.docx", **options)
puts md_with_images

Tabellen- und Hyperlink-Extraktion aus Word-Datei via Ruby

Tabellen sind ein weiteres komplexes Element, das manuell schwer zu konvertieren ist. Die Open‑Source‑Word‑to‑Markdown‑Bibliothek leistet hervorragende Arbeit beim Umwandeln von Word‑Tabellen in die pipe‑basierte Tabellensyntax von Markdown mit nur wenigen Code‑Zeilen. Alle Hyperlinks im ursprünglichen Word‑Dokument bleiben erhalten und werden in die korrekte Markdown‑Link‑Syntax ([link text](url)) konvertiert.

 Deutsch