Remove-HtmlTags

EulandaXtools — Funktionsreferenz

Remove-HtmlTags

ÜBERSICHT

Entfernt Html-Tags aus einem übergebenen Text.

SYNTAX

Remove-HtmlTags [[-Html] <string>] [<CommonParameters>]

BESCHREIBUNG

Diese Funktion bereinigt eine Zeichenkette, indem sie alle Html-Tags entfernt - also alles, was in spitzen Klammern ('<...>') steht, inklusive Kommentaren oder Scripts, sofern sie als Tag erkannt werden.

Die Funktion basiert auf einem einfachen regulären Ausdruck und eignet sich zur Grobbereinigung von Html-Fragmenten, etwa zur Darstellung im Klartext oder zur Weiterverarbeitung ohne Markup.

PARAMETER

-Html

Type: string

Der Html-Text (als Zeichenkette), aus dem die Html-Tags entfernt werden sollen.

AUSGABEN

string

Gibt den bereinigten Text ohne Html-Tags zurück.

BEISPIELE

# Gibt zurück: "Hello World"
Remove-HtmlTags -Html "<p>Hello <strong>World</strong></p>"
# Entfernt alle Tags aus einer Html-Datei und speichert den reinen Text in '$plain'.
$plain = Get-Content page.Html -Raw | Remove-HtmlTags

HINWEISE

Der verwendete reguläre Ausdruck ('<.*?>') ist nicht Html-konform im strengen Sinne, funktioniert aber zuverlässig für einfache bis mittlere Html-Strukturen. Nicht geeignet für vollständiges Html-Parsing (dafür z.B. HtmlAgilityPack verwenden). Quelle des Patterns: VBScript Shop (angepasst für PowerShell)