HTML metin çıkarma nedir?

HTML metin çıkarma, bir HTML belgesinden tüm işaretleme etiketlerini, özniteliklerini ve kodunu kaldırarak yalnızca insan tarafından okunabilir metin içeriğini almak işlemidir. HTML (HyperText Markup Language), <p>, <div>, <span> ve içeriğin nasıl görüntülendiğini tanımlayan yüzlerce başka etiket kullanarak web sayfalarını yapılandırır. Tarayıcılar bu etiketleri görünmez şekilde işlerken, temel kaynak kod yalnızca metinden çok daha fazlasını içerir.

Bir web sayfasından metin kopyaladığınızda, genellikle temiz metin elde edersiniz. Ancak ham HTML kaynak kodu ile çalışırken, anlamlı metin çıkarmak iç içe geçmiş etiketleri ayrıştırmayı, komut dosyaları ve stiller gibi özel öğeleri işlemeyi ve boşluğu düzgün bir şekilde yönetmeyi gerektirir. Bu, içerik analizi, veri taşıması, erişilebilirlik denetimi veya metni daha ileri işleme için hazırlama gibi görevler için özellikle önemlidir.

Araç açıklaması

Bu araç, tüm HTML etiketlerini kaldırır ve herhangi bir HTML girdisinden saf metin içeriğini çıkarır. Blok düzeyindeki öğeleri, satır içi içeriği ve komut dosyaları ile stil blokları gibi özel öğeleri akıllıca işler. Çıkarılan metin, isteğe bağlı biçimlendirme denetimleri ve içerik hakkında kapsamlı istatistiklerle sunulur.

Örnekler

Giriş:

<html>
  <head>
    <style>
      body {
        color: black;
      }
    </style>
    <script>
      console.log("Hello");
    </script>
  </head>
  <body>
    <h1>Sitemize Hoş Geldiniz</h1>
    <p>
      Bu, <strong>örnek</strong> bir paragraf ve
      <em>biçimlendirilmiş</em> metindir.
    </p>
    <ul>
      <li>Birinci öğe</li>
      <li>İkinci öğe</li>
    </ul>
    <!-- Bu bir yorumdur -->
  </body>
</html>

Çıkış:

Sitemize Hoş Geldiniz

Bu, örnek bir paragraf ve biçimlendirilmiş metindir.

Birinci öğe

İkinci öğe

Özellikler

  • Metin içeriğini koruyarak tüm HTML etiketlerini kaldırır
  • Varsayılan olarak komut dosyası, stil ve yorum içeriğini hariç tutar
  • Akıllı satır sonu işleme ile belge yapısını korur

Seçenekler açıklaması

Seçenek Açıklama
Satır sonlarını koru Blok düzeyindeki HTML öğelerini (paragraflar, divler, başlıklar, liste öğeleri) satır sonlarına dönüştürerek belgenin görsel yapısını korur
Fazla boşluğu kaldır Birden fazla ardışık boşluğu tek boşluğa daraltır ve satır sonlarını normalleştirerek daha temiz çıktı üretir
Komut dosyalarını hariç tut Çıkarmadan tüm <script> etiketlerini ve bunların JavaScript içeriğini kaldırır
Stilleri hariç tut Çıkarmadan tüm <style> etiketlerini ve bunların CSS içeriğini kaldırır
Yorumları hariç tut HTML yorumlarını (<!-- ... -->) çıkarmadan kaldırır