Cara Menghapus baris duplikat atau baris ganda

2024-10-26 19:54:25 - Coderja

Beberapa metode untuk menghapus "duplicate lines" atau baris ganda dari sebuah file txt menggunakan metode populer

Tentu, mari kita bahas cara menghapus baris duplikat dari file teks (.txt) menggunakan beberapa metode populer:

1. Menggunakan Command Prompt (CMD) Windows:

Script:

Bash

sort file.txt | uniq > new_file.txt

Penjelasan:

  1. sort: Mengurutkan baris dalam file.txt. Pengurutan diperlukan agar baris duplikat bersebelahan.
  2. uniq: Membaca input yang diurutkan dan menghapus baris yang berurutan dan identik.
  3. >: Mengarahkan output ke file baru bernama new_file.txt.


2. Menggunakan PowerShell:

Script:

PowerShell

Get-Content file.txt | Select-Object -Unique > new_file.txt

Penjelasan:

  1. Get-Content: Membaca isi file.txt.
  2. Select-Object -Unique: Memilih objek unik (baris) dari input.
  3. >: Mengarahkan output ke new_file.txt.


3. Menggunakan Python:

Script:

Python

lines_seen = set()  # Menyimpan baris yang sudah dilihat
with open("file.txt", "r") as f, open("new_file.txt", "w") as outfile:
    for line in f:
        if line not in lines_seen:  # Jika baris belum ada, tulis ke file baru
            outfile.write(line)
            lines_seen.add(line)

Penjelasan:

  1. lines_seen: Set untuk menyimpan baris yang sudah ditemui. Set menjamin keunikan elemen.
  2. Buka file.txt dalam mode baca (r) dan new_file.txt dalam mode tulis (w).
  3. Iterasi setiap baris dalam file.txt.
  4. Jika baris belum ada di lines_seen, tulis baris tersebut ke new_file.txt dan tambahkan ke lines_seen.


Metode Tambahan:


Pertimbangan Tambahan:


Contoh Penggunaan:

Misalkan file.txt berisi:

apel
jeruk
apel
mangga
jeruk

Setelah menjalankan salah satu skrip di atas, new_file.txt akan berisi:

apel
jeruk
mangga

Semoga penjelasan ini membantu Anda memahami cara menghapus baris duplikat dari file teks!

More Posts