Как убрать повторы строк из файла

Часто возникает необходимость убрать
повторы из текстовика. При сборке своего словаря, при парсинге
логов, баз. В общем, думаю, ты частенько сталкивался с такого
рода проблемой. Да, существует куча программ для работы со
словарями, толпы написанных парсеров и т.д., но мы пойдем другим
путем.

1. Решение через PHP.

Создаем php-парсер без наворотов. Комментарии я привел в
коде, думаю, там все понятно. Сортировка по алфавиту и удаление
повторов, это то, что в 90% случаев требуется сделать.

<?php $file= file ('1.txt'); // файл на входе sort ($file); // сортируем по алфавиту $file = array_unique($file); // убираем повторы foreach($file as $val){ $end .= $val ; } $out=fopen('2.txt','w'); // файл на выходе fwrite($out,$end); fclose($out); ?>

Файл, который нужно отпарсить, может быть и удаленным, и
задаваться следующим образом:

$file= file (‘http://127.0.0.1/1.txt’);

Главное, чтобы это позволили настройки PHP-интерпретатора.

2. Консольное решение.

Владельцам линухов заморачиваться со скриптами вообще не
требуется. Все давно реализовано в консоли:

cat 1.txt | sort | uniq > 2.txt

То же самое, разумеется, можно проделать в шелле, когда
отпарсить файл нужно «на месте».

<?php $file= file (‘1.txt’); // файл на входе sort ($file); // сортируем по алфавиту $file = array_unique($file); // убираем повторы foreach($file as $val){ $end .= $val ; } $out=fopen(‘2.txt’,’w’); // файл на выходе fwrite($out,$end); fclose($out); ?>

← Ранее Как найти сайт, которому принадлежит таблица с паролями

Далее → Как сделать полноценный прокси-сервер из залитого шелла на уязвимой машине

Далее по этой теме
Ранее по этой теме

Оболочку на прокачку: советы по оптимизации команд и скриптов Powershell 2.0

PowerShell — очень удобный инструмент администратора, предоставляющий практически безграни…

17.11.2010
13 мин на чтение
Опасные обновления: заражение системы через механизм автоапдейтов

Любое современное приложение периодически запрашивает на сервере информацию о новых обнов…

24.08.2011
11 мин на чтение
Ставим на учет железо и софт. Как провести инвентаризацию оборудования и программного обеспечения, обойдясь малой кровью

IT-парк любой организации часто насчитывает не один десяток систем самой разной конфигурац…

02.11.2010
17 мин на чтение
Easy Hack

Не секрет, что количество client-side-атак все увеличивается и увеличивается, поэтому надо…

04.12.2010
11 мин на чтение
Пингвин с реактивным ранцем: Ускоряем запуск приложений в Linux

Linux становится все тяжелее и тяжелее. Сегодня уже никого не удивишь приложениями, время …

13.01.2011
8 мин на чтение
Windows Filtering Platform в защите и нападении

Начиная с Server 2008 и Vista в винду был встроен механизм WFP, представляющий собой набо…

23.12.2010
16 мин на чтение

Are you ready for the big Internet crunch?

The internet as we know it is reaching its limits.

07.06.2010
2 мин на чтение
Feds say dev`s `cookie-stuffer` app fleeced eBay

A Las Vegas web developer has been charged with fleecing eBay out of tens of thousands of…

10.02.2010
2 мин на чтение
Оболочку на прокачку: советы по оптимизации команд и скриптов Powershell 2.0

PowerShell — очень удобный инструмент администратора, предоставляющий практически безграни…

11.05.2010
13 мин на чтение
7 steps from Injection to the Admin Access via RDP

Any break-in pursues its own aim, which determines its value. It's up to you to decide wh…

15.12.2009
86 мин на чтение
Hackers’ playground: hackers’ brain-twisters

Have you ever thought about legal hacking? Is it possible to do the things you love and p…

16.07.2010
81 мин на чтение
Backstreet`s Back: total destruction of the Backstreet Boys band

Salute, my dear admirer of the Backstreet Boys band! Today I will tell you an interesting…

05.02.2010
52 мин на чтение

Как убрать повторы строк из файла

Оболочку на прокачку: советы по оптимизации команд и скриптов Powershell 2.0

Опасные обновления: заражение системы через механизм автоапдейтов

Ставим на учет железо и софт. Как провести инвентаризацию оборудования и программного обеспечения, обойдясь малой кровью

Easy Hack

Пингвин с реактивным ранцем: Ускоряем запуск приложений в Linux

Windows Filtering Platform в защите и нападении

Are you ready for the big Internet crunch?

Feds say dev`s `cookie-stuffer` app fleeced eBay

Оболочку на прокачку: советы по оптимизации команд и скриптов Powershell 2.0

7 steps from Injection to the Admin Access via RDP

Hackers’ playground: hackers’ brain-twisters

Backstreet`s Back: total destruction of the Backstreet Boys band

Подпишись на наc в Telegram!

Из рубрики «Взлом»

WinAPI днем и ночью. Ищем способы обращения к нативному коду из C#

Обзор перспективных исследований. Колонка Дениса Макрушина

HTB Hospital. Получаем доступ к хосту через уязвимость Ghostscript

EIGRP Scam. Отравляем таблицу маршрутизации на Python

Трюки

Липовый соникс. Реверсим картридж Liposonix и пишем его эмулятор

Новая диета для Linux. Загружаем современный Linux, используя минимум памяти

Фишинг в соцсетях. Как социальные сети помогают хакерам

Сделай мне красиво! Изобретаем персональный нейросетевой фотоувеличитель

Последние новости

Майнеры используют уязвимости в OpenMetadata и оставляют жертвам записки

Microsoft случайно добавила Copilot в Windows Server

GPT-4 может эксплуатировать уязвимости, изучив связанные бюллетени безопасности

Cisco патчит уязвимость повышения привилегий в IMC

Стал доступен API для Stable Diffusion 3