Как убрать повторы строк из файла

Часто возникает необходимость убрать
повторы из текстовика. При сборке своего словаря, при парсинге
логов, баз. В общем, думаю, ты частенько сталкивался с такого
рода проблемой. Да, существует куча программ для работы со
словарями, толпы написанных парсеров и т.д., но мы пойдем другим
путем.

1. Решение через PHP.

Создаем php-парсер без наворотов. Комментарии я привел в
коде, думаю, там все понятно. Сортировка по алфавиту и удаление
повторов, это то, что в 90% случаев требуется сделать.

<?php $file= file ('1.txt'); // файл на входе sort ($file); // сортируем по алфавиту $file = array_unique($file); // убираем повторы foreach($file as $val){ $end .= $val ; } $out=fopen('2.txt','w'); // файл на выходе fwrite($out,$end); fclose($out); ?>

Файл, который нужно отпарсить, может быть и удаленным, и
задаваться следующим образом:

$file= file (‘http://127.0.0.1/1.txt’);

Главное, чтобы это позволили настройки PHP-интерпретатора.

2. Консольное решение.

Владельцам линухов заморачиваться со скриптами вообще не
требуется. Все давно реализовано в консоли:

cat 1.txt | sort | uniq > 2.txt

То же самое, разумеется, можно проделать в шелле, когда
отпарсить файл нужно «на месте».

<?php $file= file (‘1.txt’); // файл на входе sort ($file); // сортируем по алфавиту $file = array_unique($file); // убираем повторы foreach($file as $val){ $end .= $val ; } $out=fopen(‘2.txt’,’w’); // файл на выходе fwrite($out,$end); fclose($out); ?>

← Ранее Как найти сайт, которому принадлежит таблица с паролями

Далее → Как сделать полноценный прокси-сервер из залитого шелла на уязвимой машине

Далее по этой теме
Ранее по этой теме

Оболочку на прокачку: советы по оптимизации команд и скриптов Powershell 2.0

PowerShell — очень удобный инструмент администратора, предоставляющий практически безграни…

17.11.2010
13 мин на чтение
Опасные обновления: заражение системы через механизм автоапдейтов

Любое современное приложение периодически запрашивает на сервере информацию о новых обнов…

24.08.2011
11 мин на чтение
Ставим на учет железо и софт. Как провести инвентаризацию оборудования и программного обеспечения, обойдясь малой кровью

IT-парк любой организации часто насчитывает не один десяток систем самой разной конфигурац…

02.11.2010
17 мин на чтение
Easy Hack

Не секрет, что количество client-side-атак все увеличивается и увеличивается, поэтому надо…

04.12.2010
11 мин на чтение
Пингвин с реактивным ранцем: Ускоряем запуск приложений в Linux

Linux становится все тяжелее и тяжелее. Сегодня уже никого не удивишь приложениями, время …

13.01.2011
8 мин на чтение
Windows Filtering Platform в защите и нападении

Начиная с Server 2008 и Vista в винду был встроен механизм WFP, представляющий собой набо…

23.12.2010
16 мин на чтение

Are you ready for the big Internet crunch?

The internet as we know it is reaching its limits.

07.06.2010
2 мин на чтение
Feds say dev`s `cookie-stuffer` app fleeced eBay

A Las Vegas web developer has been charged with fleecing eBay out of tens of thousands of…

10.02.2010
2 мин на чтение
Оболочку на прокачку: советы по оптимизации команд и скриптов Powershell 2.0

PowerShell — очень удобный инструмент администратора, предоставляющий практически безграни…

11.05.2010
13 мин на чтение
7 steps from Injection to the Admin Access via RDP

Any break-in pursues its own aim, which determines its value. It's up to you to decide wh…

15.12.2009
86 мин на чтение
Hackers’ playground: hackers’ brain-twisters

Have you ever thought about legal hacking? Is it possible to do the things you love and p…

16.07.2010
81 мин на чтение
Backstreet`s Back: total destruction of the Backstreet Boys band

Salute, my dear admirer of the Backstreet Boys band! Today I will tell you an interesting…

05.02.2010
52 мин на чтение

Подпишись на наc в Telegram!