Хакер #305. Многошаговые SQL-инъекции
На этой неделе архивист Internet Archive Джейсон Скотт (Jason Scott) объявил о запуске проекта Discmaster, за созданием которого стоит группа анонимных программистов, занимающаяся «цифровой археологией». Discmaster позволяет любому желающему искать среди 92 млн старых файлов (более 11 ТБ информации), извлеченных с CD и дискет 80-х, 90-х и 2000-х годов.
Скотт рассказывает, что некоторое время назад с ним связалась группа энтузиастов, которая работала над созданием Discmaster более 18 месяцев и лишь после этого все же решила обратиться за помощью. По словам архивиста, он был просто потрясен, когда ознакомился с их работой, и сам почти не имеет отношения к созданию Discmaster. Фактически, Скотт лишь дал проекту название и разместил его на своем сайте.
Все файлы, объединенные Discmaster, были взяты из Internet Archive, куда их многие годы постепенно загружали тысячи людей. До недавнего времени главная проблема заключалась в том, что люди могли делиться с Internet Archive чем угодно: музыкой, текстовыми документами, древними мемами и старыми флеш-анимациями и так далее, но единственным способом выяснить, какие именно данные содержались на старых дискетах и компакт-дисках, была их загрузка, после которой, по словам Скотта, оставалось лишь молиться, чтобы нашлось подходящее ПО для рендеринга этой информации в понятный контент.
Авторы Discmaster проделали гигантскую работу и реализовали преобразование большинства форматов файлов на бэкэнде. Например, можно искать старую музыку в MIDI или даже оцифрованные звуки Amiga, и слушать их прямо в браузере без каких-либо дополнительных инструментов. То же самое касается видеофайлов с низким разрешением, изображений в экзотических для нынешнего времени форматах и различных типов документов.
То есть любые старые форматы файлов доступны для просмотра прямо в браузере (как в современном, так и в устаревшем). Скотт говорит, что кто-либо на старом Commodore 64 может без проблем использовать Discmaster, равно как и любой пользователь с новейшей версий Chrome.
На текущий момент Discmaster содержит информацию более чем с 7800 компакт-дисков и дискет и насчитывает более 113 миллионов файлов. Сайт объединил все это через единую поисковую систему с возможностью выполнять поиск по типу файла, формату, источнику, размеру файла, дате и многим другим параметрам.
«Наверное, для меня это один из самых важных проектов по исследованию компьютерной истории за последние 10 лет, — говорит Скотт. — Пока он не закончен. Они [создатели Discmaster] проанализировали уже более 7000 компакт-дисков и собираются обработать еще 8000. Это будет бесконечный источник информации и самая крупная задача, над которой я буду работать в текущем году».
Скотт рассказывает, что Discmaster импонирует ему по многим причинам, но главная из них заключается в том, что это серьезный удар по скептикам, которые часто заявляют, что никто и никогда не будет просматривать все материалы Internet Archive, так как к ним слишком сложно получить доступ. Теперь есть инструмент, который сортирует и упорядочивает данные и делает их доступными для широкой аудитории.
Discmaster медленно изучает каждый компакт-диск и дискету в архиве, по мере продвижения расширяя свою базу данных. В зависимости от размера и типа файлов программе может потребоваться несколько часов, чтобы отсортировать данные и сделать их доступными для просмотра.
Скотт отмечает, что на дискетах и дисках неизбежно попадается личная и конфиденциальная информация, которая в итоге может быть непреднамеренно опубликована в широком доступе. Он обещает, что любой, кто свяжется по этому поводу с Internet Archive, сможет без труда удалить такие данные. По его словам, это была одна из первых функций, которую он попросил добавить в Discmaster.
Скотт заключает, что Discmaster — это невероятный инструмент для архивистов, историков, любопытствующих и людей, которые пытаются отыскать полузабытые медиафайлы или работы, которые давно считали утерянными. Под оригинальным твитом Скотта пользователи охотно делятся своими находками такого рода и рассказывают о том, как отыскали давно утраченные растровые шрифты, редкие файлы BBS и даже собственные программы, которые были написаны более 20 лет назад.