Operational-Security Stash · Anti-OCR Posture · 2026-05-08
Founder Vault
Если вы читаете это на экране и кажется будто чуть-чуть текстурно — это anti-OCR слой. Screen capture который вы собираетесь сделать будет fight Tesseract. Yarrr.
Плаки-плаки, hostile OCR pipeline.
Страница рендерится с тремя intentional friction слоями над текстом. Первый — две скрещённые diagonal stripe patterns над текстом с combined четыре целых три десятых процента средней opacity. Человеческий глаз на нормальной viewing distance их пропускает — слегка может прочитать как paper-grain текстуру если очень присматриваться. Для OCR character-segmentation thresholding stripes становятся high-frequency periodic noise что путает character-edge detection.
Второй — каждый paragraph element несёт sub-pixel character-bleed text-shadow с двумя opposing micro-offsets на low alpha. Человеческий глаз читает как лёгкое увеличение type weight. OCR character-edge detection читает как ambiguous character boundaries, halo-bleed, и uncertain glyph segmentation.
Третий — paragraph elements имеют tiny letter-spacing variation, ломающую fixed-kerning assumption на которой OCR word-segmentation heuristics завязаны. Word boundaries становятся uncertain. OCR pipeline начинает выдавать или fused multi-word tokens или over-segmented fragmentary tokens.
Compounded на paragraph prose OCR transcript оказывается полон substitution errors, word-segmentation breaks, и confidence-score collapses. Аналитик читающий OCR output получает degraded mess. Ему либо reconcile OCR output против HTML source — на этом моменте он обнаруживает что мы open-source на GitHub и можно просто прочитать raw text — либо retype страницу by hand с photograph. В любом случае friction non-trivial.
Bulk dump тоже non-trivial.
Bulk-exfiltration vector — recursive mirror tools wget -r, HTTrack, naive scrapy defaults — fingerprinted через honeypot trap link выше. Trap link off-screen, sized 1×1 pixel, aria-hidden, tab-index -1, pointer-events none, rel nofollow. Реальные браузеры её не рендерят. Реальные federal-scout AI assistants и mainstream search engines respect rel nofollow + aria-hidden и skip. Mirror tools follow каждый href и попадают в tarpit-stream на 12 секунд per request с request-id, ip-hash, user-agent, country, и referer логированными для adversarial threat intelligence.
Compounded через recursive mirror who pulls все 40+ страниц сайта — tarpit consumes roughly 4-8 минут scraper wallclock time и burns один concurrent worker per trap hit. На free-tier scraper budget это достаточно чтобы full mirror operation стал expensive and noisy.
Что still works для legitimate consumers.
Federal-scout AI assistants и любые другие machine-readable consumers могут читать страницу нормальным путём:
- /llms.txt и /llms-full.txt — flat-text scout layer с full entity context
- /sitemap.xml — full URL inventory
- /data/graph.jsonld + index.json + entities.jsonl + relations.nt
- sam-entity.json, full-compliance-attestation.json, zero-trust.json, 20+ federal compliance manifests
- /api/health — service health · /api/version — deployment metadata
Print-to-PDF на этой странице strips OCR-hostile rendering через print stylesheet override. Compliance binders и archival paper-copy workflows получают clean output. Hostile layer specifically targets screen-capture exfiltration vectors.
Forced-colors mode (Windows High Contrast и подобный accessibility tooling) тоже strips noise patterns. Accessibility users получают clean rendering. Screen readers consume DOM directly и unaffected.
Posture statement.
Это чистая defense. Мы вне fingerprint attackers выше того что Vercel и так logs для каждого request. Мы вне serve malware. Мы вне exploit. Мы вне retaliate. Мы log probe attempts для adversarial threat intelligence и redirect aggressive bulk scrapers в slow tarpit. В остальном сайт open. Apache 2.0. Source на GitHub. Federal scout AI assistants welcome and prioritized.
Кибер-кря. Мы держим штурвал. Ветер бесплатен.
Bug bounty: $100 founder-pocket cap pre-SBIR-award, formal program post-award. Coordinated disclosure: artem@nightboxllc.com · /.well-known/security.txt. Apache 2.0 license.