Programming

reCaptcha가 크랙 / 해킹 / OCR / 패배 / 파손 되었습니까?

procodes 2020. 5. 23. 23:22
반응형

reCaptcha가 크랙 / 해킹 / OCR / 패배 / 파손 되었습니까? [닫은]


reCAPTCHA를 물리 치기 위해 프로그래밍 방법이 사용 되었습니까?

저는 특히 reCAPTCHA가 완전 자동화되고 인간이없는 방법으로 폐기되었다는 증거 및 잠재적 시연에 관심이 있습니다.

팀이 CAPCHA, 포르노 추적자 또는 Mechanical Turk를 작성해야하는지 여부에 관계없이 어떤 방식 으로든 사람과 관련된 reCAPTCHA 부정 행위 솔루션을 찾고 있지 않음 을 명확히 합니다.

또한 동물 유형, 배경 필드 또는 자바 스크립트 속임수 선택과 같은 reCAPTCHA의 대안을 찾고 있지 않습니다 .


나는 여기에 거의 모든 답변을의 비 효율성에 관련된 것을 알 수 개념 원칙적으로 CAPTCHA의 - 나는 매우 그들에 동의하면서, 사실에 준 OWASP에서 이야기를 몇 달 전 그냥 설명 - 문제는 특정 매우입니다 데모를 제공 할 것입니다.
그러나 먼저, 시위를 제쳐두고 다른 의견을 다시 읽어 볼 것입니다. CAPTCHA는 구현에 관계없이 의미가없고 도움이되지 않는다는 것이 사실이기 때문입니다 ....

그러나 실제로는 CAPTCHA Killer를 확인하십시오 . 보안 문자 이미지를 업로드 할 수 있으며 즉시 그렇지 않은 경우 자동으로 OCR의 답변을 제공합니다. 또한 API (REST, 생각하지만 SOAP도 제공)를 제공합니다. 나는 개인적으로 수많은 reCAPTCHA 이미지를 시도했지만 실제로 가장 쉬운 이미지 중 하나였습니다.

업데이트 : CAPTCHA Killer의 웹 사이트는 이제 법적 압력을 받고 중단되었습니다. 주제에 대한 전체 개요는 http://captcha.org/참조 하십시오 .

그렇습니다. OCR은 보안 문자로 보호 된 사이트를 차단하는 가장 좋은 방법은 아닙니다. 더 좋은 방법이 많이 있습니다.


4chan이 reCAPTCHA를 물리 친 방법에 대한이 자세한 보고서에 관심이 있고 Time.com의 연간 TIME 100 설문 조사 결과를 조작하는 데 사용했습니다 .

해킹 요점 (일명 '남성 홍수')

다음 전략은 reCAPTCHA 구현에서 결함을 찾을 수 있는지 확인하는 것이 었습니다. 그들이 reCAPTCHA에 대해 발견 한 한 가지는 디코딩을 위해 항상 두 단어를 사용자에게 제공한다는 것입니다. 한 단어는 reCAPTCHA 시스템에 의해 알려진 제어 단어이고 다른 단어는 알 수없는 단어입니다 (reCAPTCHA는 인간을 사용하여 OCR 오류를 수정합니다). Wikipedia는 그 과정을 다음과 같이 설명합니다.“스캔 한 텍스트는 두 개의 서로 다른 광학 문자 인식 프로그램으로 분석됩니다. 프로그램이 동의하지 않는 경우 의심스러운 단어는 보안 문자로 변환됩니다. 단어는 이미 알려진 제어 단어와 함께 표시되며 사람이 표시합니다. 인간 판사에 의해 지속적으로 단일 레이블이 부여 된 단어는 제어 단어로 재활용됩니다.” 익명이 깨달은 것은 그들이 항상 같은 단어로 알 수없는 스캔 된 텍스트에 레이블을 붙였다면, 그리고 수천 번이나 수천 번을했다면 결국 알 수없는 단어의 상당 부분이 그들의 단어로 잘못 레이블링 될 것입니다. 그들이해야 할 일은 보안 문자에있는 두 단어를보고 '쉬운'하나에 대한 적절한 레이블을 입력 한 것입니다 (아마도 두 광학 스캐너가 동의 할 것입니다). 어려운 것. 그들이 충분히 자주 그렇게했다면, 곧 이미지의 상당 부분이 '남근'으로 표시되고 자동 투표 기능이 회복 될 것입니다 (익명에서 손실되지 않은 부작용은 앞으로 몇 년 동안의 개념이었습니다) 텍스트 전체에 'penis'라는 단어가 무작위로 삽입 된 많은 디지털 책이있을 것입니다.

reCAPTCHA 최적화

'남성'이라는 단어를 텍스트에 뿌린다는 개념만큼이나, 익명의 팀은 시계가 똑딱 거리고 있다는 것을 알았으며, 메시지를 복원하려는 경우 자동 투표자가 온라인으로 돌아올 때까지 기다릴 시간이 없었습니다. 그들은 여러 번 수동으로 투표해야했습니다. 그래서 그들은 가능한 빨리 보안 문자를 입력 할 수 있어야했습니다. 그들은 어떤 reCAPTCHA 단어를 건너 뛸 수 있는지 신속하게 결정할 수있는 일련의 지침을 개발했습니다. 예를 들면 다음과 같습니다.

실제 단어 1 개, 가짜 1 단어 2 개가 제공됩니다.

의 경우 [REAL FAKE]또는 [FAKE REAL], 당신은 입력 할 수 REAL있으며 허용해야한다.

그것의 경우 [LOOKSREAL LOOKSREAL][LOOKSFAKE LOOKSFAKE],이 두 단어 단지 형식에 불과 빨리 일반적입니다. 어느 것이 진짜인지 결정하는 소중한 시간을 낭비하지 마십시오.

모양과 단어 유형을 모두 사용하여 가짜 단어를 식별하십시오. 그들 중 하나에 만 의존하지 마십시오.

전체 규칙 세트가 여기 있습니다 : fake captcha .


보안 문자 시스템의 약점은 사람들이 보안 문자 이미지를보고 결과를 입력하는 것만으로도 중국에 사람들로 가득 찬 방을 설정한다는 것입니다. 실제로 스팸을하는 자동화 된 시스템에 연결됩니다.

실제로 당신이 할 수있는 일은 많지 않습니다.

실제 이미지에서 이미지 인식, OCR 등을 시도하는 것보다 훨씬 저렴합니다 (다른 방법으로 $ 0.01 미만의 응답을 얻을 수 있음).


보안 문자 사용에 대한 부담을 느끼기 전에 CSS에 숨겨진 "Your Comments"라는 필드가있는 등의 창의적인 해결 방법을 고려하십시오. 필드를 입력하면 서버에서 요청을 삭제합니다. 여전히 임금이 부족한 노동자들로 가득 찬 방을 물리 칠 수있는 좋은 방법이없는 경우에도 대부분의 봇은 실패합니다.

업데이트 : CAPTCHA를 제거하면 전환율이 거의 10 % 증가한 사례 연구를 읽으십시오 . 그것은 당신이 단지 봇을 걸러 내기 위해 리드의 10 %를 잃는다면 오히려 망가 졌음을 나타냅니다. 대부분의 비즈니스에서 10 %가 무엇을 의미하는지 상상해보십시오.


내가 가장 좋아하는 보안 문자는 Microsoft의 것입니다 : http://research.microsoft.com/en-us/um/redmond/projects/asirra/

Asirra (액세스 제한을위한 동물 종 이미지 인식)는 사용자에게 고양이와 강아지의 사진을 식별하도록 요청하는 HIP입니다. 이 작업은 컴퓨터에서는 어렵지만 사용자 연구에 따르면 사람들이 빠르고 정확하게 수행 할 수 있습니다. 많은 사람들은 그것이 재미 있다고 생각합니다!

무료 서비스이며 시작하기위한 예제 코드가 있습니다.

금이 오기까지 얼마나 걸리는지 궁금합니다.


reCAPTACHA는 손상되지 않았으며 오랫동안 지속되지 않을 것입니다. 문제가 발생하면 자체 보안 문자를 구현하면 문제를 해결하는 데 시간이 오래 걸릴 수 있습니다.

이것은 reCAPTCHA security에 관한 페이지 에서 발췌 한 것입니다 .

reCAPTCHA는 웹 서비스입니다. 이는 모든 이미지가 Google 서버에서 생성되고 등급이 매겨 짐을 의미합니다. (…) 또한 추가적인 보호 수준을 제공합니다. 보안 취약점이 발견 될 때마다 보안 문자를 자동으로 업데이트 할 수 있습니다.

예를 들어, 누군가가 왜곡 된 이미지를 읽을 수있는 프로그램을 작성하는 경우 웹 마스터가 아무것도 변경하지 않고도 아주 짧은 시간에 더 많은 왜곡을 추가 할 수 있습니다 .

나는 그들이 보안 문자에 전문화되어 있기 때문에 필요한 경우 짧은 시간 내에 배포 할 수 있도록 저장된 버전을 개선했습니다. (약자가 깨지지 않았을 때 왜 더 강력한 보안을 만들어야합니까?)


Not only has it been defeated, but also a useful application has been successfully built on top of it, to become the most amazing tool to defeat all kind of free-account protections of a big list of direct download sites (not only megaupload and rapidshare).

Jdownloader is open source and written in Java so a peek at the source code can answer not only if it is broken but also how.

Edit: Most of direct download sites do not use reCaptcha, but a simpler Captcha method (3 capital letters colored in different colors). Nonetheless Jdownloader and Cryptload (a program similar to Jdownloader) are the only working implementations that I know that effectively have broken a Captcha method. I have not heard of any implementation to crack reCaptcha.

Update: It seems that at least one implementation of reCaptcha (not whole reCaptcha itself) has been cracked too.

Update Dec 2010: Jdownloader seems at last to be defeating reCaptcha. The plugin is still experimental and works only on Windows versions of Jdownloader, but, as I have been told by a mate who tried it, it does work.


There was a speech at Defcon last year that went into the problems with CAPTCHAs in general. One of the things they did is use multiple free OCR engines and had them vote on the best words. Doing this, they were able to achieve a somewhat decent chance of succeeding. For one kind, it was 40% or so, I don't think it was reCaptcha, though.


  • "In fact, it [reCAPTCHA] became pretty useless on 4 January [2011] when spammers apparently got their collective hands on a piece of software that circumvents reCAPTCHA and allows for a fully automated registration process. The bots have been busy, very busy indeed, ever since" [ 1 ]

2-3 years ago the text-typing based captchas approach trespassed the line when they lost its battle, i.e. further complications just make them relatively (since computer power is increasing, while human's not) easier for machines and more repugnant and repelling, if not completely impossible, to humans. This contadicts to original paradigm of CAPTCHA as a test to to ensure that the response is not generated by a computer

Update:
Note that reCAPTCHA is owned by Google Inc. but Google Inc. does not use it by their own services.
Here is a link containg webpage with captcha used by Google itself/internally for ex., for Gmail registration:

alt text



Note that Google's reCAPTCHA always has 2 words.
Here is the link for image with Google's reCAPTCHA offered to be used by others.

And reCAPTCHA's screenshot:

alt text

I leave to make the obvious conclusions to a reader.

Cited: [ 1 ]
vBulletin forums hit by reCAPTCHA cracking spam bot | PC Pro blog
Posted on January 12th, 2011 by Davey Winder


I'm seeing blog comments on a system protected by reCAPTCHA where the page loads and 1 second later the post was made successfully. The User-Agent was nonsense (in this particular case it claimed to be running Ubuntu 9.25/Firefox 3.8), the referrer was from a completely unrelated site with no link to us.

This is clearly automated.


reCAPTCHA has not been defeated. If it had been, then why did Google just buy it and announce they will be applying the technology within Google to increase fraud and spam protection for Google products?

from Google Acquires reCAPTCHA posted to the Google Blog on 9/16/09:

In this way, reCAPTCHA’s unique technology improves the process that converts scanned images into plain text, known as Optical Character Recognition (OCR). This technology also powers large scale text scanning projects like Google Books and Google News Archive Search. Having the text version of documents is important because plain text can be searched, easily rendered on mobile devices and displayed to visually impaired users. So we'll be applying the technology within Google not only to increase fraud and spam protection for Google products but also to improve our books and newspaper scanning process.


The easiest way to defeat Captchas is Amazon Mechanical Turk. There's a guy named Kermit Welda who pays people a nickel each to register Hotmail, AOL and Gmail accounts. That's 6,000 fake email accounts at 5 cents = $300 a day. The cost of doing business is pretty cheap when you have other people do the dirty work for you. No wonder our server's spam filters want to reject anything from Hotmail.


AFAIK In practice there is no tool to crack RE-captcha implementation, however eventually I assume someone will get it.

Funny enough if someone manages to get it then the whole RE-captcha project is pointless because re-captcha designed digitalize books which can't be done in an automated way.

BTW :

The weakness of CAPTCHA systems is that people set up rooms full of people in China whose only job it is is to look at a CAPTCHA image and type in the result, which plugs into the automated system that's actually doing the spamming.

You can't secure a system thinking like that, this is like saying "your web application is not secure enough if your host is not in a old military bunker, because now people can steal your machine".


There are lots of methods that are used to crap recaptcha. While its hard to use neural netwpork enabled programs to automatically solve them, its possible to grab the image and have amazon's mechanical turk or some equivalent program to solve them.

http://codemagician.wordpress.com/2010/01/22/solving-recaptcha/

참고URL : https://stackoverflow.com/questions/448963/has-recaptcha-been-cracked-hacked-ocrd-defeated-broken

반응형