Notice
Recent Posts
Recent Comments
Link
05-15 01:13
관리 메뉴

필피리의 잡학사전

Google Unveils Neural Network with “Superhuman” Ability to Determine the Location of Almost Any Image 본문

IT/High concept

Google Unveils Neural Network with “Superhuman” Ability to Determine the Location of Almost Any Image

김수필 2016. 3. 21. 21:29
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.



이번에 포스팅 할 주제는 구글의 PlaNet에 관련된 내용이다.

Planet은 구글에서 개발한 것으로, 사진에 보이는 모습으로 이 곳이 세계에 어디인지를 맞추는 프로젝트이다.


MIT Technology 기사를 번역하였으면,

아래 링크에서 원문을 확인할 수 있다.



https://www.technologyreview.com/s/600889/google-unveils-neural-network-with-superhuman-ability-to-determine-the-location-of-almost/



 Google Unveils Neural Network with “Superhuman” Ability to Determine the Location of Almost Any Image

구글은 거의 어떤 이미지에 대한 위치를 맞추는 능력을 가진 neural network를 공개했다.



Guessing the location of a randomly chosen Street View image is hard, even for well-traveled humans. 

But Google’s latest artificial-intelligence machine manages it with relative ease.


여행 경험이 풍부한 사람조차 무작위 하게 선택된 이미지의 장소를 예상하는 것은 어렵다. 하지만 구글의 최신 인공지능은 쉽게 처리한다.


by Emerging Technology from the arXiv, February 24, 2016




Here’s a tricky task. Pick a photograph from the Web at random. 

Now try to work out where it was taken using only the image itself. 

If the image shows a famous building or landmark, such as the Eiffel Tower or Niagara Falls, the task is straightforward.

 But the job becomes significantly harder when the image lacks specific location cues 

or is taken indoors or shows a pet or food or some other detail.


여기 어려운 일 하나를 가져왔다. web에서 무작위 하게 사진 한 장을 고른다. 자, 이제 이 사진이 어디에서 찍혔는지 맞춰봐라. 

만약 그 사진이 '에펠 탑' 혹은 나이아가라 폭포 같은 유명한 건물이나 관광지 사진이라면, 이걸 맞추는 것은 간단하다. 

하지만 다음과 같이 이미지에 특정한 지역에 대한 단서가 부족하거나 내부를 찍었거나 혹은 동물, 음식 같은 특정한 사진일 때 맞추기란 어려워진다.





Nevertheless, humans are surprisingly good at this task. To help, they bring to bear all kinds of knowledge about the world such as the type and language of signs on display, the types of vegetation, architectural styles, the direction of traffic, and so on. Humans spend a lifetime picking up these kinds of geolocation cues.


그럼에도 불구하고, 인간들은 놀랍고 능숙하게 맞춘다. 그들은 이 문제를 풀기 위해 세상에 대한 모든 종류의 지식을 동원한다. 예를 들어 표지판에 표시된 언어나 유형, 식물의 종류, 건축 스타일 등이다. 사람들은 이러한 종류의 지역적인 단서를 모아가며 일생을 보낸다.



So it’s easy to think that machines would struggle with this task. And indeed, they have.


그래서 기계는 이 일을 하기엔 힘들어 할거라고 생각하기 쉽다. 그리고 사실, 기계는 그렇다.





Today, that changes thanks to the work of Tobias Weyand, a computer vision specialist at Google, and a couple of pals. 

These guys have trained a deep-learning machine to work out the location of almost any photo using only the pixels it contains.


오늘, 이런 생각은 구글에서 vision specialist로 일하는 Tobias Weyand와 그의 동료들 덕분에 바뀌게 되었다. 

그들은 거의 모든 사진의 장소를 계산하기 위해 deep-learning machine( alphago도 deep learning에 한 종류이다 )을 교육시켜왔다. 

여기서 사진에는 오직 pixel정보 만 포함된다.





Their new machine significantly outperforms humans and can even use a clever trick to determine the location of indoor images and pictures of specific things such as pets, food, and so on that have no location cues.


그들의 새로운 machine은 인간을 상당히 능가한다. 

심지어 이것은 실내 사진, 동물, 음식처럼 지역적인 정보가 없는 사진들도 더 영리한 방법을 사용하여 밝혀낸다.




Their approach is straightforward, at least in the world of machine learning. 

Weyand and co begin by dividing the world into a grid consisting of over 26,000 squares of varying size 

that depend on the number of images taken in that location.


그들의 접근법은 간단하다, 적어도 machine learning 세계에서는 말이다. 

그들은 세계를 26000개 이상의 다양한 크기에 격자 무늬로 나누면서 시작한다.

그 격자 들은 각 지역에서 찍혀진 사진 수에 따라 나눠진다.




So big cities, which are the subjects of many images, have a more fine-grained grid structure than more remote regions where photographs are less common. Indeed, the Google team ignored areas like oceans and the polar regions, where few photographs have been taken.

  • 그래서 많은 주제의 사진이 존재하는 큰 도시들은 사진이 적은 지역보다 조금 더 잘 정리된 격자 구조를 갖는다.

    사실 구글팀은 해양이나 극 지방처럼 사진이 거의 없는 지역은 무시했다.






    Next, the team created a database of geolocated images from the Web and used the location data to determine the grid square in which each image was taken. This data set is huge, consisting of 126 million images along with their accompanying Exif location data.


    다음으로 그 팀은 웹으로부터 지역화 된 사진에 대한 database를 만들었고, 각 사진이 찍혀진 곳의 격자 들을 맞추기 위해 지역 정보를 사용했다.

    이러한 데이터는 약 1억 2천6백만 장에 거대한 사진으로 구성되어 있다.

    거기에 각 사진들은 Exif 지역 정보를 동반하여 가진다.




    Weyand and co used 91 million of these images to teach a powerful neural network to work out the grid location using only the image itself. Their idea is to input an image into this neural net and get as the output a particular grid location or a set of likely candidates.


    그들은 격자로 된 지역들을 계산할 강력한 neural network를 가르치기 위해 약 9천 1백만장의 사진들을 사용했다.

    그들의 아이디어는 neural network에 사진을 넣으면 특정한 지역 격자 혹은 비슷한 후보 군을 결과로써 얻어내는 것이다.




    They then validated the neural network using the remaining 34 million images in the data set. Finally they tested the network—which they call PlaNet—in a number of different ways to see how well it works.


    그들은 남아있는 3천 4백만장(1억 2천6백만 - 9천 1백만)에 사진을 사용하여 neural network를 검증했다.

    마침내 그들은 이것들이 잘 동작 하는지 보기위해 수많은 다양한 방법으로 테스트하였다. 

    그들은 이 network를 PlaNet 이라고 부른다. 




    The results make for interesting reading. To measure the accuracy of their machine, they fed it 2.3 million geotagged images from Flickr to see whether it could correctly determine their location. “PlaNet is able to localize 3.6 percent of the images at street-level accuracy and 10.1 percent at city-level accuracy,” say Weyand and co. 

    What’s more, the machine determines the country of origin in a further 28.4 percent of the photos and the continent in 48.0 percent of them.


    그 결과는 흥미로운 점을 갖는다. PlaNet의 정확성을 측정하기 위해, 

    그들은  'Flickr' (야후의 사진 클라우드 서비스)로부터 2천 3백만장의 지역정보가 태그된 사진들을 가져와 feed로 사용하였다.

    이 과정은 가져온 사진들에 대한 지역을 PlaNet이 실제로 정확하게 검출할 수 있는지를 보기 위함 이였다.

    개발자들은 다음과 같이 말했다.

    "PlaNet 은 거리 수준으로는 3.6%, 도시 수준으로는 10.1% 정확성으로 위치를 검출한다.

    한술 더 떠, 28.4% 이상으로 지역을 찾아내고 48% 정확성으로 대륙을 검출한다."





    That’s pretty good. But to show just how good, Weyand and co put PlaNet through its paces in a test against 10 well-traveled humans.

     For the test, they used an online game that presents a player with a random view taken 

    from Google Street View and asks him or her to pinpoint its location on a map of the world. 


    이것은 꽤 좋아보인다. 얼마나 좋은지 보여주기 위해 개발자들은 PlaNet과 여행경험이 풍부한 10명을 겨루도록 하였다.

    테스트를 위해 그들은 온라인 게임을 사용했다. 온라인 게임은 player에게 Google Street View로부터 무작위로 골라진 사진 한 장을 가져와서

    세계지도에서 어떤 지역인지 선택 하라고 요청하였다.





    Anyone can play at www.geoguessr.com. Give it a try—it’s a lot of fun and more tricky than it sounds.


    누구든지 www.geoguessr.com 에서 참여해 볼 수 있다. 시도해 봐라!

    생각보다 훨씬 어렵고 재밌다.






    Needless to say, PlaNet trounced the humans. 

    “In total, PlaNet won 28 of the 50 rounds with a median localization error of 1131.7 km, 

    while the median human localization error was 2320.75 km,” say Weyand and co. 

    “[This] small-scale experiment shows that PlaNet reaches superhuman performance at the task of geolocating Street View scenes.”


    말할 필요 없이, PlaNet은 참가자들을 완파 했다. 개발자들은 말했다. 

    "PlaNet은 전체 50라운드에서 28라운드를 이겼다. 평균 1131.7km의 오차를 보였다.

    반면에 테스트 참가자들은 평균 2320.75km의 오차를 보였다."

    "이 작은 범위의 경험은 PlaNet이 geolocation street view를 맞추는 일에서 초인적인 능력에 다다랐음을 보여준다."





    An interesting question is how PlaNet performs so well without being able to use the cues that humans rely on, 

    such as vegetation, architectural style, and so on. 

    But Weyand and co say they know why: 

    "We think PlaNet has an advantage over humans because it has seen many more places than any human can ever visit 

    and has learned subtle cues of different scenes that are even hard for a well-traveled human to distinguish.”


    하나 흥미로운 점은 어떻게 PlaNet이 사람들이 의존하는 단서들을 할 수 있도록 하는 것 없이 잘 수행 했냐는 것이다.

    사람들이 의존하는 단서는 예를들어, 식물, 건축스타일 등을 말한다.

    PlaNet개발팀은 그것이 원리의 구명이라고 말한다.

    "우리는 PlaNet이 인간 이상으로 많은 장점을 가진다고 생각한다. 

    PlaNet은 사람들이 방문할 수 있는 곳보다 훨씬 더 많은 곳을 봐왔고

    심지어 여행 경험이 풍부한 사람이 구별하기 힘들어하는 장면들속에서 알아내기 힘든 단서들을 배워왔다."





    They go further and use the machine to locate images that do not have location cues, such as those taken indoors or of specific items. 

    This is possible when images are part of albums that have all been taken at the same place. 

    The machine simply looks through other images in the album to work out where they were taken 

    and assumes the more specific image was taken in the same place.


    그들은 더 나아가 위치 정보를 갖지 않은 이미지(실내 사진 혹은 특정한 아이템 사진)들을 위치시키기 위해 machine을 사용한다.

    이것은 사진이 모두 같은 장소에서 찍혀진 앨범의 부분일 때 가능하다.

    Machine은 사진들이 어디서 찍혔는지 계산하고, 조금 더 특정 화 된 사진들이 같은 장소에서 찍혔는지

    추정하기 위해 빠르게 앨범에서 다른 이미지들을 훑어본다.





    That’s impressive work that shows deep neural nets flexing their muscles once again. Perhaps more impressive still is that the model uses a relatively small amount of memory unlike other approaches that use gigabytes of the stuff.  “Our model uses only 377 MB, which even fits into the memory of a smartphone,” say Weyand and co.


    다시 한 번 힘을 과시하는 deep neural nets를 보여주는 작업은 인상 깊다.

    아마도 좀 더 깊은 인상을 주는 점은 기가 바이트(큰 용량)를 사용하는 다른 방법과는 달리

    이 모델은 비교적 작은 양의 memory를 사용하는 점이다.

    "우리의 모델은 오직 377 MB를 사용한다, 심지어 이것은 스마트폰의 메모리에도 딱 맞다"

    라고 개발팀은 말한다.





    That’s a tantalizing idea—the power of a superhuman neural network on a smartphone. It surely won’t be long now!



    Ref: arxiv.org/abs/1602.05314 : PlaNet—Photo Geolocation with Convolutional Neural Networks



    Comments