알고리즘/사회 연결망 분석

"scale free network"이 "척도없는 네트워크"?

산을좋아한라쯔 2014. 10. 24. 15:06
반응형

"Scale-Free Network"를  "척도없는 네트워크"로 번역하는 것에 대한 고찰

 

2014.10.31

Jeff Park

 

1. 문제 제기
사회연결망 학문 분야에서 사용되는 용어인 "scale-free network"에 대해 우리나라에서는 "척도 없는 네트워크'로 번역되어 사용되고 있다. [1]
이는 마치 '척도가 없는(nothing, not exist)'처럼 인식될 수 있고, 심지어 그러한 뜻이라고 풀이를 하는 경우도 있다.[2]

 

그러나, 이러한 번역과 해석은, 처음 이 용어를 학문적으로 사용한 Barabasi[3]의 논문상 의미와도 많은 차이가 있고, scale-free network이 원래 가지는 속성을 설명하는데도 적절하지 않아, 번역된 용어만을 접한 이들에게 혼란을 주고 잘못된 의미로 받아들이게끔 하고 있다.
따라서, 적절한 번역용어를 사용하거나, 그렇지 않다면 오히려 원어 그대로 사용하는 것이 더 적절한 것으로 보인다.

 

이 글에서는, Barabasi의 원 논문에서 얘기하는 "scale-free network'이 어떤 의미이며, 다른 학문분야에서의 연관성, 그리고 다른 나라에서의 번역예등을 알아보고, 적절한 우리나라말 번역용어를 제시하고자 한다.

 

2. Scale-Free Network의 의미

Barabasi는 scale-free network를 언급한 1999년 논문[3]에서, 사회연결망을 설명하는 기존 모델인 ER모델(Erdos and Renyi Model)[4]과 WS모델(Watts and Strogatx Model)[5]에서의 '연결정도 분포그래프'와 실제 사회현상에서 나타나는 '연결정도 분포그래프'를 비교해 보면, 기존 모델에서는 P(k)가 k에 따라 급격하게 증가하다가 꺽이는 부분이 존재하는 반면(그림1 참조), 실제 사회현상에서는 연결분포가 멱함수의 특성을 보이며 'free of scale'하다고 하고 있고, 자신들이 제시한 BA모델(Barabasi and Albert)이 실제 사회현상과 유사하게 멱급수적인 스케일 증가와 스케일 프리 분포(scale free distribution)의 특성을 가진다고 하고 있다.(그림2 참조)

 

A common feature of the models discussed in the previous section is that they both predict that the probability distribution of the vertex connectivity, P(k), has an exponential cutoff, and has a characteristic size <k>, that depends on p. In contrast, as we mentioned in the Introduction, many systems in nature have the common property that P(k) is free of scale, following a power-law distribution over many orders of magnitude.

 

 

 

그림1. ER모델과 WS모델에 대한 연결분포 그래프

 

 

그림2. BA모델에 대한 연결분포 그래프

 

이처럼, 연결분포그래프에서 기존 모델은 exponential cutoff가 있고, BA모델은 scale-free distribution한 특성을 보인다고 한 것에서, Barabasi가 이 논문에서 의도한 'scale-free'에 대한 의미를 알아볼 수 있을 것이다.

 

BA모델에서 얘기하는 scale-free한 특성이 무엇인지 알아보기 위해, 먼저 사회 연결망에서 얘기하는 '연결정도 분포그래프(Connectivity Distribution Graph)'가 무엇이며, ER/WS/BA 모델이 무엇인지 알아보자.

 

연결정도 분포 그래프(Connectivity Distribution Graph)

연결망 네트워크에서 각 노드에 대해 얼마 만큼의 선(링크)이 연결되었는가를 연결정도(Connection Degree, Connectivity)라 하고, 각 연결정도 값에 대해 같은 값을 가진 노드가 몇 개인지를 나타내는 그래프를 '연결정도 분포그래프'라 한다. 즉, x축에는 연결정도(k)를 나태내는 값을 위치 시키고, y축에는 해당 연결정도를 가진 노드 수를 나내태는 분포함수인 P(k)를 위치시킨 그래프이다.

 

그림3을 보면, 왼쪽은 연결망 네트워크를 나타낸 것이고, 오른쪽 그래프는 이 네트워크에 대해서, 연결정도의 분포곡선을 그린 것이다. [6]

 

그림3. 연결정도 분포그래프 예

 

ER 모델

ER모델은, 초기에 N개의 노드(Node, Vertex)가 존재하고, 이 노드들 간에 연결선(connection line, edge)이 랜덤하게 추가되는 모델이다. (그림4)

 

PER은 연결가능한 선들 중에서 실제 연결이된 비율을 나타내는 것으로, 그림4를 보면 위쪽 그래프는 노드 10개에 대해서 선이 하나도 없으므로 PER은 0이고, 아래편 그래프는 실제 연결된 선이 9개이고, 연결가능한 선은 45개 이므로(n(n-1)/2 = 10 x 9 /2 =45) PER=9/45=0.2이다.

 

ER모델에 대한 연결정도 분포그래프는 이 글의 맨 위쪽에 있는 그림1의 왼쪽 그래프로, 연결정도 k에 대한 분포 P(k)가 정규분포와 유사한 모양을 보인다. 

 

 

그림4. ER 모델

 

WS 모델

WS모델은 초기에 각 노드들간에 연결이 존재한다. 한 노드는 4개의 연결을 하는데, 2개는 바로 옆에 위치한 2개의 노드와, 2개는 하나 건너 옆에 있는 양쪽 두 개의 노드와 연결된다.(그림5 참조)

이 상태에서는 연결정도 k=4 이고,  연결의 '파손정도'를 나타내는 PWS=0으로 정의한다.

 

초기 상태에서 그 다음 스텝으로 진행됨에 따라 연결선들이 끊어지면서 새로운 연결이 랜덤하게 이루어 진다. 그림5의 위쪽 그래프는 초기상태를 나타내고, 아래 편 그래프는 20개의 초기 연결선 중에서 6개가 끊어져서 새롭게 다른 노드로 연결되어 PWS=0.3(6/20)이 된것을 나타낸다.

 

WS모델에 대한 연결정도 분포그래프도 ER모델과 같이 정규분포형태를 띤다. (그림1의 오른편 그래프)

 

BA 모델

BA모델은 2가지 제약조건에 의해 네트워크가 이루어 진다.

 

(1)성장: 초기에 m0개의 노드로 시작하고, 각 시간 단계마다 새로운 노드가 추가되면서 다른 노드와 m개(≤m0)의 연결이 이루어진다. (다른 노드는 네트워크에 이미 존재하는 노드를 말한다.)

 

(2)선호(Preference) 연결: 새롭게 추가되는 노드가 자신의 상대로 연결될 노드를 선택할 때, 확률값 Π에 의한 선호도를 가지고 노드를 선택한다. 확률값 Π은 해당 노드가 이미 가지고 있는 연결정도에 비례한다. 즉, 어떤 노드가 다른 노드들과 많은 연결선을 이미 가지고 있다면, 그 연결선이 많은(k값이 큰) 노드와 연결될 가능성이 높다고 가정한다. 확률값 Π는 다음과 같이 계산된다.

 

 

 

이러한 선호도에 의한 연결에 의해, BA모델에서의 연결정도 분포 그래프는 그림5와 같이 멱함수 그래프가 되고, P(k)의 값은 ck 형태가 된다. 

 

 

그림5. BA모델에서의 연결정도 분포그래프

 

 

이 처럼 연결망 네트워크를 나타내는 기존 모델인 ER모델과 WS모델의 '연결정도 분포그래프'가 cutoff가 있어서 '스케일'을 한정할 수 있는 반면, BA모델에서는 P(k)의 값이 k가 작은 범위에서 지수함수적으로 증가하기 때문에 스케일을 한정할 수 없다. 따라서, Barabasi의 논문에서 언급한 'scale-free distribution'은 '범위를 한정할 수 없는 분포'라고 해석할 수 있겠다.

 

'scale-free'라는 것이 위에서 언급한 것처럼 '범위를 한정할 수 없는'이라면, 서두에서 문제로 제시한 '척도없는'이라는 말로 쓰인다고 해도, 아주 정확한 표현은 아니지만, '없다'라는 공통된 단어가 쓰임으로 해서 동의어라고 확대해석할 수 있다는 주장을 할 수도 있을 것이다.

 

그러나, Barabasi의 논문에서의 scale-free의 의미는, 위에서 얘기한 BA모델의 P(k)분포의 무한함 만을 의미하는 것이 아니고, P(k) 분포의 스케일 팩터가 네트워크에서 유일한 변수인 m의 변동에 대해서 무관한, 즉 scale invariance한 것이 핵심이다.

 

the probability P(k) that a vertex in the network is connected to k other vertices decays as a power-law, following P(k) ~ k.

......

These results offered the first evidence that large networks self-organize into a scale-free state, a feature unexpected by all existing random network modes. To understand the origin of this scale invariance, BA have shown that existing network models fail to incorporate two key features of real networks.

 

척도 독립성(척도 불변성, Scale Invariance)은 멱함수(Power Law)의 주요한 특성 중 하나고, 멱함수 구조를 보이는 프랙탈 그래프를 소개하면서 많이 사용되는 특성이다.[7]

 

멱함수에서의 척도독립성을 수식으로 살펴보면 다음과 같다.

멱함수의 수식이 이와 같을 때, 독립변수인 x에 상수 c를 곱해서 값을 증가시키면, 함수값 f(x)는 원래 함수값의 상수배로 비례한다.

 

 

즉, x를 c배 했을 때, 그 결과값은 원래 멱함수값에 상수 ck를 곱한것과 같은 것으로, 스케일링 팩터인 k값은 x가 커지더라도 변하지 않게 되는 것이다.

 

또한, x와 f(x)에 대해 로그를 취하게 되면, x축과 y축을 로그스케일로 봤을 때 f(X) = C + kX 형태가 되어, X에 따른 선형함수로 바뀐다.

 

 

Barabsi의 논문에서는, 분포 k와 분포함수값 P(k)의 관계가, 위와같이 로그 스케일에서 선형인 특성을 보이고 있고, 이 때 k ≒ 3 임을 모델 시뮬레이션과 mean field theory에 의한 이론적인 계산으로 보여주고 있다.

 

즉, BA모델에서 t 타임스텝 후에 노드 N = t + m0 개 이고, 라인은 mt개가 되는데, 그림 4의 왼쪽 그래프와 같이 멱함수 특성을 보이며, 이 때 스케일링 지수승은 2.9 정도인 척도 독립적인 상태(scale invariant state)를 보인다고 한다.

After t timesteps the model leads to a random network with N = t + m0 vertices and mt edges.

As Fig. 4a shows, this network  evolves into a scale invariant state, the probability that a vertex has k edges following a power-law with an exponent model = 2.9 ± 0.1.

이처럼, Barabasi의 논문에서 언급하고 있는 scale-free network는, 연결정도의 분포곡선이 정규분포가 아닌 멱함수의 그래프여서 '범위를 한정할 수 없고' 또한 스케일링 지수가 약2.9로 '척도 독립적인' 특성을 갖는 네트워크이다.

 

'scale'은 규모(범위), (측정용) 등급, 계츨구조, 눈금, 저울, (지도, 모형, 도형의)축적(척도) 등의 의미를 가지고 있다. [네이버 영어사전] 

따라서 'scale-free network'에서 scale은 '규모(범위)',  '축적(척도)'의 의미로 사용된것으로 볼 수 있다.

 

'척도'의 사전적의미는, '자로 재는 길의의 표준' 혹은 '평가하거나 측정할 때 의거할 기준'이다. [네이버 국어사전]

따라서, '척도 없는 네트워크'는 '표준 혹은 측정할 기준이 없거나 정할 수 없는 네트워크'로 볼 수 있고, 이것이 scale-free network가 가지고 있는 연결정도 분포곡선에 빗대어 사용된다면, 분포곡선의 스케일링 팩터 γ가 '없거나 정할 수 없다'고 이해될 수 있다.

그러나, scale-free network에서 스케일링 팩터 γ는 없거나 정할 수 없는 것이 아니라, 오히려 고정되어 있고(γ ≒ 3), 이러한 scale-invariance한 것이 scale-free network의 중요한 특성이다.

 

따라서, scale-free network를 '척도없는 네트워크'로 해석하는 것은, scale-free network의 특성인 '범위를 한정할 수 없고' '스케일링 팩터가 변하지 않는' 것을 제대로 표현하지 못하고, 오히려 네트워크의 척도인 스케일링 팩터를 알 수 없거나 정할 수 없다고 혼돈을 준다.

 

3. scale-free network의 번역 제언

앞 글에서 알아봤듯이, Barabasi의 논문에서 사용된 'scale-free network'는, 연결정도 분포곡선에 대해서 '범위를 한정할 수 네트워크 ' '연결분포 스케일링 팩터가 변하지 않는 네트워크'를 말한다. 즉, 'scale'이 '범위' 혹은 '척도'로 사용되었다. 따라서, scale-free network를 우리말로 '범위없는 네트워크' 혹은 '척도 독립 네트워크'라고 할 수 있겠다.

 

두 개의 번역중에서 하나만을 선택해야한다면 '척도 독립 네트워크'가 더 적당할 것이다. 이유는 Barabasi의 논문에서 scale-free network의 특성중에 scale-invariance한 특성이 더 중요하게 얘기되었기 때문이다. (논문을 보는 뷰에 따라 다를 수 있음)

 

이처럼 scale-free network는 우리말로 나타낼 때, 일대일로 완전한 의미를 갖는 단어를 선택하기 어렵다. 그렇다면 다중적인 의미를 가지는 scale-free network를 억지로 우리말로 바꾸기보단 '스케일 프리 네트워크'처럼 외래어 표기를 하는것도 무방할 것이다.

 

4. 결론

사회연결망 분야에서 'small world network'를 얘기할 때 자주 등장하는 'scale-free network'를, 우리말로 '척도없는 네트워크'로 번역되는 것에 대해, 그것이 원래의 의미와 다르고 오히려 정반대의 의미전달이 될 수 있음을, scale-free network의 원 출처 논문을 분석하여 지적 하였다.

 

'scale-free network'를 사외연결망 분야에서 처음 사용한 Barabasi의 논문을 보면, 'scale-free network'는 사회연결망 네트워크에서 연결정도 분포곡선의 멱함수적인 특성을 설명할 때 사용되었고, 그 의미는 분포곡선이 정규분포 형태의 '범위를 한정할 수 있는' 것이 아니라 '범위를 한정할 수 없는' 멱함수 그래프이고, 분포의 스케일링 팩터인 γ가 특정한 값으로 일정한(γ ≒ 3) scale-invariance한 특성을 가진 네트워크를 말한다.

 

이처럼 scale-free network는 '범위없는 네트워크' 혹은 '척도 독립 네트워크'의 의미를 가지며, 지금 통용되는 것처럼 '척도없는 네트워크'로 쓰인다면 오히려 스케일링 팩터인 γ가 없거나 고정되지 않는 의미로 잘못 이해될 수 있다.

 

따라서, scale-free network를 '척도 독립 네트워크'로 하거나, 혹은 '스케일 프리 네트워크'로 사용하는 것을 제언한다.


 

 

[1]
위키피디아, http://ko.wikipedia.org/wiki/%EC%B2%99%EB%8F%84_%EC%97%86%EB%8A%94_%EB%84%A4%ED%8A%B8%EC%9B%8C%ED%81%AC
정하웅, 빅데이터와 복잡계 네트워크, 구글 신은 모든 것을 알고 있다. http://www.doosanartcenter.com/upload_file/bighistory/down/%EA%B0%95%EC%97%B0%EC%9E%90%EB%A3%8C_%EA%B5%AC%EA%B8%80%EC%8B%A0_%EC%A0%95%ED%95%98%EC%9B%85.pdf

 

[2]
http://www.zema9.com/hani_science/256137

 

[3]
Barabasi, Mean-field theory for scale-free random networks

 

[4]Erdős, Paul; A. Rényi (1960). on the evolution of random graphs". Publications of the Mathematical Institute of the Hungarian Academy of Sciences http://www.renyi.hu/~p_erdos/1960-10.pdf

 

[5]Watts, D.J: Strogatz, S. H. (1998), "Collective dynamics of 'small-world' networks" Nature 393

http://labs.yahoo.com/files/w_s_NATURE_0.pdf

 

[6]Random graph and its Poissonian node degree distribution,  http://wiki.cns.iu.edu/pages/viewpage.action?pageId=1245864

 

[7]S. Lovejoy and Schertzer, Generalized Scale Invariance in the Atmosphere and Fractal Models of Rain, WATER RESOURCES RESEARCH, VOL. 21

 

[8]

Barabasi의 논문에서 scale-free를 'scale-free features', 'scale-free mode' 등에 사용했고, 그 빈도는 다음과 같다.

 

용어 

사용 횟수 

 scale-free random networks

1

 scale-free features

3

 scale-free model

8

 scale-free state

 3

 scale-free distribution

 2

 scale-free stationary state

 3

 scale-free inhomogeneities

 1

 

 

반응형