이 논문이 우려스러운 이유는 기존의 기계학습 분야에서 생물학적으로 타당한 스파이킹 뉴럴 네트워크와 시간 의존적인 인공 신경망 관련 연구가 이미 아주 많이 있음에도 불구하고, 논문 용어와 접근이 그 방대한 선행 연구를 제대로 인정하지 않는다는 느낌을 받음, 특히 시냅틱 통합 단계를 “사고(thinking)”라고 부르는 점이 사람들에게 혼란을 줄 수 있다고 생각함, 사고란 평범한 사람이 생각하는 방식인 아이디어 생성, 평가, 수정의 반복이라는 과정인데, 논문에서는 이걸 단일 유닛 프로세스 수준에 붙이고 있음, 이는 기존의 ANN이나 머신러닝 용어와도 매우 동떨어진 것임, “사고”라는 이 표기는 적절하지 않은 느낌임, 모든 인용을 살펴보진 않았고 친숙한 연구 흐름의 문장에 즉각적인 반응을 한 것임 이 중요한 주제로 다시 집중하는 것이 아주 반가움, 생물 뇌와 신체 맥락에서는 “시간”을 선형적 뉴턴식 시간으로 생각하기 쉬우나 뇌-신체 시스템에서 핵심적인 것은, 300ms의 “표상 현재”에서부터 소리 위치를 평가하는 세포의 50마이크로초 같은 다양한 “현재” 조각 안에, 질서 정연한 행동과 연산의 순서를 만드는 것임, 조건적인 시간성(temporality)에 대해 더 알고 싶으면 European Journal of Neuroscience의 John Bickle이 RW Williams를 인터뷰한 최근 논문을 참고하면 좋겠음 내 논문 독후감으로는, 논문이 생물학적/스파이킹 네트워크와는 사실 전혀 다르다고 느낌, 논문에서는 입력들의 히스토리를 보존하고 멀티-헤드 어텐션을 써서 현재 출력에 과거 “프리-시냅틱” 입력이 어떻게 반영되는지 내부 모델을 만듦, 이건 약간 수정된 트랜스포머처럼 입력 히스토리를 보존하고 어텐션으로 출력을 만드는 구조임, “동기화”라는 것도 포스트 액티베이션 전체를 내적해서 얻는 것이며, 이 내적 결과 행렬을 출력 공간에 프로젝션 시킴, 각 타임스텝에 올바른 값을 만들도록 여러 출력이 곱해져야 하므로 이런 결합이 “동기화”라고 부른 것 같음, 이는 여러 출력 값을 행렬로 합쳐서 각 값의 개별성보다 조합의 중요성을 부각시키는, 일종의 “희소성” 유도가 되어 보임, 이런 방식은 여러 서브시스템에서 나온 출력을 내적해서 합치는 어텐션의 기본 메커니즘임 이번 주말에 흥미로운 세 가지가 있음: 1) 연속적 사고 머신(생뇌 비슷한 시계열 인코딩 신경망), 2) “제로 데이터 리즈닝”(방대한 데이터로 미리 학습하는 대신 직접 행위로 배우는 AI), 3) Intellect-2(전 세계에 분산된 강화학습 구조), 비전문가 입장에서 보면 특이점(singularity) 한 발짝 더 다가간 기분임 스파이크 타이밍 및 동기화 같은 시계열 부호화 메커니즘을 구현하는 일은 매우 어렵고, 그래서 현대 신경망은 시간적 동역학 대신 단순성과 계산 효율성에 초점을 맞춤, 진짜 타임 도메인을 시뮬레이션하는 일은 하드웨어 입장에서도 매우 어려운 문제임, 특히 별도의 하이퍼파라미터 축이 늘어나기 때문에 유효한 파라미터 조합 찾기가 거의 불가능함, 계산 효율이 좋은 구조를 찾는 것이 훨씬 빠르므로, 미래 타임스텝에 스파이크가 발생하면 우선순위 큐 같은 이벤트 구조가 생겨서 계산량이 훅 늘어남, 만약 정말 “하드 리얼타임 상호작용”이 목표라면 모르겠지만, 실용적·제품적 입장에선 이런 구조를 쫓는 것이 별 의미 없다고 생각함, STDP(스파이크 시차에 따른 가중치 변경)로 온라인 비지도 학습이 가능하다는 점은 아직도 굉장히 매력적으로 여겨지지만, 당분간 실리콘 기반에서는 길이 없어 보임, 전용 하드웨어를 쓰는 것은 하이퍼파라미터 일부를 코드에서 상수로 박는 꼴이라 확실성을 보장하기도 어렵고 자금도 충분치 않게 됨 이 기계들의 아이디어 자체가 완전히 새로운 건 아님, 2002년 논문에서 Liquid State Machines(LSM)이 소개됐고, LSM은 연속 입력을 스파이킹 신경망에 공급하여 네트워크 전체 뉴런과 연결된 덴스 레이어로 liquid state를 읽는 방식임, 2019년 논문에서는 LSM을 아타리 게임 플레이에 사용했고, 때로는 인간을 능가해도 항상 그런 것은 아니었으며, 기존 신경망 한계와 유사하게 실패하는 경향도 발견됨, 전통적인 신경망에 비해 성능이 특별히 높지는 않았음, 나는 입력(예: 오디오)을 연속적으로 처리하고 연속적으로 출력하며, 뇌의 plasticity 원리만(역전파 없이) 적용한 신경망 연구에 더 많은 관심이 생겼으면 좋겠음, 나 역시 직접 시도해봤으나 뇌의 작동법을 충분히 모르는 것인지 아직 완벽한 답은 모르겠음 아이러니하게도 이 웹페이지가 firefox iOS에서 계속 새로고침됨 다음 세대 모델의 핵심은 “함께 발화한 뉴런은 함께 연결됨(neurons that fire together wire together)” 원리가 될 것임, 스파이킹 뉴럴 네트워크가 대안적 접근으로 아주 흥미로움을 제공한다고 생각함Hacker News 의견