koenjafrdeiteshizh-CNvith





지속적인 사고 기계

1 month ago 11

Hacker News 의견
  • 이 논문이 우려스러운 이유는 기존의 기계학습 분야에서 생물학적으로 타당한 스파이킹 뉴럴 네트워크와 시간 의존적인 인공 신경망 관련 연구가 이미 아주 많이 있음에도 불구하고, 논문 용어와 접근이 그 방대한 선행 연구를 제대로 인정하지 않는다는 느낌을 받음, 특히 시냅틱 통합 단계를 “사고(thinking)”라고 부르는 점이 사람들에게 혼란을 줄 수 있다고 생각함, 사고란 평범한 사람이 생각하는 방식인 아이디어 생성, 평가, 수정의 반복이라는 과정인데, 논문에서는 이걸 단일 유닛 프로세스 수준에 붙이고 있음, 이는 기존의 ANN이나 머신러닝 용어와도 매우 동떨어진 것임, “사고”라는 이 표기는 적절하지 않은 느낌임, 모든 인용을 살펴보진 않았고 친숙한 연구 흐름의 문장에 즉각적인 반응을 한 것임

    • 미안하다는 말을 전하면서, 원래 이 댓글에 답변하려 했지만 별도의 답변을 부모 댓글 스레드에 남겼음, 논문이 생물학적 스파이킹 네트워크를 모방하려는 시도는 상당히 느슨하게만 보여지고 실제로는 출력 행렬의 전치 곱(dot product)을 사용한 점이 주요 공헌이고, 나머지는 입력에 대한 디퓨전/어텐션 기법임, 입력 어텐션과 출력 어텐션을 결합해 계단식 재귀 모델을 만든 형태임
    • 지난 10~20년 동안 신경과학 관련 연구를 인정한 기계학습 연구자들은 자기 과시라는 비판을 많이 받아온 것 같음, 그래서 딱히 놀라지는 않음
    • 이 논문은 마치 새로운 아이디어인 듯 발표하지만, 수십 년간의 스파이킹 뉴럴넷 연구나 유사 분야에 거의 언급을 하지 않고 있음
    • 생물학적 영감을 받은 알고리즘 개념과 구현에 대해 가장 통찰력 있다고 생각하는 책이나 논문 목록 혹은 간략 리뷰를 공유해주면 고맙겠음
    • 저자들은 단일 시냅스 통합을 “사고”라고 부르지 않고, 외부 입력마다 “내부 틱”이라 하여 네트워크 전체의 내부 루프에서 그 용어를 쓴다고 밝히며, “사고”와 유사하다고 명시적으로 적어놓았음
    • 이 논문 혹시 Jürgen Schmidhuber가 쓴 것인지 궁금함
  • 이 중요한 주제로 다시 집중하는 것이 아주 반가움, 생물 뇌와 신체 맥락에서는 “시간”을 선형적 뉴턴식 시간으로 생각하기 쉬우나 뇌-신체 시스템에서 핵심적인 것은, 300ms의 “표상 현재”에서부터 소리 위치를 평가하는 세포의 50마이크로초 같은 다양한 “현재” 조각 안에, 질서 정연한 행동과 연산의 순서를 만드는 것임, 조건적인 시간성(temporality)에 대해 더 알고 싶으면 European Journal of Neuroscience의 John Bickle이 RW Williams를 인터뷰한 최근 논문을 참고하면 좋겠음

  • 내 논문 독후감으로는, 논문이 생물학적/스파이킹 네트워크와는 사실 전혀 다르다고 느낌, 논문에서는 입력들의 히스토리를 보존하고 멀티-헤드 어텐션을 써서 현재 출력에 과거 “프리-시냅틱” 입력이 어떻게 반영되는지 내부 모델을 만듦, 이건 약간 수정된 트랜스포머처럼 입력 히스토리를 보존하고 어텐션으로 출력을 만드는 구조임, “동기화”라는 것도 포스트 액티베이션 전체를 내적해서 얻는 것이며, 이 내적 결과 행렬을 출력 공간에 프로젝션 시킴, 각 타임스텝에 올바른 값을 만들도록 여러 출력이 곱해져야 하므로 이런 결합이 “동기화”라고 부른 것 같음, 이는 여러 출력 값을 행렬로 합쳐서 각 값의 개별성보다 조합의 중요성을 부각시키는, 일종의 “희소성” 유도가 되어 보임, 이런 방식은 여러 서브시스템에서 나온 출력을 내적해서 합치는 어텐션의 기본 메커니즘임

    • 논문의 약점은 성능 비교 대상이 LSTM(단순 순환모델)에 국한되어 있다는 점임, 여러 층의 입력/출력 어텐션만으로도 유사한 구조 및 성능이 나올 수 있을 것 같음, 실제 트랜스포머는 약간 다르지만 논문이 쓰는 input attention + unet 구조와 큰 차이는 없음
  • 이번 주말에 흥미로운 세 가지가 있음: 1) 연속적 사고 머신(생뇌 비슷한 시계열 인코딩 신경망), 2) “제로 데이터 리즈닝”(방대한 데이터로 미리 학습하는 대신 직접 행위로 배우는 AI), 3) Intellect-2(전 세계에 분산된 강화학습 구조), 비전문가 입장에서 보면 특이점(singularity) 한 발짝 더 다가간 기분임

    • 내가 보기엔 그정도 느낌이 들지 않음, 너무 많은 논문들과 다양한 연구 방향성들 덕에 어떤 것이 diffusion, transformer, AlphaZero, Chat GPT-3 등처럼 대박이 날지 예측이 힘듦, 급진적 발전처럼 보여도 이런 진보는 수많은 연구와 시행착오의 누적으로 만들어짐, 세 가지 진보가 모두 잘 합쳐질 수 있으면 좋겠지만 나도 모르겠음
    • 개별 논문에 너무 큰 의미를 부여하지 않는 게 좋을 것 같음, 최선의 경우 수많은 기반 연구를 무시하게 되며, 최악의 경우 장밋빛 기대로 한 아이디어에 과하게 기대를 거는 셈임
    • Intellect-2와 zero data reasoning은 모두 LLM에서 동작하는 구조임(“제로 데이터 리즈닝”이란 이름이 오히려 오해를 유발할 수 있음), 진정한 LLM 혁신을 원한다면, InceptionLabs가 diffusion 모델로 추론을 16배 높인 방법을 살펴보는 게 좋음, 우리의 시계열 강화학습 알고리즘 성능은 추론모델과 비교하면 한참 부족하며, AI 붐에도 불구하고 로보틱스와 자율주행은 여전히 막혀 있음, 이 논문 기법도 가능성은 있으나, 누군가 용어를 좀 더 정제해서 소화시키면 더 좋겠음, 아직은 대규모 모델일수록 보상 함수의 허점을 잘 찾아내는 현상 때문에 여러 분야에서 쓸모 있는 AI 달성까지는 아직 멀었다는 생각임
    • 논문 구현을 실제로 돌려보면 종종 결과가 논문에서 광고한 것만큼 잘 되지 않거나 코드가 누락된 경우가 많음, AI 하이프에 휘둘리지 않으려면 논문의 구체적 결과와 한계를 읽고, 코드가 있으면 받아서 돌려보며, 학습셋 외 입력에 대한 테스트도 해보는 습관이 필요함
    • 나 역시 전문가가 아니지만, 이걸 보고 마치 카메라, 액츄에이터, 배터리를 발명했다는 이유로 곧 로봇이 세계를 지배할 거라 보는 것과 비슷한 생각임, 즉, 이건 도약이 아니라 베이비 스텝 같음
    • 비판이 일축되지는 않음, 특별히 널리 알려진 논문과 프로젝트 자체가 take-off나 AGI 같은 획기적 진보라는 점에는 이의가 많을 수 있음, 하지만 이런 논문들이 더 거대한 연구 방향성의 대리인일 수도 있음, 그러니까 “베이비 버니”가 일관된 방향으로 자잘한 점프를 계속하고 있는 상황이라는 느낌임, 어느 순간을 점프라고 부를 지는 보는 이에 따라 다르고, 어쨌든 토끼는 앞으로 움직이고 있음
  • 스파이크 타이밍 및 동기화 같은 시계열 부호화 메커니즘을 구현하는 일은 매우 어렵고, 그래서 현대 신경망은 시간적 동역학 대신 단순성과 계산 효율성에 초점을 맞춤, 진짜 타임 도메인을 시뮬레이션하는 일은 하드웨어 입장에서도 매우 어려운 문제임, 특히 별도의 하이퍼파라미터 축이 늘어나기 때문에 유효한 파라미터 조합 찾기가 거의 불가능함, 계산 효율이 좋은 구조를 찾는 것이 훨씬 빠르므로, 미래 타임스텝에 스파이크가 발생하면 우선순위 큐 같은 이벤트 구조가 생겨서 계산량이 훅 늘어남, 만약 정말 “하드 리얼타임 상호작용”이 목표라면 모르겠지만, 실용적·제품적 입장에선 이런 구조를 쫓는 것이 별 의미 없다고 생각함, STDP(스파이크 시차에 따른 가중치 변경)로 온라인 비지도 학습이 가능하다는 점은 아직도 굉장히 매력적으로 여겨지지만, 당분간 실리콘 기반에서는 길이 없어 보임, 전용 하드웨어를 쓰는 것은 하이퍼파라미터 일부를 코드에서 상수로 박는 꼴이라 확실성을 보장하기도 어렵고 자금도 충분치 않게 됨

    • 예를 들어 중간 규모 FF(피드포워드) 아키텍처에 입력 배치 하나 처리하는 데 100ms 걸린다면, CTM 구조에서 10ms를 FF 축에 쓰고 거기에 10개의 내부 “틱”을 곱하면 어떻게 될까?, 숫자는 대충이지만 결국은 명시적 타임 축에 대한 귀납적 편향이 정말 의미가 있느냐의 문제임, 그런 구조도 동일한 검색 난이도를 가질 수 있지 않을까 생각임
  • 이 기계들의 아이디어 자체가 완전히 새로운 건 아님, 2002년 논문에서 Liquid State Machines(LSM)이 소개됐고, LSM은 연속 입력을 스파이킹 신경망에 공급하여 네트워크 전체 뉴런과 연결된 덴스 레이어로 liquid state를 읽는 방식임, 2019년 논문에서는 LSM을 아타리 게임 플레이에 사용했고, 때로는 인간을 능가해도 항상 그런 것은 아니었으며, 기존 신경망 한계와 유사하게 실패하는 경향도 발견됨, 전통적인 신경망에 비해 성능이 특별히 높지는 않았음, 나는 입력(예: 오디오)을 연속적으로 처리하고 연속적으로 출력하며, 뇌의 plasticity 원리만(역전파 없이) 적용한 신경망 연구에 더 많은 관심이 생겼으면 좋겠음, 나 역시 직접 시도해봤으나 뇌의 작동법을 충분히 모르는 것인지 아직 완벽한 답은 모르겠음

  • 아이러니하게도 이 웹페이지가 firefox iOS에서 계속 새로고침됨

    • 내 브라우저에서는 아예 열리지도 않음
  • 다음 세대 모델의 핵심은 “함께 발화한 뉴런은 함께 연결됨(neurons that fire together wire together)” 원리가 될 것임, 스파이킹 뉴럴 네트워크가 대안적 접근으로 아주 흥미로움을 제공한다고 생각함

Read Entire Article