본문 바로가기

분류 전체보기

(83)
lamma 3.0 작성중 번역 & 요약 &  3. pre-training 3대규모 말뭉치 정제&필터링 모델 사이즈/아키텍처 결정하기 위한 스케일링 실험라지 스케일에서 먹히는 효과적인 pre-trainning테크닉pre-trainning 레시피 3.1 Pre-training data- 데이터 클렌징을 통해 고품질 토큰을 얻음. ( 고품질 토큰의 의미? > ) - 개인정보(+ 19금) 제거  3.1.1 다음과 같은 클렌징 프로레스를 웹 데이터에 진행함. PII and safety filteringText extraction and cleaning(데이터 잘 뽑게) custom parser로 raw HTML 처리, (반복제거, 중요정보 추출)custom parser에 대해 human평가 진행했는데, 다른 parser보다 선호 되었음수..
SigLIP 리뷰 알아야하는것만 알고가자. https://taewan2002.medium.com/siglip-sigmoid-loss-for-language-image-pre-training-aa68fedaa080 SigLIP: Sigmoid Loss for Language Image Pre-TrainingSigLIP는 비대칭적이지 않으며 전역 정규화 인자도 필요하지 않습니다. SigLIP는 시그모이드 연산을 사용하고 각 이미지-텍스트 쌍(양수 또는 음수)은 독립적으로 평가됩니다. 따라서 모든 GPU가 모taewan2002.medium.com  CLIP의 loss를 softmax->sigmoid로 바꾼게 SigLIP이다.  이때, 학습시 같은 능력치 도달하는데 획기적으로 시간이 줄었다고 한다.    CLIP: require..
[weekly contest 426] 3371. Identify the Largest Outlier in an Array n개의 원소를 가지는 array가 있는데, n-2 elemnts는 specail number이다. 남은 2개중 하나는 special numbers이고, 다른 하나는 outlier이다.  outlier은  special numbers 중에 하나가 아니며, special numbers의 합이 아닌 수이다. 가장큰 largest potential outlier 을 nums에서 구하라.   원래는 nums에서 2개를 골라 진행하려고 했는데, 그 경우 Time limit이 발생한다. 한번만 돌아야한다.  key idea 1. TL이 발생하지 않으려면, nums에서 for로 1번만 훑으면서 outlier를 찾아야한다. 2.nums에서 1번만 훑을때, outlier 인지 어떻게 알 수 있을까?nums를 1번만 훑었을..
Attention 모듈 설명 (매우 쉽게 설명) 1. 어텐션 모듈은 아래와 같이 생겼다.   - Attention module.  왼쪽에 keys(파란박스)가 5개 있고, qurey(흰박스) 가 1개있다. 이 query와 keys가 attention scoring function의 입력이다. 따라서, 아래와 같이 수식을 쓸 수 있다.  attention scoring 함수의 목적은 key들중에서 어느 부분에 "집중"해야하는지 알아내는것이다. 따라서 함수가 잘 동작했다면, key들 중에서 중요한 부분은 강조되고(값이 크고), 덜 중요한 부분은 값이 낮으면 된다. attention scoring function은 대표적으로 2개가 있는데, 아래쪽에서 다시 설명하겠다.  자 이제, 그림을 다시보면, attention scoring function을 지나서,..
[핵심요약?] On Distillation of Guided Diffusion Models https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/on-distillation/KD쪽을 보고있는데, 시간나면 다 읽고, 중요해 보이는것만 요약하면,  3가지 방법으로 Distillation을 수행할 수 있음. Stage-one distillationDiffusion은 conditional generation이랑, unconditional generation 두 모델을 denosing할때, CFG 값을 통해 이 두개를 섞는데, 위 논문은 아래 수식을 이용해서, 한번에 CFG로 섞인 값을 예측하면, 연산을 1번만 해도되니 빨라진다. 2.Stage-two distillation    student의 denosing Step 수를 반으로 줄일려면, ..
SNR in Diffusion (w. GPT) diffusion 학습시, SNR이 큰 구간은 쉽게 denoising이 가능하고,SNR이 작은 구간은 노이즈가 더 커서 더 복잡한 denoising이 요구된다는 점에서 중요한 역할을 하게 됩니다.   시그마를 1-a^2 로 대체
GmP CLIP MLP. (clip finetuning) GmP CLIP MLP란게 있다고 한다. text encoder로 저걸 쓰는 유투버들이 있길래 검색해보았다.  기존 CLIP MLP는 weight value를 직접 조정하는데, value를  r , theta 로 나타내고, 이 값을 조정함으로써, 1. 안정성,2.기하 정보, 3. 일반화 등등이 더 좋아진다고 한다.  https://github.com/zer0int/CLIP-txt2img-diffusers-scripts "Normal" CLIP MLP (multi-layer perceptron):(mlp): Sequential( |-(c_fc): Linear(in_features=1024, out_features=4096, bias=True) | (gelu): QuickGELU()|-}-(c_proj)..
civita AI 모델 다운 코드 사용법 python get_civit_model.py 저장할파일명 "모델링크주소"e.g)python get_civit_model.py  fluxmodel_1003 "https://civitai.com/api/download/models/776050?type=Archive&format=Other" get_civit_model.py 내용import requestsimport sys# 사용자 정의 토큰token=" "if len(sys.argv)!=3: print("python get_civit_model.py save_name url") print("& check the token") sys.exit(1)model_url = sys.argv[2]file_name = s..