트랜스포머를 활용한 자연어 처리

이 책은 허깅페이스의 엔지니어인 루이스 턴스톨(Lewis Tunstall), 레안드로 폰 베라(Leandro von Werra), 토마스 울프(Thomas Wolf)가 쓴 아마존 베스트 셀러 <Natural Language Processing with Transformers>의 번역서입니다.

허깅페이스의 트랜스포머스 라이브러리는 자연어 처리를 넘어 딥러닝 전영역으로 영향력을 빠르게 미치고 있습니다. 이 책은 트랜스포머 아키텍처와 허깅페이스에서 제공하는 다양한 라이브러리를 배울 수 있는 최상의 도구입니다! 책의 각 장에 대한 간단한 요약 설명은 “트랜스포머를 활용한 자연어 처리” 번역을 마쳤습니다. 글을 참고하세요!

온/오프라인 서점에서 판매 중입니다! [Yes24] [교보문고] [알라딘] [한빛미디어]
484페이지, 풀컬러: ~~39,000원~~ –> 35,100원
이 책에 실린 코드는 깃허브에서 주피터 노트북으로 제공합니다.

이 페이지에서 책의 에러타와 라이브러리 버전 변경에 따른 변경 사항을 업데이트하겠습니다. 궁금한 점이나 오류가 있다면 페이지 맨 아래 ‘Your Inputs‘에 자유롭게 글을 써 주세요. 또 제 이메일을 통해서 알려 주셔도 되고 구글 그룹스 머신러닝 도서 Q&A에 글을 올려 주셔도 좋습니다.

감사합니다! 🙂

Outputs (aka. errata)

~8: 2쇄에 반영되었습니다.

(p53) 아래에서 5번째 줄에 emotions = load_dataset("emotion")을 emotions = load_datasets("SetFit/emotion")으로 수정합니다.(홍*호 님)
추가내용: SetFit/emotion의 label 특성은 ClassLabel 객체가 아닙니다. 수동으로 ClassLabel 객체를 만들어 주세요.
from datasets import ClassLabel emotions['train'].features['label'] = ClassLabel( num_classes=6, names=['sadness', 'joy', 'love', 'anger', 'fear', 'surprise'])
(p125) XLM-RoBERTa 항목 아래 5번째와 6번째 줄에서 ‘XML‘을 ‘XLM‘으로 정정합니다.(주*피 님)
(p194) 페이지에 있는 다음 코드를
output_temp = model.generate(input_ids, max_length=max_length, do_sample=True, temperature=0.5, top_k=0) print(tokenizer.decode(output_temp[0]))
아래와 같이 정정합니다.
output_topk = model.generate(input_ids, max_length=max_length, do_sample=True,
top_k=50) print(tokenizer.decode(output_topk[0]))
(이*욱 님)
(p291) compute_loss 메서드의 첫 번째 줄 위에 다음 코드를 추가합니다(관련 PR: https://github.com/nlp-with-transformers/notebooks/pull/64).
device = torch.device("cuda" if torch.cuda.is_available() else "cpu") inputs = inputs.to(device)
(p125) XLM-RoBERTa 항목 아래 5번째 줄에서 ‘TML‘을 ‘TLM‘으로 정정합니다.(이*혁 님)
(p193) 그림 5-6에서 아래쪽 그래프의 y 축 레이블을 ‘개수‘에서 ‘확률‘로 정정합니다.(이*혁 님)
(p414) 위에서 9번째 줄에 for tokenized_input in tokenized_inputs:를 삭제합니다.(이*욱 님)
(p184) 위에서 7번째 줄, (p185) 위에서 2번째, 3번째, 4번째 줄에서 ‘그리드 서치 디코딩’을 ‘그리디 서치 디코딩’으로 정정합니다.(최*신 님)
(p76) 두 번째 코드 블록에 있는 torch.Size([1, 769])은 출력 결과입니다.

Your Inputs

	박해선 (“실무로 통하는 ML 문제 해결 with 파…)
	sharp2h2 (“실무로 통하는 ML 문제 해결 with 파…)
	박해선 (“실무로 통하는 ML 문제 해결 with 파…)
	효효효 (“실무로 통하는 ML 문제 해결 with 파…)
	박해선 (Machine Learning with Python C…)
	코린이 (Machine Learning with Python C…)
	박해선 (“머신 러닝 교과서: 파이토치 편…)
	책구매자 (“머신 러닝 교과서: 파이토치 편…)
	박해선 (Machine Learning with Python C…)
	ddddd (Machine Learning with Python C…)
	박해선 (Essential Math for Data Scienc…)
	dk kkk (Essential Math for Data Scienc…)
	이시은 (About Me)
	박해선 (About Me)
	이시은 (About Me)

텐서 플로우 블로그 (Tensor ≈ Blog)

머신러닝(Machine Learning), 딥러닝(Deep Learning) 그리고 텐서(Tensor) 또 파이썬(Python)

트랜스포머를 활용한 자연어 처리

댓글 남기기 응답 취소

이 글 공유하기:

댓글 남기기 응답 취소