이 책은 허깅페이스의 엔지니어인 루이스 턴스톨(Lewis Tunstall), 레안드로 폰 베라(Leandro von Werra), 토마스 울프(Thomas Wolf)가 쓴 아마존 베스트 셀러 <Natural Language Processing with Transformers>의 번역서입니다.
허깅페이스의 트랜스포머스 라이브러리는 자연어 처리를 넘어 딥러닝 전영역으로 영향력을 빠르게 미치고 있습니다. 이 책은 트랜스포머 아키텍처와 허깅페이스에서 제공하는 다양한 라이브러리를 배울 수 있는 최상의 도구입니다! 책의 각 장에 대한 간단한 요약 설명은 “트랜스포머를 활용한 자연어 처리” 번역을 마쳤습니다. 글을 참고하세요!

- 온/오프라인 서점에서 판매 중입니다! [Yes24] [교보문고] [알라딘] [한빛미디어]
- 484페이지, 풀컬러:
39,000원–> 35,100원 - 이 책에 실린 코드는 깃허브에서 주피터 노트북으로 제공합니다.
이 페이지에서 책의 에러타와 라이브러리 버전 변경에 따른 변경 사항을 업데이트하겠습니다. 궁금한 점이나 오류가 있다면 페이지 맨 아래 ‘Your Inputs‘에 자유롭게 글을 써 주세요. 또 제 이메일을 통해서 알려 주셔도 되고 구글 그룹스 머신러닝 도서 Q&A에 글을 올려 주셔도 좋습니다.
감사합니다! 🙂
Outputs (aka. errata)
- ~8: 2쇄에 반영되었습니다.
- (p53) 아래에서 5번째 줄에
emotions = load_dataset("emotion")
을emotions = load_datasets("SetFit/emotion")
으로 수정합니다.(홍*호 님)
추가내용:SetFit/emotion
의label
특성은ClassLabel
객체가 아닙니다. 수동으로ClassLabel
객체를 만들어 주세요.from datasets import ClassLabel
emotions['train'].features['label'] = ClassLabel(
num_classes=6,
names=['sadness', 'joy', 'love', 'anger', 'fear', 'surprise']) - (p125) XLM-RoBERTa 항목 아래 5번째와 6번째 줄에서 ‘XML‘을 ‘XLM‘으로 정정합니다.(주*피 님)
- (p194) 페이지에 있는 다음 코드를
output_temp = model.generate(input_ids, max_length=max_length, do_sample=True,
temperature=0.5, top_k=0)
print(tokenizer.decode(output_temp[0]))
아래와 같이 정정합니다.output_topk = model.generate(input_ids, max_length=max_length, do_sample=True,
top_k=50)
print(tokenizer.decode(output_topk[0]))
(이*욱 님) - (p291)
compute_loss
메서드의 첫 번째 줄 위에 다음 코드를 추가합니다(관련 PR: https://github.com/nlp-with-transformers/notebooks/pull/64).device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
inputs = inputs.to(device) - (p125) XLM-RoBERTa 항목 아래 5번째 줄에서 ‘TML‘을 ‘TLM‘으로 정정합니다.(이*혁 님)
- (p193) 그림 5-3에서 아래쪽 그래프의 y 축 레이블을 ‘개수‘에서 ‘확률‘로 정정합니다.(이*혁 님)
- (p414) 위에서 9번째 줄에
for tokenized_input in tokenized_inputs:
를 삭제합니다.(이*욱 님) - (p184) 위에서 7번째 줄, (p185) 위에서 2번째, 3번째, 4번째 줄에서 ‘그리드 서치 디코딩’을 ‘그리디 서치 디코딩’으로 정정합니다.(최*신 님)
Your Inputs