본문 바로가기
python

파이썬 자주쓰는 정규식 1

by 타닥타닥 토다토닥 부부 2024. 2. 21.
반응형

파이썬 자주쓰는 정규식 1

 

띄어쓰기 연속되는 것을 하나의 띄어쓰기로 변경하기

 

아래 코드에서 \s+는 하나 이상의 공백 문자(스페이스, 탭, 개행 등)를 의미합니다. re.sub 함수를 사용하여 이 패턴에 해당하는 부분을 하나의 공백으로 대체합니다. 결과적으로 연속된 여러 개의 띄어쓰기가 하나의 띄어쓰기로 변경됩니다.

import re

# 입력 문자열
input_string = "여러   개의    띄어쓰기    가   있는   문장"

# 정규식을 사용하여 연속된 여러 개의 띄어쓰기를 하나의 띄어쓰기로 변경
output_string = re.sub(r'\s+', ' ', input_string)

# 결과 출력
print(output_string)

 

특수문자 제거하기

 

아래 코드에서 re.sub() 함수를 사용하여 주어진 패턴에 해당하는 특수문자를 빈 문자열로 대체하여 삭제합니다. 결과적으로 특수문자가 제거된 문자열이 출력됩니다.

import re

# 주어진 문자열
input_string = "이것은@특수문자&가!포함된#문자열입니다."

# 특수문자를 제거하는 정규식 패턴
pattern = r'[-=+,#/\?:^.@*\"※~ㆍ!』‘|\\(\)\[\]`\'…》\”“’·]'

# 정규식을 사용하여 특수문자 제거
result_string = re.sub(pattern, '', input_string)

# 결과 출력
print(result_string)

 

한글과 숫자만 추출하기

 

아래 코드에서 re.compile() 함수를 사용하여 정규식 패턴을 컴파일하고, [가-힣0-9]+ 패턴은 한글과 숫자를 나타냅니다. findall() 함수를 사용하여 해당 패턴에 매칭되는 모든 부분을 추출합니다. 결과적으로는 한글과 숫자만 포함된 리스트가 출력됩니다.

import re

# 주어진 문자열
input_string = "이 문자열asd에는 123 숫자^#@$와 한글이 포함wewf되어 있습니다."

# 한글과 숫자를 추출하는 정규식 패턴
pattern = re.compile(r'[가-힣0-9]+')

# 정규식을 사용하여 한글과 숫자 추출
result_list = pattern.findall(input_string)

# 결과 출력
print(result_list)

 

 

괄호 포함 괄호 안에 문자 제거

 

아래 코드에서 re.sub 함수는 주어진 패턴에 일치하는 부분을 지정된 문자열로 대체합니다. 정규식 패턴 r'\([^)]*\)'은 괄호 안의 모든 문자열을 찾아내기 위한 것입니다. 여기서 \(는 여는 괄호를 나타내고, [^)]*는 여는 괄호 다음에 나오는 닫는 괄호까지의 모든 문자열을 의미합니다. 마지막으로 )는 닫는 괄호를 나타냅니다.

import re

def remove_content_inside_parentheses(input_string):
    # 정규식 패턴을 사용하여 괄호 안의 내용을 찾아서 삭제
    result = re.sub(r'\([^)]*\)', '', input_string)
    return result

# 예시
input_string = "이 문장은 (괄호 안에 있는 내용을 지웁니다) 예시입니다."
output_string = remove_content_inside_parentheses(input_string)
print(output_string)

 

반응형

댓글